Show HN: เครื่องมือสำหรับจัดระเบียบและแปลงหน้าเว็บเป็น Markdown (markdowndown.vercel.app) 3 คะแนน โดย GN⁺ 2024-04-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp บทความที่เกี่ยวข้อง defuddle - แยกเนื้อหาจากเว็บเพจใดก็ได้เป็น Markdown 56 คะแนน · 8 ความคิดเห็น · 2026-03-16 HTML-to-Markdown - แปลงทั้งเว็บไซต์เป็น Markdown ด้วย Golang/CLI 9 คะแนน · 1 ความคิดเห็น · 2024-11-10 วิธีที่ Vercel ลดขนาดหน้าเว็บจาก 500KB → 2KB สำหรับ AI Agent 17 คะแนน · 2 ความคิดเห็น · 2026-02-09 Quarkdown 2.0.0 - Markdown ที่ทรงพลังยิ่งขึ้น 1 คะแนน · 1 ความคิดเห็น · 22 일 전 Show HN: แนะนำ Bullshit Remover 1 คะแนน · 1 ความคิดเห็น · 2024-09-16 1 ความคิดเห็น GN⁺ 2024-04-15 ความคิดเห็นใน Hacker News สรุปได้ดังนี้: ระหว่างพัฒนาเครื่องมือที่แปลงหน้าเว็บเป็น Markdown มีความกังวลเรื่องการจัดการภาระงานและความยั่งยืนของบริการฟรี ปัญหาสำคัญในการแปลงหน้าเว็บเป็น Markdown มีดังนี้: การสแครปเนื้อหาของหน้าอย่างละเอียดถี่ถ้วน (recall สูง) การลบโฆษณา/เนื้อหาเสริมออก (precision สูง) การดึงเลย์เอาต์/ประเภทของส่วนต่าง ๆ ได้อย่างถูกต้อง (การจัดรูปแบบ) เครื่องมือโอเพนซอร์สที่มีอยู่เดิม (Trafilatura, Newspaper4k, python-readability เป็นต้น) แสดงประสิทธิภาพได้ในระดับหนึ่งอยู่แล้ว จึงอยากรู้จุดสร้างความแตกต่างหรือจุดที่ปรับปรุงได้ ในกรณีของเว็บไซต์ที่มีข้อความคุกกี้เด้งขึ้นมา มีปัญหาที่ระบบจะพาร์สเฉพาะเนื้อหาเกี่ยวกับคุกกี้แทนคอนเทนต์จริง (เช่น cnbc.com) ไอเดียอย่างการใช้ GPT สำหรับดาวน์โหลดภาพและคัดกรองภาพเป็นแนวคิดที่ดี แนะนำเครื่องมือที่คล้ายกัน: url2text.com: สามารถดึง HTML ที่เรนเดอร์ด้วย JS, เมทาดาทา, ภาพหน้าจอ ฯลฯ ออกมาได้พร้อมกัน firecrawl.dev: รองรับการครอว์ลทั้งเว็บไซต์ ไม่ใช่แค่หน้าเดียว substack-ai.vercel.app: เชี่ยวชาญด้านการดึงคอนเทนต์จากจดหมายข่าว Substack content-parser.com: รองรับหลายรูปแบบ เช่น Markdown, HTML, ข้อความ, PDF เป็นต้น สามารถทำฟังก์ชันคล้ายกันได้ด้วยเครื่องมือแปลงเอกสารแบบอเนกประสงค์อย่าง pandoc เครื่องมือส่วนใหญ่พัฒนาขึ้นโดยอาศัยโปรเจ็กต์ readability ของ Mozilla
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
สรุปได้ดังนี้:
Trafilatura,Newspaper4k,python-readabilityเป็นต้น) แสดงประสิทธิภาพได้ในระดับหนึ่งอยู่แล้ว จึงอยากรู้จุดสร้างความแตกต่างหรือจุดที่ปรับปรุงได้cnbc.com)url2text.com: สามารถดึง HTML ที่เรนเดอร์ด้วย JS, เมทาดาทา, ภาพหน้าจอ ฯลฯ ออกมาได้พร้อมกันfirecrawl.dev: รองรับการครอว์ลทั้งเว็บไซต์ ไม่ใช่แค่หน้าเดียวsubstack-ai.vercel.app: เชี่ยวชาญด้านการดึงคอนเทนต์จากจดหมายข่าว Substackcontent-parser.com: รองรับหลายรูปแบบ เช่น Markdown, HTML, ข้อความ, PDF เป็นต้นpandocreadabilityของ Mozilla