1 ความคิดเห็น

 
GN⁺ 2024-04-15
ความคิดเห็นใน Hacker News

สรุปได้ดังนี้:

  • ระหว่างพัฒนาเครื่องมือที่แปลงหน้าเว็บเป็น Markdown มีความกังวลเรื่องการจัดการภาระงานและความยั่งยืนของบริการฟรี
  • ปัญหาสำคัญในการแปลงหน้าเว็บเป็น Markdown มีดังนี้:
    1. การสแครปเนื้อหาของหน้าอย่างละเอียดถี่ถ้วน (recall สูง)
    2. การลบโฆษณา/เนื้อหาเสริมออก (precision สูง)
    3. การดึงเลย์เอาต์/ประเภทของส่วนต่าง ๆ ได้อย่างถูกต้อง (การจัดรูปแบบ)
  • เครื่องมือโอเพนซอร์สที่มีอยู่เดิม (Trafilatura, Newspaper4k, python-readability เป็นต้น) แสดงประสิทธิภาพได้ในระดับหนึ่งอยู่แล้ว จึงอยากรู้จุดสร้างความแตกต่างหรือจุดที่ปรับปรุงได้
  • ในกรณีของเว็บไซต์ที่มีข้อความคุกกี้เด้งขึ้นมา มีปัญหาที่ระบบจะพาร์สเฉพาะเนื้อหาเกี่ยวกับคุกกี้แทนคอนเทนต์จริง (เช่น cnbc.com)
  • ไอเดียอย่างการใช้ GPT สำหรับดาวน์โหลดภาพและคัดกรองภาพเป็นแนวคิดที่ดี
  • แนะนำเครื่องมือที่คล้ายกัน:
    • url2text.com: สามารถดึง HTML ที่เรนเดอร์ด้วย JS, เมทาดาทา, ภาพหน้าจอ ฯลฯ ออกมาได้พร้อมกัน
    • firecrawl.dev: รองรับการครอว์ลทั้งเว็บไซต์ ไม่ใช่แค่หน้าเดียว
    • substack-ai.vercel.app: เชี่ยวชาญด้านการดึงคอนเทนต์จากจดหมายข่าว Substack
    • content-parser.com: รองรับหลายรูปแบบ เช่น Markdown, HTML, ข้อความ, PDF เป็นต้น
  • สามารถทำฟังก์ชันคล้ายกันได้ด้วยเครื่องมือแปลงเอกสารแบบอเนกประสงค์อย่าง pandoc
  • เครื่องมือส่วนใหญ่พัฒนาขึ้นโดยอาศัยโปรเจ็กต์ readability ของ Mozilla