- ตัวแยกเนื้อหาที่ ลบคอมเมนต์ แถบด้านข้าง ส่วนหัว และส่วนท้ายที่ไม่จำเป็นของเว็บเพจออก แล้วดึงเฉพาะเนื้อหาหลักที่ผ่านการจัดระเบียบเป็น HTML/Markdown
- สำหรับวิดีโอ YouTube สามารถแยกบทสนทนาตามผู้พูดแล้วดึงออกมาได้ (ตั้งแต่ 0.12.0)
- พัฒนาขึ้นสำหรับ Obsidian Web Clipper แต่สามารถใช้งานได้ในหลากหลายสภาพแวดล้อม เช่น เบราว์เซอร์และ Node.js
- ออกแบบมาเพื่อใช้แทน Mozilla Readability โดยให้การประมวลผลที่ยืดหยุ่นกว่าและผลลัพธ์ที่สม่ำเสมอ
- ลดการลบองค์ประกอบที่ยังไม่แน่ชัดให้น้อยที่สุด
- รองรับผลลัพธ์ที่เป็นมาตรฐานสำหรับเชิงอรรถ สมการ และโค้ดบล็อก
- ตรวจจับองค์ประกอบที่ไม่จำเป็นผ่าน การวิเคราะห์สไตล์บนอุปกรณ์พกพา
- ดึงเมตาดาต้าเพิ่มเติมโดยอัตโนมัติ รวมถึง เมตาดาต้า schema.org
- รองรับ CLI interface จึงสามารถพาร์ส HTML และ URL ได้โดยตรงจากเทอร์มินัล
- ใบอนุญาต MIT
8 ความคิดเห็น
Defuddle - โอเพนซอร์ส HTML-to-Markdown ที่มาแทน Readability
เคยถูกโพสต์ขึ้นมาครั้งหนึ่งเมื่อประมาณ 10 เดือนก่อน และครั้งนี้ได้เพิ่มฟีเจอร์สำหรับดึงบทสนทนาจากวิดีโอ YouTube พร้อมแยกผู้พูดแล้ว
นอกจากนี้ยังมีการเพิ่มฟีเจอร์อีกมากมายในช่วงที่ผ่านมา เช่น การดึงข้อมูล URL ของ X แบบอะซิงโครนัส, การดึงข้อมูลบทความ, รองรับแอป Substack, เพิ่ม CLI และรองรับ URL ของ GitHub เป็นต้น
Jina AI Reader - เครื่องมือที่แปลง URL ให้เป็นอินพุตที่เหมาะกับ LLM
อยากให้ลิงก์ภายในของ GeekNews ใส่ชื่อหัวข้อให้อัตโนมัติ...
แก้ไขไว้แล้วครับ จากนี้ความคิดเห็นที่โพสต์ต่อจากนี้จะถูกแปลงชื่อเรื่องโดยอัตโนมัติ
ว้าว ขอบคุณครับ
ว้าว นี่มันทำได้ทันทีแบบนี้เลยเหรอเนี่ย โอ้โห ผมเองก็เคยรู้สึกไม่สะดวกเหมือนกัน น่าจะลองบอกไปสักหน่อย
เหมือนว่าจะดึงออกมาเป็น Markdown ได้ไม่ค่อยแม่นนะครับ ดูเหมือนว่าจะดึงได้ดีเฉพาะกับเว็บเพจที่ทำ SEO มาอย่างดีตามเกณฑ์พอดีเท่านั้น ใช่ไหมครับ?
พอเอาไปใช้คู่กับ Claude Code แล้วดีมากจริง ๆ ครับ