18 คะแนน โดย computerphilosopher 2025-09-20 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • PDF ยังคงเป็นฟอร์แมตเอกสารหลัก → แต่มีข้อจำกัดต่อประสิทธิภาพการค้นหาของ LLM
  • ทดลองแปลง PDF → Markdown ด้วย markitdown โอเพนซอร์สจาก Microsoft
  • ยังมีข้อจำกัด เช่น สมการหรือเลย์เอาต์ผิดเพี้ยน แต่ปรับให้อ่านง่ายขึ้นได้ด้วยการแก้ไขผ่าน LLM
  • เหมาะกับ PDF แบบคอลัมน์เดียวและเน้นข้อความ ส่วนเอกสารซับซ้อนยังมีข้อจำกัด

5 ความคิดเห็น

 
ahwjdekf 2025-09-23

แม้แต่ใน RAG ก็ยังมีปัญหากับเอกสาร PDF พวกนี้อยู่เสมอ

 
ahwjdekf 2025-09-22

ฟอร์แมตที่แย่ที่สุด, PDF

 
kbumsik 2025-09-22

markitdown สะดวกสำหรับการแปลงข้ามฟอร์แมต แต่กับ PDF ไม่ควรใช้เด็ดขาดเลย จริงๆ

ทุกวันนี้มีวิธีใช้มัลติโหมด LLM อย่าง Gemini สำหรับการดึงข้อมูลเอกสารออกมาเยอะมากแล้ว และผลบนเบนช์มาร์กก็ค่อนข้างดีทีเดียว เพียงแต่ปัญหาคือค่าใช้จ่าย

พวกอย่าง docling ก็ดีเหมือนกันครับ

 
kaydash 2025-09-22

docling ก็ดีเหมือนกัน

 
lamanus 2025-09-21

markitdown ใช้ https://github.com/pdfminer/pdfminer.six สำหรับการแยกวิเคราะห์ PDF และดึงข้อความหรือรูปภาพที่ฝังอยู่จากไฟล์ออกมาตรง ๆ พอเห็นว่าเป็น OCR ก็ชวนมึนเลย...