- PDF ยังคงเป็นฟอร์แมตเอกสารหลัก → แต่มีข้อจำกัดต่อประสิทธิภาพการค้นหาของ LLM
- ทดลองแปลง PDF → Markdown ด้วย markitdown โอเพนซอร์สจาก Microsoft
- ยังมีข้อจำกัด เช่น สมการหรือเลย์เอาต์ผิดเพี้ยน แต่ปรับให้อ่านง่ายขึ้นได้ด้วยการแก้ไขผ่าน LLM
- เหมาะกับ PDF แบบคอลัมน์เดียวและเน้นข้อความ ส่วนเอกสารซับซ้อนยังมีข้อจำกัด
5 ความคิดเห็น
แม้แต่ใน RAG ก็ยังมีปัญหากับเอกสาร PDF พวกนี้อยู่เสมอ
ฟอร์แมตที่แย่ที่สุด, PDF
markitdownสะดวกสำหรับการแปลงข้ามฟอร์แมต แต่กับ PDF ไม่ควรใช้เด็ดขาดเลย จริงๆทุกวันนี้มีวิธีใช้มัลติโหมด LLM อย่าง Gemini สำหรับการดึงข้อมูลเอกสารออกมาเยอะมากแล้ว และผลบนเบนช์มาร์กก็ค่อนข้างดีทีเดียว เพียงแต่ปัญหาคือค่าใช้จ่าย
พวกอย่าง
doclingก็ดีเหมือนกันครับdocling ก็ดีเหมือนกัน
markitdown ใช้ https://github.com/pdfminer/pdfminer.six สำหรับการแยกวิเคราะห์ PDF และดึงข้อความหรือรูปภาพที่ฝังอยู่จากไฟล์ออกมาตรง ๆ พอเห็นว่าเป็น OCR ก็ชวนมึนเลย...