แปลง PDF เป็น Markdown ด้วย markitdown และ LLM

computerphilosopher · 2025-09-20T18:57:27+09:00

PDF ยังคงเป็นฟอร์แมตเอกสารหลัก → แต่มีข้อจำกัดต่อประสิทธิภาพการค้นหาของ LLM ทดลองแปลง PDF → Markdown ด้วย markitdown โอเพนซอร์สจาก Microsoft ยังมีข้อจำกัด เช่น สมการหรือเลย์เอาต์ผิดเพี้ยน แต่ปรับให้อ่านง่ายขึ้นได้ด้วยการแก้ไขผ่าน LLM เหมาะกับ PDF แบบคอลัมน์เดียวและเน้นข้อความ ส่วนเอกสารซับซ้อนยังมีข้อจำกัด

(velog.io)

18 คะแนน โดย computerphilosopher 2025-09-20 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

PDF ยังคงเป็นฟอร์แมตเอกสารหลัก → แต่มีข้อจำกัดต่อประสิทธิภาพการค้นหาของ LLM
ทดลองแปลง PDF → Markdown ด้วย markitdown โอเพนซอร์สจาก Microsoft
ยังมีข้อจำกัด เช่น สมการหรือเลย์เอาต์ผิดเพี้ยน แต่ปรับให้อ่านง่ายขึ้นได้ด้วยการแก้ไขผ่าน LLM
เหมาะกับ PDF แบบคอลัมน์เดียวและเน้นข้อความ ส่วนเอกสารซับซ้อนยังมีข้อจำกัด

5 ความคิดเห็น

ahwjdekf 2025-09-23

แม้แต่ใน RAG ก็ยังมีปัญหากับเอกสาร PDF พวกนี้อยู่เสมอ

ahwjdekf 2025-09-22

ฟอร์แมตที่แย่ที่สุด, PDF

kbumsik 2025-09-22

markitdown สะดวกสำหรับการแปลงข้ามฟอร์แมต แต่กับ PDF ไม่ควรใช้เด็ดขาดเลย จริงๆ

ทุกวันนี้มีวิธีใช้มัลติโหมด LLM อย่าง Gemini สำหรับการดึงข้อมูลเอกสารออกมาเยอะมากแล้ว และผลบนเบนช์มาร์กก็ค่อนข้างดีทีเดียว เพียงแต่ปัญหาคือค่าใช้จ่าย

พวกอย่าง docling ก็ดีเหมือนกันครับ

kaydash 2025-09-22

docling ก็ดีเหมือนกัน

lamanus 2025-09-21

markitdown ใช้ https://github.com/pdfminer/pdfminer.six สำหรับการแยกวิเคราะห์ PDF และดึงข้อความหรือรูปภาพที่ฝังอยู่จากไฟล์ออกมาตรง ๆ พอเห็นว่าเป็น OCR ก็ชวนมึนเลย...

แปลง PDF เป็น Markdown ด้วย markitdown และ LLM

บทความที่เกี่ยวข้อง

5 ความคิดเห็น