Microsoft MarkItDown - เครื่องมือ Python สำหรับแปลงไฟล์และเอกสารออฟฟิศเป็น Markdown
(github.com/microsoft)- เครื่องมือยูทิลิตีสำหรับแปลงไฟล์หลากหลายประเภทเป็น Markdown
- รูปแบบที่รองรับ:
- PDF (.pdf), PowerPoint (.pptx), Word (.docx), Excel (.xlsx)
- รูปภาพ (ข้อมูลเมตา EXIF และ OCR), เสียง (ข้อมูลเมตา EXIF และการถอดเสียง)
- HTML (มีการจัดการเป็นพิเศษโดยเฉพาะกับ Wikipedia เป็นต้น) และรูปแบบที่อิงข้อความอื่น ๆ อีกหลากหลาย (csv, json, xml เป็นต้น)
- วิธีใช้งาน API นั้นง่าย:
from markitdown import MarkItDown markitdown = MarkItDown() result = markitdown.convert("test.xlsx") print(result.text_content)
2 ความคิดเห็น
โอ้ ดูเหมือนว่าภายในไมโครซอฟท์เองก็กำลังจะทำให้มันเป็นโอเพนซอร์สเหมือนกันนะ?
ความเห็นจาก Hacker News
หากติดตั้ง
uvไว้แล้ว สามารถรันกับไฟล์ได้ด้วยคำสั่งuvx markitdown path-to-file.pdfโดยไม่ต้องติดตั้งเพิ่มเติมเคยมีประสบการณ์พัฒนาฟีเจอร์แปลงไฟล์เป็นข้อความที่เป็นมิตรกับ LLM ในบริษัท
มีทั้งสตาร์ตอัปและโปรเจกต์โอเพนซอร์สมากมายที่ทำให้พื้นที่นี้ซับซ้อนขึ้น แต่เป้าหมายสุดท้ายคือโปรเจกต์ที่เรียบง่าย เข้าใจง่าย และ deploy ได้ง่าย
ในการจัดการ PDF อยากให้มีฟีเจอร์ที่ปรับได้ว่า "ต้องการประมวลผลมากแค่ไหน"
สำหรับการจัดการ PDF การ integrate PDFMiner โดยตรงอาจจะดีกว่า
สามารถใช้ Pandoc แปลงไฟล์ .docx เป็น Markdown และไฟล์ฟอร์แมตอื่น ๆ ได้
เคยทำดัชนีหนังสือ tabletop RPG ในรูปแบบ PDF ที่มีเลย์เอาต์ภาพซับซ้อนและมีตารางจำนวนมาก
ค่อนข้างไม่คาดคิดแต่ถือว่าเป็นเรื่องดีที่ README ไม่ได้พูดถึง LLM เลย
แชร์ประสบการณ์จากตอนส่งการบ้านผ่าน Slack ในคลาสเรียนภาษาออนไลน์
สงสัยว่าเมื่อเทียบกับ docling แล้วเป็นอย่างไร
อยากรู้ว่ามีไลบรารีที่ดีสำหรับแปลง Markdown เป็น PDF หรือ .docx หรือไม่
ถ้าเป็น Microsoft ก็น่าจะทำผลลัพธ์จาก Outlook HTML และ .docx ให้ออกมาดีพอใช้ได้อย่างน้อยครึ่งหนึ่ง