Marker - โอเพนซอร์สสำหรับแปลง PDF เป็น Markdown
(github.com/VikParuchuri)- แปลง PDF, EPUB, MOBI เป็น Markdown
- แปลงได้เร็วกว่าและแม่นยำกว่า Nougat ที่สร้างโดย Facebook Research มากกว่า 10 เท่า
- ปรับให้เหมาะกับรูปแบบหนังสือและงานวิจัย
- ลบส่วนหัว ส่วนท้าย และอาร์ติแฟกต์อื่น ๆ ออก
- สูตรคณิตศาสตร์ส่วนใหญ่ถูกแปลงเป็น LaTeX
- จัดรูปแบบ code block และตาราง
- รองรับหลายภาษา
6 ความคิดเห็น
โอ้โห….
ดูเหมือนว่าสำนักพิมพ์ในโลกภาษาอังกฤษกำลังจะเจอบททดสอบแล้วนะ
มีสำนักพิมพ์สายเทคบางแห่งที่เวลาเราซื้อหนังสือก็แถมไฟล์ PDF มาให้เลยด้วย เลยสงสัยว่าเขาจะรับมือกันยังไงต่อไป
PDF จำเป็นต้องผ่าน OCR ก่อนหรือเปล่าครับ?? ต้องลองใช้ดูเดี๋ยวนี้เลย
เท่าที่ดูแค่ใน README เหมือนว่าจะทำงาน OCR ให้ด้วยนะครับ...หรือผมอาจจะอ่านผิดก็ได้...
ใช่ครับ.. สำหรับคนที่ไม่ค่อยเก่งอังกฤษแบบผม มันใช้คำที่ค่อนข้างเข้าใจยากนะ
Extract text, OCR if necessary??
> This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.
เนื่องจากเน้นความเร็วเป็นหลัก จึงมีโอกาสสูงว่าจะไม่เหมาะกับ PDF ที่ต้องใช้ OCR จำนวนมาก
พอทำ OCR ได้อยู่ แต่เข้าใจได้ว่าไม่ได้มีการรับประกันอะไร
> Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.
นอกจากนี้ยังไม่รองรับ CJK
ขอบคุณครับ!