Marker - โอเพนซอร์สสำหรับแปลง PDF เป็น Markdown

xguru · 2023-12-04T10:04:01+09:00

แปลง PDF, EPUB, MOBI เป็น Markdown แปลงได้เร็วกว่าและแม่นยำกว่า Nougat ที่สร้างโดย Facebook Research มากกว่า 10 เท่า ปรับให้เหมาะกับรูปแบบหนังสือและงานวิจัย ลบส่วนหัว ส่วนท้าย และอาร์ติแฟกต์อื่น ๆ ออก สูตรคณิตศาสตร์ส่วนใหญ่ถูกแปลงเป็น LaTeX จัดรูปแบบ code block และตาราง รองรับหลายภาษา

(github.com/VikParuchuri)

37 คะแนน โดย xguru 2023-12-04 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

แปลง PDF, EPUB, MOBI เป็น Markdown
แปลงได้เร็วกว่าและแม่นยำกว่า Nougat ที่สร้างโดย Facebook Research มากกว่า 10 เท่า
ปรับให้เหมาะกับรูปแบบหนังสือและงานวิจัย
ลบส่วนหัว ส่วนท้าย และอาร์ติแฟกต์อื่น ๆ ออก
สูตรคณิตศาสตร์ส่วนใหญ่ถูกแปลงเป็น LaTeX
จัดรูปแบบ code block และตาราง
รองรับหลายภาษา

6 ความคิดเห็น

bus710 2023-12-05

โอ้โห….
ดูเหมือนว่าสำนักพิมพ์ในโลกภาษาอังกฤษกำลังจะเจอบททดสอบแล้วนะ
มีสำนักพิมพ์สายเทคบางแห่งที่เวลาเราซื้อหนังสือก็แถมไฟล์ PDF มาให้เลยด้วย เลยสงสัยว่าเขาจะรับมือกันยังไงต่อไป

hero512 2023-12-04

PDF จำเป็นต้องผ่าน OCR ก่อนหรือเปล่าครับ?? ต้องลองใช้ดูเดี๋ยวนี้เลย

limc132 2023-12-04

เท่าที่ดูแค่ใน README เหมือนว่าจะทำงาน OCR ให้ด้วยนะครับ...หรือผมอาจจะอ่านผิดก็ได้...

hero512 2023-12-04

ใช่ครับ.. สำหรับคนที่ไม่ค่อยเก่งอังกฤษแบบผม มันใช้คำที่ค่อนข้างเข้าใจยากนะ
Extract text, OCR if necessary??

say8425 2023-12-04

This works best on digital PDFs that won't require a lot of OCR. It's optimized for speed, and limited OCR is used to fix errors.

เนื่องจากเน้นความเร็วเป็นหลัก จึงมีโอกาสสูงว่าจะไม่เหมาะกับ PDF ที่ต้องใช้ OCR จำนวนมาก
พอทำ OCR ได้อยู่ แต่เข้าใจได้ว่าไม่ได้มีการรับประกันอะไร

Only languages similar to English (Spanish, French, German, Russian, etc) are supported. Languages with different character sets (Chinese, Japanese, Korean, etc) are not.

นอกจากนี้ยังไม่รองรับ CJK

hero512 2023-12-04

ขอบคุณครับ!

Marker - โอเพนซอร์สสำหรับแปลง PDF เป็น Markdown

บทความที่เกี่ยวข้อง

6 ความคิดเห็น