OlmOCR - เครื่องมือโอเพนซอร์สสำหรับดึงข้อความจาก PDF

xguru · 2025-03-03T09:51:15+09:00

เครื่องมือโอเพนซอร์สที่แปลงเอกสาร PDF และ JPG/PNG เป็นข้อความธรรมดา โดยคงลำดับการอ่านที่เป็นธรรมชาติไว้ ออกแบบมาให้ประมวลผลเอกสารจำนวนมากได้อย่างรวดเร็ว และรองรับตาราง สมการ ลายมือเขียน เป็นต้น ฝึกจากบทความวิชาการ เอกสารทางเทคนิค และเอกสารอ้างอิงอื่น ๆ ใช้วิธีเพิ่มความแม่นยำและลดอาการหลอน (hallucination) ด้วยเทคนิคพรอมป์ติงเฉพาะ ปัจจุบันโมเดลนี้ปรับแต่งมาสำหรับเอกสารภาษาอังกฤษ และมีความเป็นไปได้สูงว่าจะยังไม่รองรับภาษาอื่นได้ดี สามารถทดสอบเอกสารได้โดยตรงบนหน้าเดโม ต้นทุนการแปลง 1 ล้านหน้าอยู่ที่ประมาณ $190 USD ทำให้ใช้งานได้อย่างประหยัด ต้องใช้ GPU NVIDIA รุ่นใหม่ (ทดสอบแล้วกับ RTX 4090, L40S, A100, H100) ลองทดสอบได้ที่ เดโมออนไลน์ (PDF, JPG, PNG) โค้ดที่รวมอยู่ในโอเพนซอร์สทูลคิท กลยุทธ์พรอมป์ติงที่อิง ChatGPT 4o (buildsilver.py) : มีเทคนิคสำหรับเพิ่มประสิทธิภาพการแยกวิเคราะห์ข้อความธรรมชาติให้สูงสุด เครื่องมือประเมินเปรียบเทียบไปป์ไลน์ (runeval.py) ฟังก์ชันกรองภาษาและลบสแปม SEO (filter.py) โค้ด Fine-tuning สำหรับ Qwen2-VL และ Molmo-O (train.py) ไปป์ไลน์สำหรับประมวลผล PDF จำนวนมาก (pipeline.py) : สามารถประมวลผล PDF หลายล้านไฟล์ได้โดยใช้ Sglang ตัวดูเอกสาร Dolma (dolmaviewer.py) : สามารถตรวจสอบเอกสารรูปแบบ Dolma ที่แปลงมาจาก PDF ได้แบบภาพ

(github.com/allenai)

25 คะแนน โดย xguru 2025-03-03 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เครื่องมือโอเพนซอร์สที่แปลงเอกสาร PDF และ JPG/PNG เป็นข้อความธรรมดา โดยคงลำดับการอ่านที่เป็นธรรมชาติไว้
ออกแบบมาให้ประมวลผลเอกสารจำนวนมากได้อย่างรวดเร็ว และรองรับตาราง สมการ ลายมือเขียน เป็นต้น
ฝึกจากบทความวิชาการ เอกสารทางเทคนิค และเอกสารอ้างอิงอื่น ๆ
ใช้วิธีเพิ่มความแม่นยำและลดอาการหลอน (hallucination) ด้วยเทคนิคพรอมป์ติงเฉพาะ
ปัจจุบันโมเดลนี้ปรับแต่งมาสำหรับเอกสารภาษาอังกฤษ และมีความเป็นไปได้สูงว่าจะยังไม่รองรับภาษาอื่นได้ดี
สามารถทดสอบเอกสารได้โดยตรงบนหน้าเดโม
ต้นทุนการแปลง 1 ล้านหน้าอยู่ที่ประมาณ $190 USD ทำให้ใช้งานได้อย่างประหยัด
ต้องใช้ GPU NVIDIA รุ่นใหม่ (ทดสอบแล้วกับ RTX 4090, L40S, A100, H100)
ลองทดสอบได้ที่ เดโมออนไลน์ (PDF, JPG, PNG)

โค้ดที่รวมอยู่ในโอเพนซอร์สทูลคิท

กลยุทธ์พรอมป์ติงที่อิง ChatGPT 4o (buildsilver.py) : มีเทคนิคสำหรับเพิ่มประสิทธิภาพการแยกวิเคราะห์ข้อความธรรมชาติให้สูงสุด
เครื่องมือประเมินเปรียบเทียบไปป์ไลน์ (runeval.py)
ฟังก์ชันกรองภาษาและลบสแปม SEO (filter.py)
โค้ด Fine-tuning สำหรับ Qwen2-VL และ Molmo-O (train.py)
ไปป์ไลน์สำหรับประมวลผล PDF จำนวนมาก (pipeline.py) : สามารถประมวลผล PDF หลายล้านไฟล์ได้โดยใช้ Sglang
ตัวดูเอกสาร Dolma (dolmaviewer.py) : สามารถตรวจสอบเอกสารรูปแบบ Dolma ที่แปลงมาจาก PDF ได้แบบภาพ

2 ความคิดเห็น

kleinstein 2025-03-06

ตอนนี้ดูเหมือนว่ายังใช้งานบน Windows ไม่ได้สินะ..

kaydash 2025-03-03

ดูเหมือนว่าไลบรารีที่ทำงานได้โดยไม่ต้องใช้ GPU ก็คงยังพอมีประโยชน์อยู่ในตอนนี้

OlmOCR - เครื่องมือโอเพนซอร์สสำหรับดึงข้อความจาก PDF

โค้ดที่รวมอยู่ในโอเพนซอร์สทูลคิท

บทความที่เกี่ยวข้อง

2 ความคิดเห็น