- เครื่องมือโอเพนซอร์สที่แปลงเอกสาร PDF และ JPG/PNG เป็นข้อความธรรมดา โดยคงลำดับการอ่านที่เป็นธรรมชาติไว้
- ออกแบบมาให้ประมวลผลเอกสารจำนวนมากได้อย่างรวดเร็ว และรองรับตาราง สมการ ลายมือเขียน เป็นต้น
- ฝึกจากบทความวิชาการ เอกสารทางเทคนิค และเอกสารอ้างอิงอื่น ๆ
- ใช้วิธีเพิ่มความแม่นยำและลดอาการหลอน (hallucination) ด้วยเทคนิคพรอมป์ติงเฉพาะ
- ปัจจุบันโมเดลนี้ปรับแต่งมาสำหรับเอกสารภาษาอังกฤษ และมีความเป็นไปได้สูงว่าจะยังไม่รองรับภาษาอื่นได้ดี
- สามารถทดสอบเอกสารได้โดยตรงบนหน้าเดโม
- ต้นทุนการแปลง 1 ล้านหน้าอยู่ที่ประมาณ $190 USD ทำให้ใช้งานได้อย่างประหยัด
- ต้องใช้ GPU NVIDIA รุ่นใหม่ (ทดสอบแล้วกับ RTX 4090, L40S, A100, H100)
- ลองทดสอบได้ที่ เดโมออนไลน์ (PDF, JPG, PNG)
โค้ดที่รวมอยู่ในโอเพนซอร์สทูลคิท
- กลยุทธ์พรอมป์ติงที่อิง ChatGPT 4o (
buildsilver.py) : มีเทคนิคสำหรับเพิ่มประสิทธิภาพการแยกวิเคราะห์ข้อความธรรมชาติให้สูงสุด
- เครื่องมือประเมินเปรียบเทียบไปป์ไลน์ (
runeval.py)
- ฟังก์ชันกรองภาษาและลบสแปม SEO (
filter.py)
- โค้ด Fine-tuning สำหรับ Qwen2-VL และ Molmo-O (
train.py)
- ไปป์ไลน์สำหรับประมวลผล PDF จำนวนมาก (
pipeline.py) : สามารถประมวลผล PDF หลายล้านไฟล์ได้โดยใช้ Sglang
- ตัวดูเอกสาร Dolma (
dolmaviewer.py) : สามารถตรวจสอบเอกสารรูปแบบ Dolma ที่แปลงมาจาก PDF ได้แบบภาพ
2 ความคิดเห็น
ตอนนี้ดูเหมือนว่ายังใช้งานบน Windows ไม่ได้สินะ..
ดูเหมือนว่าไลบรารีที่ทำงานได้โดยไม่ต้องใช้ GPU ก็คงยังพอมีประโยชน์อยู่ในตอนนี้