25 คะแนน โดย xguru 2025-03-03 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • เครื่องมือโอเพนซอร์สที่แปลงเอกสาร PDF และ JPG/PNG เป็นข้อความธรรมดา โดยคงลำดับการอ่านที่เป็นธรรมชาติไว้
  • ออกแบบมาให้ประมวลผลเอกสารจำนวนมากได้อย่างรวดเร็ว และรองรับตาราง สมการ ลายมือเขียน เป็นต้น
  • ฝึกจากบทความวิชาการ เอกสารทางเทคนิค และเอกสารอ้างอิงอื่น ๆ
  • ใช้วิธีเพิ่มความแม่นยำและลดอาการหลอน (hallucination) ด้วยเทคนิคพรอมป์ติงเฉพาะ
  • ปัจจุบันโมเดลนี้ปรับแต่งมาสำหรับเอกสารภาษาอังกฤษ และมีความเป็นไปได้สูงว่าจะยังไม่รองรับภาษาอื่นได้ดี
  • สามารถทดสอบเอกสารได้โดยตรงบนหน้าเดโม
  • ต้นทุนการแปลง 1 ล้านหน้าอยู่ที่ประมาณ $190 USD ทำให้ใช้งานได้อย่างประหยัด
  • ต้องใช้ GPU NVIDIA รุ่นใหม่ (ทดสอบแล้วกับ RTX 4090, L40S, A100, H100)
  • ลองทดสอบได้ที่ เดโมออนไลน์ (PDF, JPG, PNG)

โค้ดที่รวมอยู่ในโอเพนซอร์สทูลคิท

  • กลยุทธ์พรอมป์ติงที่อิง ChatGPT 4o (buildsilver.py) : มีเทคนิคสำหรับเพิ่มประสิทธิภาพการแยกวิเคราะห์ข้อความธรรมชาติให้สูงสุด
  • เครื่องมือประเมินเปรียบเทียบไปป์ไลน์ (runeval.py)
  • ฟังก์ชันกรองภาษาและลบสแปม SEO (filter.py)
  • โค้ด Fine-tuning สำหรับ Qwen2-VL และ Molmo-O (train.py)
  • ไปป์ไลน์สำหรับประมวลผล PDF จำนวนมาก (pipeline.py) : สามารถประมวลผล PDF หลายล้านไฟล์ได้โดยใช้ Sglang
  • ตัวดูเอกสาร Dolma (dolmaviewer.py) : สามารถตรวจสอบเอกสารรูปแบบ Dolma ที่แปลงมาจาก PDF ได้แบบภาพ

2 ความคิดเห็น

 
kleinstein 2025-03-06

ตอนนี้ดูเหมือนว่ายังใช้งานบน Windows ไม่ได้สินะ..

 
kaydash 2025-03-03

ดูเหมือนว่าไลบรารีที่ทำงานได้โดยไม่ต้องใช้ GPU ก็คงยังพอมีประโยชน์อยู่ในตอนนี้