- ใน Omni OCR Benchmark ที่ใช้วิเคราะห์ประสิทธิภาพของ OCR มีการเปรียบเทียบโมเดลที่เพิ่งเปิดตัวล่าสุดรวมถึง Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 และ mistral-ocr
- โมเดล Qwen 2.5 VL 72B/32B ทำสถิติความแม่นยำสูงสุด
- ทั้งคู่มีความแม่นยำราว 75% แสดงประสิทธิภาพในระดับเดียวกับ GPT-4o
- Qwen 72B ทำความแม่นยำได้สูงกว่า 32B อยู่ 0.4% ซึ่งถือว่าใกล้เคียงกันมากและแทบอยู่ในช่วงค่าคลาดเคลื่อน
- โมเดล Qwen ทั้งสองตัวทำผลงานเหนือกว่า mistral-ocr (72.2%)
- แม้ว่า mistral-ocr จะเป็นโมเดลที่ฝึกมาเฉพาะทางสำหรับ OCR ก็ยังตามหลัง Qwen
- โมเดล Gemma-3 (27B) มีความแม่นยำต่ำที่ 42.9%
- แม้จะอิงสถาปัตยกรรม Gemini 2.0 แต่กลับมีประสิทธิภาพต่ำ จึงเป็นผลลัพธ์ที่ค่อนข้างน่าแปลกใจ
Omni OCR Benchmark
- เป็นเครื่องมือเบนช์มาร์กสำหรับเปรียบเทียบความสามารถด้าน OCR และการดึงข้อมูล โดยประเมิน ความแม่นยำในการดึงข้อความและ JSON ของโมเดลมัลติโหมดขนาดใหญ่ เช่น GPT-4o
- เป้าหมายของเบนช์มาร์กนี้คือการเผยแพร่การวัดประสิทธิภาพความแม่นยำของ OCR แบบครอบคลุม ทั้งในกลุ่มผู้ให้บริการ OCR แบบดั้งเดิมและโมเดลภาษามัลติโหมดโดยรวม
- ทั้งชุดข้อมูลสำหรับการประเมินและวิธีวิทยาถูกเผยแพร่แบบโอเพนซอร์สทั้งหมด และยังสนับสนุนให้ขยายเบนช์มาร์กนี้เพื่อรวมผู้ให้บริการเพิ่มเติม
1 ความคิดเห็น
ความเห็นจาก Hacker News