Qwen-2.5-32B ตอนนี้เป็นโมเดล OCR โอเพนซอร์สที่ดีที่สุดแล้ว

(github.com/getomni-ai)

8 คะแนน โดย GN⁺ 2025-04-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ใน Omni OCR Benchmark ที่ใช้วิเคราะห์ประสิทธิภาพของ OCR มีการเปรียบเทียบโมเดลที่เพิ่งเปิดตัวล่าสุดรวมถึง Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 และ mistral-ocr
โมเดล Qwen 2.5 VL 72B/32B ทำสถิติความแม่นยำสูงสุด
- ทั้งคู่มีความแม่นยำราว 75% แสดงประสิทธิภาพในระดับเดียวกับ GPT-4o
- Qwen 72B ทำความแม่นยำได้สูงกว่า 32B อยู่ 0.4% ซึ่งถือว่าใกล้เคียงกันมากและแทบอยู่ในช่วงค่าคลาดเคลื่อน
โมเดล Qwen ทั้งสองตัวทำผลงานเหนือกว่า mistral-ocr (72.2%)
- แม้ว่า mistral-ocr จะเป็นโมเดลที่ฝึกมาเฉพาะทางสำหรับ OCR ก็ยังตามหลัง Qwen
โมเดล Gemma-3 (27B) มีความแม่นยำต่ำที่ 42.9%
- แม้จะอิงสถาปัตยกรรม Gemini 2.0 แต่กลับมีประสิทธิภาพต่ำ จึงเป็นผลลัพธ์ที่ค่อนข้างน่าแปลกใจ

Omni OCR Benchmark

เป็นเครื่องมือเบนช์มาร์กสำหรับเปรียบเทียบความสามารถด้าน OCR และการดึงข้อมูล โดยประเมิน ความแม่นยำในการดึงข้อความและ JSON ของโมเดลมัลติโหมดขนาดใหญ่ เช่น GPT-4o
เป้าหมายของเบนช์มาร์กนี้คือการเผยแพร่การวัดประสิทธิภาพความแม่นยำของ OCR แบบครอบคลุม ทั้งในกลุ่มผู้ให้บริการ OCR แบบดั้งเดิมและโมเดลภาษามัลติโหมดโดยรวม
ทั้งชุดข้อมูลสำหรับการประเมินและวิธีวิทยาถูกเผยแพร่แบบโอเพนซอร์สทั้งหมด และยังสนับสนุนให้ขยายเบนช์มาร์กนี้เพื่อรวมผู้ให้บริการเพิ่มเติม

1 ความคิดเห็น

GN⁺ 2025-04-04

ความเห็นจาก Hacker News

32b ให้ผลลัพธ์ที่เป็นมิตรกับมนุษย์มากกว่า เหนือกว่าในด้านการให้เหตุผลเชิงคณิตศาสตร์ และฟีเจอร์ปรับแต่งเล็ก ๆ เพื่อช่วยให้เข้าใจรายละเอียดก็ดูมีประโยชน์
Qwen2.5-VL-72b เปิดตัวเมื่อสองเดือนก่อน และมีคอมเมนต์ที่ตื่นเต้นมากเกี่ยวกับการรู้จำลายมือ
- โมเดลนี้เป็นการเปิดตัวที่น่าสนใจซึ่งช่วยให้ก้าวข้ามความสงสัยและความไม่พอใจต่อ AI ได้
- บันทึกการเปิดตัวเรียบเรียงไว้ดี และโพสต์บล็อกก็ยอดเยี่ยม
เอาต์พุต HTML ของ Qwen น่าสนใจ
- มันให้กรอบขอบเขตในรูปแบบ HTML ทำให้สร้างฟีดแบ็กเชิงภาพได้อย่างรวดเร็วหรือใช้งานข้อมูลที่มีโครงสร้างได้ง่าย
- OCR แบบดั้งเดิมมีข้อได้เปรียบอย่างมากเหนือ LLM ในการให้พิกัดกรอบขอบเขต
หากยังไม่ถึงความแม่นยำเกิน 95% ก็ยังต้องมีมนุษย์ช่วยตรวจซ้ำและแก้ไข และหากไม่มีกรอบขอบเขต เรื่องนี้ก็แทบเป็นไปไม่ได้จริง
กำลังดาวน์โหลดเวอร์ชัน MLX ของ "Qwen2.5-VL-32b-Instruct -8bit" ผ่าน LM Studio และตั้งใจจะใช้กับโปรเจ็กต์ OCR งานอดิเรก
สงสัยว่าหากมีการวัดต้นทุนและเวลาแฝงนอกเหนือจากความแม่นยำด้วย จะช่วยแชร์ผลลัพธ์นั้นได้หรือไม่
ยังคงทึ่งกับความสามารถ OCR ของ Gemini อยู่เสมอ และ Qwen ก็กำลังพัฒนาอย่างรวดเร็ว
มีการเปรียบเทียบหลายโมเดลเพื่อใช้ทำงาน และโมเดลล่าสุดของ Qwen เสถียรกว่าเดิมมากและปรับจูนละเอียดได้ง่าย
ประสิทธิภาพ OCR ของ OpenAI ไม่ได้ดีขึ้นมานานแล้ว ซึ่งทั้งแปลกและน่าหงุดหงิด
Qwen 2.5 VL 72b เหนือกว่า Gemini ในงานวิชันทั่วไป และยังรันบนเครื่องโลคัลได้
กำลังทดลองกับ OCR API บน macOS และอยากเปรียบเทียบกับ LLM เหล่านี้
Tesseract สามารถทำความแม่นยำได้ 99% กับทุกอย่างยกเว้นลายมือ
สงสัยว่าการใช้ LLM มีข้อดีอะไรบ้าง
ประทับใจกับผลการทดสอบของ Qwen มาก และคิดว่าผู้คนยังประเมินมันต่ำเกินไป
สงสัยว่าผู้คนจัดโครงสร้างอินเทอร์เฟซ LLM อย่างไรเพื่อประมวลผลหลายไฟล์ด้วยพรอมป์ต์เดียว
เป็นผลงานที่ยอดเยี่ยมของ Tyler และทีม

Qwen-2.5-32B ตอนนี้เป็นโมเดล OCR โอเพนซอร์สที่ดีที่สุดแล้ว

Omni OCR Benchmark

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News