8 คะแนน โดย GN⁺ 2025-04-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใน Omni OCR Benchmark ที่ใช้วิเคราะห์ประสิทธิภาพของ OCR มีการเปรียบเทียบโมเดลที่เพิ่งเปิดตัวล่าสุดรวมถึง Qwen 2.5 VL (72B, 32B), Gemma-3-27B, DeepSeek-v3-0324 และ mistral-ocr
  • โมเดล Qwen 2.5 VL 72B/32B ทำสถิติความแม่นยำสูงสุด
    • ทั้งคู่มีความแม่นยำราว 75% แสดงประสิทธิภาพในระดับเดียวกับ GPT-4o
    • Qwen 72B ทำความแม่นยำได้สูงกว่า 32B อยู่ 0.4% ซึ่งถือว่าใกล้เคียงกันมากและแทบอยู่ในช่วงค่าคลาดเคลื่อน
  • โมเดล Qwen ทั้งสองตัวทำผลงานเหนือกว่า mistral-ocr (72.2%)
    • แม้ว่า mistral-ocr จะเป็นโมเดลที่ฝึกมาเฉพาะทางสำหรับ OCR ก็ยังตามหลัง Qwen
  • โมเดล Gemma-3 (27B) มีความแม่นยำต่ำที่ 42.9%
    • แม้จะอิงสถาปัตยกรรม Gemini 2.0 แต่กลับมีประสิทธิภาพต่ำ จึงเป็นผลลัพธ์ที่ค่อนข้างน่าแปลกใจ

Omni OCR Benchmark

  • เป็นเครื่องมือเบนช์มาร์กสำหรับเปรียบเทียบความสามารถด้าน OCR และการดึงข้อมูล โดยประเมิน ความแม่นยำในการดึงข้อความและ JSON ของโมเดลมัลติโหมดขนาดใหญ่ เช่น GPT-4o
  • เป้าหมายของเบนช์มาร์กนี้คือการเผยแพร่การวัดประสิทธิภาพความแม่นยำของ OCR แบบครอบคลุม ทั้งในกลุ่มผู้ให้บริการ OCR แบบดั้งเดิมและโมเดลภาษามัลติโหมดโดยรวม
  • ทั้งชุดข้อมูลสำหรับการประเมินและวิธีวิทยาถูกเผยแพร่แบบโอเพนซอร์สทั้งหมด และยังสนับสนุนให้ขยายเบนช์มาร์กนี้เพื่อรวมผู้ให้บริการเพิ่มเติม

1 ความคิดเห็น

 
GN⁺ 2025-04-04
ความเห็นจาก Hacker News
  • 32b ให้ผลลัพธ์ที่เป็นมิตรกับมนุษย์มากกว่า เหนือกว่าในด้านการให้เหตุผลเชิงคณิตศาสตร์ และฟีเจอร์ปรับแต่งเล็ก ๆ เพื่อช่วยให้เข้าใจรายละเอียดก็ดูมีประโยชน์
  • Qwen2.5-VL-72b เปิดตัวเมื่อสองเดือนก่อน และมีคอมเมนต์ที่ตื่นเต้นมากเกี่ยวกับการรู้จำลายมือ
    • โมเดลนี้เป็นการเปิดตัวที่น่าสนใจซึ่งช่วยให้ก้าวข้ามความสงสัยและความไม่พอใจต่อ AI ได้
    • บันทึกการเปิดตัวเรียบเรียงไว้ดี และโพสต์บล็อกก็ยอดเยี่ยม
  • เอาต์พุต HTML ของ Qwen น่าสนใจ
    • มันให้กรอบขอบเขตในรูปแบบ HTML ทำให้สร้างฟีดแบ็กเชิงภาพได้อย่างรวดเร็วหรือใช้งานข้อมูลที่มีโครงสร้างได้ง่าย
    • OCR แบบดั้งเดิมมีข้อได้เปรียบอย่างมากเหนือ LLM ในการให้พิกัดกรอบขอบเขต
  • หากยังไม่ถึงความแม่นยำเกิน 95% ก็ยังต้องมีมนุษย์ช่วยตรวจซ้ำและแก้ไข และหากไม่มีกรอบขอบเขต เรื่องนี้ก็แทบเป็นไปไม่ได้จริง
  • กำลังดาวน์โหลดเวอร์ชัน MLX ของ "Qwen2.5-VL-32b-Instruct -8bit" ผ่าน LM Studio และตั้งใจจะใช้กับโปรเจ็กต์ OCR งานอดิเรก
  • สงสัยว่าหากมีการวัดต้นทุนและเวลาแฝงนอกเหนือจากความแม่นยำด้วย จะช่วยแชร์ผลลัพธ์นั้นได้หรือไม่
  • ยังคงทึ่งกับความสามารถ OCR ของ Gemini อยู่เสมอ และ Qwen ก็กำลังพัฒนาอย่างรวดเร็ว
  • มีการเปรียบเทียบหลายโมเดลเพื่อใช้ทำงาน และโมเดลล่าสุดของ Qwen เสถียรกว่าเดิมมากและปรับจูนละเอียดได้ง่าย
  • ประสิทธิภาพ OCR ของ OpenAI ไม่ได้ดีขึ้นมานานแล้ว ซึ่งทั้งแปลกและน่าหงุดหงิด
  • Qwen 2.5 VL 72b เหนือกว่า Gemini ในงานวิชันทั่วไป และยังรันบนเครื่องโลคัลได้
  • กำลังทดลองกับ OCR API บน macOS และอยากเปรียบเทียบกับ LLM เหล่านี้
  • Tesseract สามารถทำความแม่นยำได้ 99% กับทุกอย่างยกเว้นลายมือ
  • สงสัยว่าการใช้ LLM มีข้อดีอะไรบ้าง
  • ประทับใจกับผลการทดสอบของ Qwen มาก และคิดว่าผู้คนยังประเมินมันต่ำเกินไป
  • สงสัยว่าผู้คนจัดโครงสร้างอินเทอร์เฟซ LLM อย่างไรเพื่อประมวลผลหลายไฟล์ด้วยพรอมป์ต์เดียว
  • เป็นผลงานที่ยอดเยี่ยมของ Tyler และทีม