ช่วงหลังมานี้ความสนใจต่อ VLM เพิ่มสูงขึ้น จึงมีการเปิดเผย เบนช์มาร์กที่ใช้ตรวจสอบความสามารถภาษาเกาหลีของ VLM ได้ในหลากหลายด้าน

ในโปรเจกต์นี้มีการแนะนำเบนช์มาร์กทั้งหมด 3 ชุด

  • KO-VQA: ประเมินความสามารถในการทำความเข้าใจเอกสารภาษาเกาหลีจากหลากหลายโดเมน และความสามารถในการอนุมานคำตอบจากเอกสาร
  • KO-VDC: ประเมินความสามารถในการทำความเข้าใจสื่อแผนภาพและไดอะแกรมภาษาเกาหลี รวมถึงความสามารถในการสร้าง/ทำความเข้าใจคำอธิบายจากแผนภาพ
  • KO-OCRAG: ประเมินความสามารถด้าน OCR ของเอกสารภาษาเกาหลีที่มีโครงสร้างซับซ้อน และความสามารถในการแยกวิเคราะห์บริบทเชิงภาพที่ปรากฏในเอกสาร

การประเมินทุกชุดข้อมูลไม่ได้พึ่งพา LLM-as-a-Judge และดำเนินการในรูปแบบปรนัยที่เป็นวัตถุวิสัยทั้งหมด
มีการเปรียบเทียบทั้ง VLM โอเพนซอร์สหลายตัวที่รันได้ภายใน A100 40GB หรือ 80GB เพียงใบเดียว และ gemini ซึ่งเป็น closed-source

  • gemini แสดงประสิทธิภาพเหนือกว่าชัดเจนในทุกเบนช์มาร์ก
  • ฝั่งโอเพนซอร์ส Qwen3 แสดงประสิทธิภาพโดดเด่นที่สุด
  • โมเดล VARCO-VISION-2.0 ของ NCSoft ก็แสดงผลลัพธ์ได้ไม่เลว
  • โดยสรุป ยังยืนยันได้ว่าช่องว่างด้านประสิทธิภาพภาษาเกาหลีระหว่าง VLM แบบ closed-source กับ open-source ยังถือว่าค่อนข้างมาก
  • อีกทั้งยังน่าตกใจด้วยที่ gemini ทำคะแนนได้เกือบสมบูรณ์แบบ;;

โปรดดูคำอธิบายรายละเอียดของแต่ละชุดข้อมูลได้ใน readme ของแต่ละชุด
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐ รวมถึงความสนใจและการช่วยประชาสัมพันธ์ เป็นแรงสนับสนุนอย่างมากต่อการสร้างโปรเจกต์โอเพนซอร์ส!!
โปรเจกต์นี้ดำเนินการโดยได้รับการสนับสนุนจาก markrAI

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น