เผยแพร่ 3 เบนช์มาร์ก VLM สำหรับประเมินความสามารถภาษาเกาหลี (KO-VQA, KO-VDC, KO-OCRAG)
(github.com/Marker-Inc-Korea)ช่วงหลังมานี้ความสนใจต่อ VLM เพิ่มสูงขึ้น จึงมีการเปิดเผย เบนช์มาร์กที่ใช้ตรวจสอบความสามารถภาษาเกาหลีของ VLM ได้ในหลากหลายด้าน
ในโปรเจกต์นี้มีการแนะนำเบนช์มาร์กทั้งหมด 3 ชุด
- KO-VQA: ประเมินความสามารถในการทำความเข้าใจเอกสารภาษาเกาหลีจากหลากหลายโดเมน และความสามารถในการอนุมานคำตอบจากเอกสาร
- KO-VDC: ประเมินความสามารถในการทำความเข้าใจสื่อแผนภาพและไดอะแกรมภาษาเกาหลี รวมถึงความสามารถในการสร้าง/ทำความเข้าใจคำอธิบายจากแผนภาพ
- KO-OCRAG: ประเมินความสามารถด้าน OCR ของเอกสารภาษาเกาหลีที่มีโครงสร้างซับซ้อน และความสามารถในการแยกวิเคราะห์บริบทเชิงภาพที่ปรากฏในเอกสาร
การประเมินทุกชุดข้อมูลไม่ได้พึ่งพา LLM-as-a-Judge และดำเนินการในรูปแบบปรนัยที่เป็นวัตถุวิสัยทั้งหมด
มีการเปรียบเทียบทั้ง VLM โอเพนซอร์สหลายตัวที่รันได้ภายใน A100 40GB หรือ 80GB เพียงใบเดียว และ gemini ซึ่งเป็น closed-source
- gemini แสดงประสิทธิภาพเหนือกว่าชัดเจนในทุกเบนช์มาร์ก
- ฝั่งโอเพนซอร์ส Qwen3 แสดงประสิทธิภาพโดดเด่นที่สุด
- โมเดล VARCO-VISION-2.0 ของ NCSoft ก็แสดงผลลัพธ์ได้ไม่เลว
- โดยสรุป ยังยืนยันได้ว่าช่องว่างด้านประสิทธิภาพภาษาเกาหลีระหว่าง VLM แบบ closed-source กับ open-source ยังถือว่าค่อนข้างมาก
- อีกทั้งยังน่าตกใจด้วยที่ gemini ทำคะแนนได้เกือบสมบูรณ์แบบ;;
โปรดดูคำอธิบายรายละเอียดของแต่ละชุดข้อมูลได้ใน readme ของแต่ละชุด
KO-VQA README
KO-VDC README
KO-OCRAG README
⭐⭐Github star⭐⭐ รวมถึงความสนใจและการช่วยประชาสัมพันธ์ เป็นแรงสนับสนุนอย่างมากต่อการสร้างโปรเจกต์โอเพนซอร์ส!!
โปรเจกต์นี้ดำเนินการโดยได้รับการสนับสนุนจาก markrAI
ยังไม่มีความคิดเห็น