เผยแพร่ 3 เบนช์มาร์ก VLM สำหรับประเมินความสามารถภาษาเกาหลี (KO-VQA, KO-VDC, KO-OCRAG)

(github.com/Marker-Inc-Korea)

8 คะแนน โดย kyujin 2026-02-02 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ช่วงหลังมานี้ความสนใจต่อ VLM เพิ่มสูงขึ้น จึงมีการเปิดเผย เบนช์มาร์กที่ใช้ตรวจสอบความสามารถภาษาเกาหลีของ VLM ได้ในหลากหลายด้าน

ในโปรเจกต์นี้มีการแนะนำเบนช์มาร์กทั้งหมด 3 ชุด

KO-VQA: ประเมินความสามารถในการทำความเข้าใจเอกสารภาษาเกาหลีจากหลากหลายโดเมน และความสามารถในการอนุมานคำตอบจากเอกสาร
KO-VDC: ประเมินความสามารถในการทำความเข้าใจสื่อแผนภาพและไดอะแกรมภาษาเกาหลี รวมถึงความสามารถในการสร้าง/ทำความเข้าใจคำอธิบายจากแผนภาพ
KO-OCRAG: ประเมินความสามารถด้าน OCR ของเอกสารภาษาเกาหลีที่มีโครงสร้างซับซ้อน และความสามารถในการแยกวิเคราะห์บริบทเชิงภาพที่ปรากฏในเอกสาร

การประเมินทุกชุดข้อมูลไม่ได้พึ่งพา LLM-as-a-Judge และดำเนินการในรูปแบบปรนัยที่เป็นวัตถุวิสัยทั้งหมด
มีการเปรียบเทียบทั้ง VLM โอเพนซอร์สหลายตัวที่รันได้ภายใน A100 40GB หรือ 80GB เพียงใบเดียว และ gemini ซึ่งเป็น closed-source

gemini แสดงประสิทธิภาพเหนือกว่าชัดเจนในทุกเบนช์มาร์ก
ฝั่งโอเพนซอร์ส Qwen3 แสดงประสิทธิภาพโดดเด่นที่สุด
โมเดล VARCO-VISION-2.0 ของ NCSoft ก็แสดงผลลัพธ์ได้ไม่เลว
โดยสรุป ยังยืนยันได้ว่าช่องว่างด้านประสิทธิภาพภาษาเกาหลีระหว่าง VLM แบบ closed-source กับ open-source ยังถือว่าค่อนข้างมาก
อีกทั้งยังน่าตกใจด้วยที่ gemini ทำคะแนนได้เกือบสมบูรณ์แบบ;;

โปรดดูคำอธิบายรายละเอียดของแต่ละชุดข้อมูลได้ใน readme ของแต่ละชุด
KO-VQA README
KO-VDC README
KO-OCRAG README

⭐⭐Github star⭐⭐ รวมถึงความสนใจและการช่วยประชาสัมพันธ์ เป็นแรงสนับสนุนอย่างมากต่อการสร้างโปรเจกต์โอเพนซอร์ส!!
โปรเจกต์นี้ดำเนินการโดยได้รับการสนับสนุนจาก markrAI

เผยแพร่ 3 เบนช์มาร์ก VLM สำหรับประเมินความสามารถภาษาเกาหลี (KO-VQA, KO-VDC, KO-OCRAG)

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น