VLM จะอ่านเอกสารของหน่วยงานภาครัฐเกาหลีได้ดีแค่ไหน? เปิดตัวเบนช์มาร์ก KOLongDoc
(github.com/Marker-Inc-Korea)🔥 เราเปิดตัว KOLongDoc เบนช์มาร์ก Long-Document VLM ภาษาเกาหลีแล้ว!
ช่วงหลังมานี้ มัลติโมดัล AI อย่าง ChatGPT, Claude และ Gemini เริ่มถูกนำไปใช้ในงานภาครัฐและงานธุรการมากขึ้น แต่กลับแทบไม่มีเบนช์มาร์กสำหรับประเมินว่า "เข้าใจเอกสารภาษาเกาหลียาว ๆ ได้ดีแค่ไหน?"
เบนช์มาร์ก VLM ภาษาเกาหลีที่มีอยู่เดิมมุ่งเน้นไปที่ OCR, VQA, การทำความเข้าใจกราฟ และการทำความเข้าใจภาพเป็นหลัก แต่
❌ เอกสารความละเอียดสูงที่ยาวหลายสิบหน้า
❌ การให้เหตุผลแบบ Multi-hop ที่ต้องเชื่อมโยงข้อมูลข้ามหลายหน้า
❌ การทำความเข้าใจเอกสารแบบ Long-context
ยังมีข้อจำกัดในการประเมินสิ่งเหล่านี้อย่างครอบคลุม
ด้วยเหตุนี้ เราจึงสร้างเบนช์มาร์ก KOLongDoc 📄 และเผยแพร่เป็นโอเพนซอร์ส!
✅ อ้างอิงจากเอกสารของหน่วยงานภาครัฐเกาหลี
✅ Multi-page / Multi-hop QA
✅ ประเมินความเข้าใจ Long Document ความละเอียดสูง
✅ มีคำถามประเมินทั้งหมด 200 ข้อ
KOLongDoc คือเบนช์มาร์กสำหรับประเมินว่า VLM ทั้งในและต่างประเทศสามารถเข้าใจและให้เหตุผลกับเอกสารภาครัฐภาษาเกาหลีจริงได้อย่างแม่นยำเพียงใด
หากอยากทราบรายละเอียดเพิ่มเติมและวิธีใช้งาน เชิญเยี่ยมชม huggingface และ github ได้เลย!
🤗 ชุดข้อมูล:
https://huggingface.co/datasets/Markr-AI/KOLongDoc
📝 บทแนะนำบน Github:
https://github.com/Marker-Inc-Korea/KOLongDoc
*ยินดีรับฟีดแบ็กและกรณีศึกษาการนำเบนช์มาร์กไปใช้งาน!
ยังไม่มีความคิดเห็น