ko-arena-hard-auto: เบนช์มาร์กสำหรับวัดประสิทธิภาพภาษาเกาหลีของ LLM
(github.com/qwopqwop200)ลีดเดอร์บอร์ด / โค้ด / ชุดข้อมูล
ความชอบของมนุษย์เป็นหนึ่งในตัวชี้วัดสำคัญสำหรับประเมินประสิทธิภาพของ llm
อย่างไรก็ตาม ความชอบของมนุษย์นั้นวัดได้ยากมากและมีต้นทุนสูง
มีงานอย่าง MT-Bench, Arena-Hard-Auto เป็นต้น ที่ใช้ LLM-as-a-Judge เพื่อแก้ปัญหานี้
แต่เบนช์มาร์กก่อนหน้านี้ถูกสร้างขึ้นมาสำหรับภาษาอังกฤษ
แน่นอนว่าในภาษาเกาหลีก็มีเบนช์มาร์กที่ดีอย่าง KoMT-Bench, LogicKor, Horangi
อย่างไรก็ตาม เบนช์มาร์กเดิมอิงจาก MT-Bench และ MT-Bench ก็เป็นที่ทราบกันว่ามีความสัมพันธ์กับความชอบของมนุษย์และความสามารถในการแยกความแตกต่างต่ำกว่า Arena-Hard-Auto
เพื่อแก้ปัญหานี้ ko-arena-hard-auto จึงอิงจาก Arena-Hard-Auto
และใช้คำถามที่ยากและท้าทาย 500 ข้อของ Arena-Hard-Auto ที่แปลเป็นภาษาเกาหลี
การแปลใช้ GPT-4o และ o1 และมีการตรวจทานด้วยมือ
อีกทั้งยังแตกต่างจาก Arena-Hard-Auto เดิมอย่างมากใน 3 ประเด็น
- ใช้ system prompt สำหรับ judge ที่คำนึงถึง code mixing และ code switching
- ใช้ gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324 เป็นโมเดล judge และทำ ensemble ซึ่งช่วยลดอคติจากความชอบของตัวโมเดลเอง และสามารถวัดประสิทธิภาพได้ด้วยต้นทุนต่ำกว่า Arena-Hard-Auto เดิม
- ใช้ claude-3.7-sonnet เป็น baseline model โดยตั้งให้ claude-3.7-sonnet ซึ่งเป็น LLM ที่ทรงพลัง เป็น baseline เพื่อสะท้อนถึงประสิทธิภาพของ LLM ที่ยกระดับขึ้นโดยรวม
สามารถดูผลการเบนช์มาร์กได้ที่: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html
โค้ด: https://github.com/qwopqwop200/ko-arena-hard-auto
ชุดข้อมูล: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1
ยังไม่มีความคิดเห็น