7 คะแนน โดย qwopqwop200 2025-04-06 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ลีดเดอร์บอร์ด / โค้ด / ชุดข้อมูล

ความชอบของมนุษย์เป็นหนึ่งในตัวชี้วัดสำคัญสำหรับประเมินประสิทธิภาพของ llm
อย่างไรก็ตาม ความชอบของมนุษย์นั้นวัดได้ยากมากและมีต้นทุนสูง
มีงานอย่าง MT-Bench, Arena-Hard-Auto เป็นต้น ที่ใช้ LLM-as-a-Judge เพื่อแก้ปัญหานี้
แต่เบนช์มาร์กก่อนหน้านี้ถูกสร้างขึ้นมาสำหรับภาษาอังกฤษ

แน่นอนว่าในภาษาเกาหลีก็มีเบนช์มาร์กที่ดีอย่าง KoMT-Bench, LogicKor, Horangi

อย่างไรก็ตาม เบนช์มาร์กเดิมอิงจาก MT-Bench และ MT-Bench ก็เป็นที่ทราบกันว่ามีความสัมพันธ์กับความชอบของมนุษย์และความสามารถในการแยกความแตกต่างต่ำกว่า Arena-Hard-Auto

เพื่อแก้ปัญหานี้ ko-arena-hard-auto จึงอิงจาก Arena-Hard-Auto
และใช้คำถามที่ยากและท้าทาย 500 ข้อของ Arena-Hard-Auto ที่แปลเป็นภาษาเกาหลี
การแปลใช้ GPT-4o และ o1 และมีการตรวจทานด้วยมือ

อีกทั้งยังแตกต่างจาก Arena-Hard-Auto เดิมอย่างมากใน 3 ประเด็น

  1. ใช้ system prompt สำหรับ judge ที่คำนึงถึง code mixing และ code switching
  2. ใช้ gemini-2.0-flash, gpt-4o-mini, deepseek-chat-v3-0324 เป็นโมเดล judge และทำ ensemble ซึ่งช่วยลดอคติจากความชอบของตัวโมเดลเอง และสามารถวัดประสิทธิภาพได้ด้วยต้นทุนต่ำกว่า Arena-Hard-Auto เดิม
  3. ใช้ claude-3.7-sonnet เป็น baseline model โดยตั้งให้ claude-3.7-sonnet ซึ่งเป็น LLM ที่ทรงพลัง เป็น baseline เพื่อสะท้อนถึงประสิทธิภาพของ LLM ที่ยกระดับขึ้นโดยรวม

สามารถดูผลการเบนช์มาร์กได้ที่: https://qwopqwop200.github.io/ko-arena-hard-auto/leaderboard.html

โค้ด: https://github.com/qwopqwop200/ko-arena-hard-auto
ชุดข้อมูล: https://huggingface.co/datasets/qwopqwop/ko-arena-hard-auto-v0.1

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น