เปิดลีดเดอร์บอร์ดเบนช์มาร์ก LLM สำหรับข้อสอบภาษาเกาหลี CSAT
(github.com/minsing-jin)- ข้อสอบภาษาเกาหลี CSAT ปี 2024: o1-preview ทำได้ถึงระดับเกรด 1 (88 คะแนน, ท็อป 4%)
- ตอนนี้
gpt-4oอยู่อันดับ 1,llama-3.1-405B-instructอันดับ 2 และQwen-2.5-72Bอันดับ 3- ตอนนี้นอกจาก
gpt o1-previewแล้ว รุ่นอื่น ๆ ยังวนอยู่แถวระดับเกรด 3~4 - จะเห็นได้ว่าหลายโมเดลยังมีความยากในการไล่ให้ทัน Human performance ในด้านความสามารถทางภาษาเกาหลี
- ตอนนี้นอกจาก
- ประเมินประสิทธิภาพของ LLM ด้วยชุดข้อมูลคุณภาพสูงจากข้อสอบภาษาเกาหลี CSAT ใหม่ในทุกปี
- มีทั้งบทอ่านหลากหลายสาขา (มนุษยศาสตร์, สังคมศาสตร์, วิทยาศาสตร์, เทคโนโลยี, ศิลปะ), วรรณกรรม, การพูดและการเขียน
- ใช้คะแนนมาตรฐานและระบบจัดเกรดแบบเดียวกับการสอบจริง เพื่อเปรียบเทียบ Human performance กับ performance ของ LLM
- สามารถส่งคำขอเบนช์มาร์กโมเดล Hugging Face fine-tuning ของตนเอง หรือโมเดลที่สนใจได้
ผมได้เปิดลีดเดอร์บอร์ดเบนช์มาร์ก LLM สำหรับข้อสอบภาษาเกาหลี CSAT แล้ว!
ลีดเดอร์บอร์ดนี้ใช้ข้อสอบภาษาเกาหลี CSAT คุณภาพสูงเพื่อวัดความสามารถทางภาษาของ LLM ในภาษาเกาหลี โดยนำวิธีคำนวณคะแนนมาตรฐานและการจัดระดับเกรดแบบการสอบ CSAT มาใช้ เพื่อให้สามารถเปรียบเทียบประสิทธิภาพของโมเดลกับ Human performance ได้ และเปิดขึ้นเพื่อแบ่งปันข้อมูลนี้กับทุกคน
ยินดีรับฟีดแบ็กเสมอ!
i.e)
-
ตอนนี้ทรัพยากร GPU สำหรับประเมินโมเดลยังขาดแคลนอยู่มาก! หากท่านใดสามารถบริจาค GPU ได้จะขอบคุณอย่างยิ่ง!
-
ด้วยปัญหาเรื่องค่าใช้จ่ายของ API จึงยังไม่ได้ทดสอบกับ
o1-previewและมีแผนจะทดสอบทันทีที่o1เวอร์ชันทางการออกมา
10 ความคิดเห็น
เขาเรียกซูนึงว่า CSAT สินะ
ในบทความภาษาเกาหลีก็มีภาพประกอบอยู่ด้วย เลยสงสัยว่าทำไมถึงไม่ทำเป็นแบบ multimodal?
ขอบคุณที่ให้ความสนใจในลีดเดอร์บอร์ด!
เหตุผลแรกคือเรื่องต้นทุน ตอนที่จัดทำข้อมูลข้อสอบซูนึง เป็นช่วงที่ GPT-4 Turbo เพิ่งเปิดตัวเมื่อปีที่แล้ว ทำให้ค่าใช้จ่ายในการสร้างข้อมูลข้อสอบซูนึงย้อนหลัง 10 ปีค่อนข้างสูง
เหตุผลที่สองคือ เพื่อแก้โจทย์ข้อสอบซูนึง จำเป็นต้องใส่คำอธิบายที่รวมเบาะแสทั้งหมด รวมถึงข้อมูลจากภาพด้วย แต่เมื่อใช้มัลติโหมดก็มีข้อจำกัดอยู่ จึงทำให้พวกเราต้องเขียนคำอธิบายเกี่ยวกับภาพด้วยตัวเอง
น่าสนใจมากครับ! ระหว่างดูลีดเดอร์บอร์ดก็มีคำถามอยู่หลายข้อ ถ้าช่วยตอบให้จะขอบคุณมากครับ
ส่วนตัวผมคาดว่าเรื่องเวลาน่าจะใช้ไม่ถึง 80 นาทีมาก ๆ และแม้ในข้อสอบที่ง่าย คะแนนดิบก็น่าจะออกมาใกล้เคียงกัน แต่อยากรู้ว่าในความเป็นจริงจะเป็นอย่างไรครับ
ขอบคุณมากที่ให้ความสนใจกับลีดเดอร์บอร์ดเบนช์มาร์ก LLM วิชาภาษาเกาหลีของข้อสอบ CSAT! หากตอบคำถามที่ถามมา
ตัวอย่างเช่น ในกรณีของ gpt-4o พบว่าในการสอบ CSAT ช่วงปี 2015 ~ 2018 ที่ค่อนข้างง่ายและมีคะแนนมาตรฐานสูงสุดอยู่ในช่วง 130 กว่า ๆ นั้น ได้คะแนนดีกว่า และระดับผลการเรียนก็ออกมาดีกว่าข้อสอบยากของปีอื่น ๆ
แต่ในกรณีของโมเดล meta llama 3.1 70B เมื่อเทียบกับการได้ระดับคะแนนและคะแนนมาตรฐานที่ต่ำกว่าในการสอบ CSAT ช่วงปี 2015 ~ 2018 ก็ยังมีกรณีที่ได้ระดับ 3 ในข้อสอบ CSAT ปี 2022 ซึ่งมีคะแนนมาตรฐานสูงสุดอยู่ที่ช่วง 149 คะแนน
หากยังมีประเด็นที่สงสัยเพิ่มเติมหรือต้องการคำอธิบายเสริมในส่วนใด แจ้งมาได้เสมอครับ!
โอ้... แต่ละโมเดลมีแนวโน้มที่ต่างกันเล็กน้อยจริง ๆ นะครับ? เหมือนคนจริง ๆ เลย ขอบคุณสำหรับคำอธิบายละเอียด ๆ ครับ!
สำหรับข้อ 1
ท้ายที่สุดแล้ว เนื่องจากเป็นข้อสอบปรนัย 5 ตัวเลือกจำนวน 45 ข้อ จึงดูเหมือนว่าน่าจะแก้โดยใช้เวลาไม่กี่ร้อยวินาทีในการสร้าง 1 โทเค็น (1,2,3,4,5) สำหรับ 45 ตัวอย่าง (อินพุต)
พอ AI ถูกจัดระดับเหมือนคะแนนสอบภาษาเกาหลีของการสอบเข้ามหาวิทยาลัย ก็ให้ความรู้สึกแปลก ๆ แต่ก็น่าสนุกดีนะ
เป็นเบนช์มาร์กภาษาเกาหลีของข้อสอบซูนึง แต่ README กลับเป็นภาษาอังกฤษ น่าแปลกดีนะ
ถ้าอิงตามภาษาเกาหลี ก็น่าจะไม่มีข้อมูลเบนช์มาร์กโอเพนซอร์สคุณภาพสูงขนาดนี้แล้วล่ะ 555