เปิดลีดเดอร์บอร์ดเบนช์มาร์ก LLM สำหรับข้อสอบภาษาเกาหลี CSAT

ironman0722 · 2024-10-18T02:43:19+09:00

ข้อสอบภาษาเกาหลี CSAT ปี 2024: o1-preview ทำได้ถึงระดับเกรด 1 (88 คะแนน, ท็อป 4%) ตอนนี้ gpt-4o อยู่อันดับ 1, llama-3.1-405B-instruct อันดับ 2 และ Qwen-2.5-72B อันดับ 3 ตอนนี้นอกจาก gpt o1-preview แล้ว รุ่นอื่น ๆ ยังวนอยู่แถวระดับเกรด 3~4 จะเห็นได้ว่าหลายโมเดลยังมีความยากในการไล่ให้ทัน Human performance ในด้านความสามารถทางภาษาเกาหลี ประเมินประสิทธิภาพของ LLM ด้วยชุดข้อมูลคุณภาพสูงจากข้อสอบภาษาเกาหลี CSAT ใหม่ในทุกปี มีทั้งบทอ่านหลากหลายสาขา (มนุษยศาสตร์, สังคมศาสตร์, วิทยาศาสตร์, เทคโนโลยี, ศิลปะ), วรรณกรรม, การพูดและการเขียน ใช้คะแนนมาตรฐานและระบบจัดเกรดแบบเดียวกับการสอบจริง เพื่อเปรียบเทียบ Human performance กับ performance ของ LLM สามารถส่งคำขอเบนช์มาร์กโมเดล Hugging Face fine-tuning ของตนเอง หรือโมเดลที่สนใจได้ ผมได้เปิดลีดเดอร์บอร์ดเบนช์มาร์ก LLM สำหรับข้อสอบภาษาเกาหลี CSAT แล้ว! ลีดเดอร์บอร์ดนี้ใช้ข้อสอบภาษาเกาหลี CSAT คุณภาพสูงเพื่อวัดความสามารถทางภาษาของ LLM ในภาษาเกาหลี โดยนำวิธีคำนวณคะแนนมาตรฐานและการจัดระดับเกรดแบบการสอบ CSAT มาใช้ เพื่อให้สามารถเปรียบเทียบประสิทธิภาพของโมเดลกับ Human performance ได้ และเปิดขึ้นเพื่อแบ่งปันข้อมูลนี้กับทุกคน ยินดีรับฟีดแบ็กเสมอ! i.e) ตอนนี้ทรัพยากร GPU สำหรับประเมินโมเดลยังขาดแคลนอยู่มาก! หากท่านใดสามารถบริจาค GPU ได้จะขอบคุณอย่างยิ่ง! ด้วยปัญหาเรื่องค่าใช้จ่ายของ API จึงยังไม่ได้ทดสอบกับ o1-preview และมีแผนจะทดสอบทันทีที่ o1 เวอร์ชันทางการออกมา

(github.com/minsing-jin)

25 คะแนน โดย ironman0722 2024-10-18 | 10 ความคิดเห็น | แชร์ทาง WhatsApp

ข้อสอบภาษาเกาหลี CSAT ปี 2024: o1-preview ทำได้ถึงระดับเกรด 1 (88 คะแนน, ท็อป 4%)
ตอนนี้ gpt-4o อยู่อันดับ 1, llama-3.1-405B-instruct อันดับ 2 และ Qwen-2.5-72B อันดับ 3
- ตอนนี้นอกจาก gpt o1-preview แล้ว รุ่นอื่น ๆ ยังวนอยู่แถวระดับเกรด 3~4
- จะเห็นได้ว่าหลายโมเดลยังมีความยากในการไล่ให้ทัน Human performance ในด้านความสามารถทางภาษาเกาหลี
ประเมินประสิทธิภาพของ LLM ด้วยชุดข้อมูลคุณภาพสูงจากข้อสอบภาษาเกาหลี CSAT ใหม่ในทุกปี
- มีทั้งบทอ่านหลากหลายสาขา (มนุษยศาสตร์, สังคมศาสตร์, วิทยาศาสตร์, เทคโนโลยี, ศิลปะ), วรรณกรรม, การพูดและการเขียน
ใช้คะแนนมาตรฐานและระบบจัดเกรดแบบเดียวกับการสอบจริง เพื่อเปรียบเทียบ Human performance กับ performance ของ LLM
สามารถส่งคำขอเบนช์มาร์กโมเดล Hugging Face fine-tuning ของตนเอง หรือโมเดลที่สนใจได้

ผมได้เปิดลีดเดอร์บอร์ดเบนช์มาร์ก LLM สำหรับข้อสอบภาษาเกาหลี CSAT แล้ว!

ลีดเดอร์บอร์ดนี้ใช้ข้อสอบภาษาเกาหลี CSAT คุณภาพสูงเพื่อวัดความสามารถทางภาษาของ LLM ในภาษาเกาหลี โดยนำวิธีคำนวณคะแนนมาตรฐานและการจัดระดับเกรดแบบการสอบ CSAT มาใช้ เพื่อให้สามารถเปรียบเทียบประสิทธิภาพของโมเดลกับ Human performance ได้ และเปิดขึ้นเพื่อแบ่งปันข้อมูลนี้กับทุกคน

ยินดีรับฟีดแบ็กเสมอ!

i.e)

ตอนนี้ทรัพยากร GPU สำหรับประเมินโมเดลยังขาดแคลนอยู่มาก! หากท่านใดสามารถบริจาค GPU ได้จะขอบคุณอย่างยิ่ง!
ด้วยปัญหาเรื่องค่าใช้จ่ายของ API จึงยังไม่ได้ทดสอบกับ o1-preview และมีแผนจะทดสอบทันทีที่ o1 เวอร์ชันทางการออกมา

10 ความคิดเห็น

roxie 2024-10-24

เขาเรียกซูนึงว่า CSAT สินะ

doolayer 2024-10-21

ในบทความภาษาเกาหลีก็มีภาพประกอบอยู่ด้วย เลยสงสัยว่าทำไมถึงไม่ทำเป็นแบบ multimodal?

ironman0722 2024-10-21

ขอบคุณที่ให้ความสนใจในลีดเดอร์บอร์ด!

เหตุผลแรกคือเรื่องต้นทุน ตอนที่จัดทำข้อมูลข้อสอบซูนึง เป็นช่วงที่ GPT-4 Turbo เพิ่งเปิดตัวเมื่อปีที่แล้ว ทำให้ค่าใช้จ่ายในการสร้างข้อมูลข้อสอบซูนึงย้อนหลัง 10 ปีค่อนข้างสูง

เหตุผลที่สองคือ เพื่อแก้โจทย์ข้อสอบซูนึง จำเป็นต้องใส่คำอธิบายที่รวมเบาะแสทั้งหมด รวมถึงข้อมูลจากภาพด้วย แต่เมื่อใช้มัลติโหมดก็มีข้อจำกัดอยู่ จึงทำให้พวกเราต้องเขียนคำอธิบายเกี่ยวกับภาพด้วยตัวเอง

ilotoki0804 2024-10-18

น่าสนใจมากครับ! ระหว่างดูลีดเดอร์บอร์ดก็มีคำถามอยู่หลายข้อ ถ้าช่วยตอบให้จะขอบคุณมากครับ

เวลาที่ใช้ในการทำข้อสอบทั้งหมดเมื่อใช้ LLM อยู่ที่ประมาณเท่าไร? สำหรับข้อสอบภาษาเกาหลีของ CSAT มีการจำกัดเวลาไว้ที่ 80 นาที (รวมเวลาในการระบาย OMR) เลยสงสัยว่า LLM จะใช้เวลาทำข้อสอบทั้งหมดประมาณเท่าไร
ถ้าเป็นข้อสอบที่ง่ายกว่า จะยังได้ระดับเกรดใกล้เคียงเดิมไหม? ยกตัวอย่างแบบสุดขั้ว ในการสอบจำลองเดือนกันยายนครั้งนี้ ข้อสอบง่ายจนคะแนนตัดเกรด 1 อยู่ที่ 100 คะแนน เลยอยากทราบว่าถ้าให้ทำข้อสอบจำลองชุดนั้น ก็ยังจะได้ระดับเกรดใกล้เคียงกับตอนทำข้อสอบจำลองชุดอื่น ๆ หรือไม่

ส่วนตัวผมคาดว่าเรื่องเวลาน่าจะใช้ไม่ถึง 80 นาทีมาก ๆ และแม้ในข้อสอบที่ง่าย คะแนนดิบก็น่าจะออกมาใกล้เคียงกัน แต่อยากรู้ว่าในความเป็นจริงจะเป็นอย่างไรครับ

ironman0722 2024-10-21

ขอบคุณมากที่ให้ความสนใจกับลีดเดอร์บอร์ดเบนช์มาร์ก LLM วิชาภาษาเกาหลีของข้อสอบ CSAT! หากตอบคำถามที่ถามมา

สั้นสุดประมาณ 10 นาที นานสุดประมาณ 25 นาที
หากดูจากผลลัพธ์เพียงอย่างเดียว ดูเหมือนว่าจะมีทั้งโมเดลที่ระดับความยากของข้อสอบมีผลต่อการทำโจทย์ของ LLM และโมเดลที่ไม่เป็นเช่นนั้น จึงน่าจะยากที่จะสรุปให้เป็นภาพรวมทั่วไป

ตัวอย่างเช่น ในกรณีของ gpt-4o พบว่าในการสอบ CSAT ช่วงปี 2015 ~ 2018 ที่ค่อนข้างง่ายและมีคะแนนมาตรฐานสูงสุดอยู่ในช่วง 130 กว่า ๆ นั้น ได้คะแนนดีกว่า และระดับผลการเรียนก็ออกมาดีกว่าข้อสอบยากของปีอื่น ๆ
แต่ในกรณีของโมเดล meta llama 3.1 70B เมื่อเทียบกับการได้ระดับคะแนนและคะแนนมาตรฐานที่ต่ำกว่าในการสอบ CSAT ช่วงปี 2015 ~ 2018 ก็ยังมีกรณีที่ได้ระดับ 3 ในข้อสอบ CSAT ปี 2022 ซึ่งมีคะแนนมาตรฐานสูงสุดอยู่ที่ช่วง 149 คะแนน

หากยังมีประเด็นที่สงสัยเพิ่มเติมหรือต้องการคำอธิบายเสริมในส่วนใด แจ้งมาได้เสมอครับ!

ilotoki0804 2024-10-21

โอ้... แต่ละโมเดลมีแนวโน้มที่ต่างกันเล็กน้อยจริง ๆ นะครับ? เหมือนคนจริง ๆ เลย ขอบคุณสำหรับคำอธิบายละเอียด ๆ ครับ!

doolayer 2024-10-21

สำหรับข้อ 1
ท้ายที่สุดแล้ว เนื่องจากเป็นข้อสอบปรนัย 5 ตัวเลือกจำนวน 45 ข้อ จึงดูเหมือนว่าน่าจะแก้โดยใช้เวลาไม่กี่ร้อยวินาทีในการสร้าง 1 โทเค็น (1,2,3,4,5) สำหรับ 45 ตัวอย่าง (อินพุต)

savvykang 2024-10-18

พอ AI ถูกจัดระดับเหมือนคะแนนสอบภาษาเกาหลีของการสอบเข้ามหาวิทยาลัย ก็ให้ความรู้สึกแปลก ๆ แต่ก็น่าสนุกดีนะ

mammal 2024-10-18

เป็นเบนช์มาร์กภาษาเกาหลีของข้อสอบซูนึง แต่ README กลับเป็นภาษาอังกฤษ น่าแปลกดีนะ

ng0301 2024-10-18

ถ้าอิงตามภาษาเกาหลี ก็น่าจะไม่มีข้อมูลเบนช์มาร์กโอเพนซอร์สคุณภาพสูงขนาดนี้แล้วล่ะ 555

เปิดลีดเดอร์บอร์ดเบนช์มาร์ก LLM สำหรับข้อสอบภาษาเกาหลี CSAT

บทความที่เกี่ยวข้อง

10 ความคิดเห็น