- ในข้อสอบภาษาเกาหลีของ CSAT ปีการศึกษา 2025 O1-Preview ทำคะแนนได้สูงถึง 97 คะแนนอย่างน่าทึ่ง
- ข้อ 8 (3 คะแนน) ตอบผิดในบทอ่านเชิงสาระ
- เลือกข้อ 3 ซึ่งเป็นคำตอบผิดเนื่องจากข้อผิดพลาดทางตรรกะ
- หากใครอยากรู้เพิ่มเติมเกี่ยวกับกระบวนการเบนช์มาร์ก ผมได้เขียนบล็อกรวบรวมขั้นตอนการทดลองและรายละเอียดเพิ่มเติมไว้แล้ว ลองดูได้เลย!
- ผลลัพธ์ของโมเดล GPT ในเบนช์มาร์ก LLM ข้อสอบภาษาเกาหลี CSAT 2025
🥇 1st. o1-Preview: 97 คะแนน (ระดับ 1)
🥈 2nd. o1-mini: 78 คะแนน (ระดับ 4)
🥉 3rd. gpt-4o: 75 คะแนน (ระดับ 4): gpt-4o
4th. gpt-4o-mini: 59 คะแนน (ระดับ 5)
5th. gpt-3.5-turbo: 16 คะแนน (ระดับ 8)
- เป้าหมายของโปรเจ็กต์ลีดเดอร์บอร์ดเบนช์มาร์ก LLM สำหรับข้อสอบ CSAT
- แบ่งปันข้อมูลเบนช์มาร์กเพื่อเปรียบเทียบ Human performance กับ LLM performance
- ชุดข้อมูลเบนช์มาร์กที่ผ่านการคัดสรรจาก KICE ซึ่งเป็นหน่วยงานประเมินที่น่าเชื่อถือที่สุดของเกาหลีสำหรับการประเมินความสามารถทางภาษาเกาหลี
- ป้องกัน data leakage ด้วยชุดข้อมูลเบนช์มาร์กข้อสอบภาษาเกาหลี CSAT ใหม่ที่อัปเดตทุกปี
- ผลักดันให้โอเพนซอร์ส LLM ที่ไม่ขึ้นกับประเทศหรือบริษัทใดประเทศหนึ่ง ไปถึงระดับ 1 ในข้อสอบ CSAT ของเกาหลี
- โปรเจ็กต์นี้ดำเนินการโดย Markr.AI
- เบนช์มาร์กนี้ดำเนินการโดยใช้ โอเพนซอร์ส AutoRAG!
- ได้อัปเดตทิวทอเรียล สำหรับเบนช์มาร์กข้อสอบภาษาเกาหลี CSAT ปี 2023 บนลีดเดอร์บอร์ดแล้ว!
- หากมีข้อสงสัย ติดต่อมาได้ทุกเมื่อ!
1 ความคิดเห็น
ลิงก์บล็อกโดนตัดไปแล้วครับ/ค่ะ! ผม/ฉันจะลงใหม่อีกครั้งในคอมเมนต์!
https://velog.io/@minsing-jin/…