5 คะแนน โดย ironman0722 2024-11-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในข้อสอบภาษาเกาหลีของ CSAT ปีการศึกษา 2025 O1-Preview ทำคะแนนได้สูงถึง 97 คะแนนอย่างน่าทึ่ง
    • ข้อ 8 (3 คะแนน) ตอบผิดในบทอ่านเชิงสาระ
      • เลือกข้อ 3 ซึ่งเป็นคำตอบผิดเนื่องจากข้อผิดพลาดทางตรรกะ
  • หากใครอยากรู้เพิ่มเติมเกี่ยวกับกระบวนการเบนช์มาร์ก ผมได้เขียนบล็อกรวบรวมขั้นตอนการทดลองและรายละเอียดเพิ่มเติมไว้แล้ว ลองดูได้เลย!
  • ผลลัพธ์ของโมเดล GPT ในเบนช์มาร์ก LLM ข้อสอบภาษาเกาหลี CSAT 2025
    🥇 1st. o1-Preview: 97 คะแนน (ระดับ 1)
    🥈 2nd. o1-mini: 78 คะแนน (ระดับ 4)
    🥉 3rd. gpt-4o: 75 คะแนน (ระดับ 4): gpt-4o
    4th. gpt-4o-mini: 59 คะแนน (ระดับ 5)
    5th. gpt-3.5-turbo: 16 คะแนน (ระดับ 8)
  • เป้าหมายของโปรเจ็กต์ลีดเดอร์บอร์ดเบนช์มาร์ก LLM สำหรับข้อสอบ CSAT
    1. แบ่งปันข้อมูลเบนช์มาร์กเพื่อเปรียบเทียบ Human performance กับ LLM performance
    2. ชุดข้อมูลเบนช์มาร์กที่ผ่านการคัดสรรจาก KICE ซึ่งเป็นหน่วยงานประเมินที่น่าเชื่อถือที่สุดของเกาหลีสำหรับการประเมินความสามารถทางภาษาเกาหลี
    3. ป้องกัน data leakage ด้วยชุดข้อมูลเบนช์มาร์กข้อสอบภาษาเกาหลี CSAT ใหม่ที่อัปเดตทุกปี
    4. ผลักดันให้โอเพนซอร์ส LLM ที่ไม่ขึ้นกับประเทศหรือบริษัทใดประเทศหนึ่ง ไปถึงระดับ 1 ในข้อสอบ CSAT ของเกาหลี

  • โปรเจ็กต์นี้ดำเนินการโดย Markr.AI
  • เบนช์มาร์กนี้ดำเนินการโดยใช้ โอเพนซอร์ส AutoRAG!
  • ได้อัปเดตทิวทอเรียล สำหรับเบนช์มาร์กข้อสอบภาษาเกาหลี CSAT ปี 2023 บนลีดเดอร์บอร์ดแล้ว!
  • หากมีข้อสงสัย ติดต่อมาได้ทุกเมื่อ!

1 ความคิดเห็น

 
ironman0722 2024-11-22

ลิงก์บล็อกโดนตัดไปแล้วครับ/ค่ะ! ผม/ฉันจะลงใหม่อีกครั้งในคอมเมนต์!
https://velog.io/@minsing-jin/…