LogicKor: เบนช์มาร์กการใช้เหตุผลข้ามสาขาสำหรับโมเดลภาษาเกาหลี

(github.com/StableFluffy)

14 คะแนน โดย libner 2024-03-29 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

มีการบอกว่านี่คือเบนช์มาร์กสำหรับโมเดลภาษาเกาหลีที่สร้างขึ้นโดยได้แรงบันดาลใจจาก MT-Bench ซึ่งเป็นเบนช์มาร์กในโลกภาษาอังกฤษที่ประกอบด้วย 10 คำถามใน 8 หมวดหมู่
ผู้สร้างกล่าวว่าพัฒนาขึ้นหลังจากเห็นข้อจำกัดของเบนช์มาร์กสำหรับโมเดลภาษาเกาหลีที่ใช้อยู่ในปัจจุบัน

ด้านล่างนี้คือส่วนที่อ้างอิงมาจากบทความของผู้สร้างเกี่ยวกับเบนช์มาร์ก LogicKor

เราได้แบ่งหัวข้อ 6 ประเภทสำหรับใช้ประเมินความสามารถในการใช้เหตุผลของโมเดลภาษาเกาหลีดังนี้  
การให้เหตุผล (Reasoning) - การคิดเชิงตรรกะ, การแก้ปัญหา  
คณิตศาสตร์ (Math) - แนวคิดทางคณิตศาสตร์, การคำนวณ  
การเขียน (Writing) - ความสอดคล้องระหว่างประโยค, ความคิดสร้างสรรค์  
การเขียนโค้ด (Coding) - ความรู้ด้านการเขียนโค้ด, การทำฟังก์ชันให้เป็นรูปธรรม  
ความเข้าใจ (Understanding) - ความเข้าใจบทความ, การดึงข้อมูล, การทำตามคำสั่ง  
ไวยากรณ์ (Grammar) - การสะกดภาษาเกาหลี, หลักการออกเสียงมาตรฐาน  
  
และได้จัดทำคำถามแบบหลายเทิร์น 7 ข้อสำหรับแต่ละหัวข้อด้วย

3 ความคิดเห็น

skymer 2024-03-29

ในเรโปไม่มีคำอธิบายอะไรเป็นพิเศษ รบกวนแนบลิงก์ของบทความที่คุณอ้างอิงมาด้วยได้ไหมครับ?

libner 2024-03-29

เนื่องจากเป็นโพสต์ที่ขึ้นบนเว็บไซต์ชุมชน การเลือกใช้ถ้อยคำอาจค่อนข้างรุนแรงอยู่บ้าง... ดังนั้นจึงกังวลว่าช่องคอมเมนต์อาจจะบานปลายได้ง่าย เลยไม่ได้ใส่ลิงก์ของโพสต์ไว้
นี่คือที่อยู่ของโพสต์ดังกล่าว: https://arca.live/b/alpaca/102052014

skymer 2024-03-29

ขอบคุณครับ! ผมก็รู้สึกเหมือนกันว่า Upstage กำลังกระจายผลเบนช์มาร์กที่ชวนให้สงสัยอยู่ เลยคิดว่าไม่ได้มีแค่ผมคนเดียวที่คิดแบบนั้นนะ.. ตอนลองใช้จริงประสิทธิภาพของ ClovaX ก็ไม่ได้ดีขนาดนั้น แต่ในบรรดาโมเดลเกาหลีกลับได้อันดับ 1 นะครับ

LogicKor: เบนช์มาร์กการใช้เหตุผลข้ามสาขาสำหรับโมเดลภาษาเกาหลี

บทความที่เกี่ยวข้อง

3 ความคิดเห็น