LogicKor: เบนช์มาร์กการใช้เหตุผลข้ามสาขาสำหรับโมเดลภาษาเกาหลี
(github.com/StableFluffy)มีการบอกว่านี่คือเบนช์มาร์กสำหรับโมเดลภาษาเกาหลีที่สร้างขึ้นโดยได้แรงบันดาลใจจาก MT-Bench ซึ่งเป็นเบนช์มาร์กในโลกภาษาอังกฤษที่ประกอบด้วย 10 คำถามใน 8 หมวดหมู่
ผู้สร้างกล่าวว่าพัฒนาขึ้นหลังจากเห็นข้อจำกัดของเบนช์มาร์กสำหรับโมเดลภาษาเกาหลีที่ใช้อยู่ในปัจจุบัน
ด้านล่างนี้คือส่วนที่อ้างอิงมาจากบทความของผู้สร้างเกี่ยวกับเบนช์มาร์ก LogicKor
เราได้แบ่งหัวข้อ 6 ประเภทสำหรับใช้ประเมินความสามารถในการใช้เหตุผลของโมเดลภาษาเกาหลีดังนี้
การให้เหตุผล (Reasoning) - การคิดเชิงตรรกะ, การแก้ปัญหา
คณิตศาสตร์ (Math) - แนวคิดทางคณิตศาสตร์, การคำนวณ
การเขียน (Writing) - ความสอดคล้องระหว่างประโยค, ความคิดสร้างสรรค์
การเขียนโค้ด (Coding) - ความรู้ด้านการเขียนโค้ด, การทำฟังก์ชันให้เป็นรูปธรรม
ความเข้าใจ (Understanding) - ความเข้าใจบทความ, การดึงข้อมูล, การทำตามคำสั่ง
ไวยากรณ์ (Grammar) - การสะกดภาษาเกาหลี, หลักการออกเสียงมาตรฐาน
และได้จัดทำคำถามแบบหลายเทิร์น 7 ข้อสำหรับแต่ละหัวข้อด้วย
3 ความคิดเห็น
ในเรโปไม่มีคำอธิบายอะไรเป็นพิเศษ รบกวนแนบลิงก์ของบทความที่คุณอ้างอิงมาด้วยได้ไหมครับ?
เนื่องจากเป็นโพสต์ที่ขึ้นบนเว็บไซต์ชุมชน การเลือกใช้ถ้อยคำอาจค่อนข้างรุนแรงอยู่บ้าง... ดังนั้นจึงกังวลว่าช่องคอมเมนต์อาจจะบานปลายได้ง่าย เลยไม่ได้ใส่ลิงก์ของโพสต์ไว้
นี่คือที่อยู่ของโพสต์ดังกล่าว: https://arca.live/b/alpaca/102052014
ขอบคุณครับ! ผมก็รู้สึกเหมือนกันว่า Upstage กำลังกระจายผลเบนช์มาร์กที่ชวนให้สงสัยอยู่ เลยคิดว่าไม่ได้มีแค่ผมคนเดียวที่คิดแบบนั้นนะ.. ตอนลองใช้จริงประสิทธิภาพของ ClovaX ก็ไม่ได้ดีขนาดนั้น แต่ในบรรดาโมเดลเกาหลีกลับได้อันดับ 1 นะครับ