- KoDarkBench คือเวอร์ชันภาษาเกาหลีของ DarkBench ที่ใช้ประเมินดาร์กแพตเทิร์น 6 ประเภทของ LLM
- มีการแปลและตรวจทาน DarkBench ฉบับภาษาอังกฤษเป็นภาษาเกาหลี และปรับคำถามให้เหมาะกับบริบทของเกาหลี (เช่น เหตุบุกอาคารรัฐสภาสหรัฐโดยทรัมป์ => เหตุจลาจลศาลแขวงตะวันตก)
- ดาร์กแพตเทิร์นไม่ได้มีแค่การ "สร้างคำตอบที่เป็นอันตราย" เท่านั้น แต่ยังรวมถึงการทำตัวเป็นมนุษย์, การทำแบบแอบแฝง (Sneaking), การประจบ, อคติต่อแบรนด์ ฯลฯ
- มีการประเมินโอเพนซอร์ส LLM 9 รุ่นที่พัฒนาโดยบริษัทเกาหลี เช่น LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm เป็นต้น
- ผลเบนช์มาร์กแสดงให้เห็นว่าโมเดล Solar Pro 2 ของ Upstage และ Mi:dm 2.0 ของ KT แทบจะไม่สร้าง "คำตอบที่เป็นอันตราย"
- ในทางกลับกัน โมเดลของ LG EXAONE และ SKT A.X แสดงจุดอ่อนอย่างชัดเจนในด้าน "การสร้างคำตอบที่เป็นอันตราย"
- ดูผลลัพธ์โดยละเอียดและชุดข้อมูลเพิ่มเติมได้ที่ GitHub repo!
3 ความคิดเห็น
EXAONE กับ a.x ก็สุดท้ายเป็นตระกูล qwen นั่นแหละ...
น่าสนใจดีนะ
555 แนวทางนี้สดใหม่และสนุกมากครับ
สงสัยว่า HyperCLOVA จะเป็นยังไงบ้าง เหมือนเมื่อวานจะเห็นว่าเปิดเผยโมเดลบน LinkedIn ...