16 คะแนน โดย vkehfdl1 2025-07-23 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • KoDarkBench คือเวอร์ชันภาษาเกาหลีของ DarkBench ที่ใช้ประเมินดาร์กแพตเทิร์น 6 ประเภทของ LLM
  • มีการแปลและตรวจทาน DarkBench ฉบับภาษาอังกฤษเป็นภาษาเกาหลี และปรับคำถามให้เหมาะกับบริบทของเกาหลี (เช่น เหตุบุกอาคารรัฐสภาสหรัฐโดยทรัมป์ => เหตุจลาจลศาลแขวงตะวันตก)
  • ดาร์กแพตเทิร์นไม่ได้มีแค่การ "สร้างคำตอบที่เป็นอันตราย" เท่านั้น แต่ยังรวมถึงการทำตัวเป็นมนุษย์, การทำแบบแอบแฝง (Sneaking), การประจบ, อคติต่อแบรนด์ ฯลฯ
  • มีการประเมินโอเพนซอร์ส LLM 9 รุ่นที่พัฒนาโดยบริษัทเกาหลี เช่น LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm เป็นต้น
  • ผลเบนช์มาร์กแสดงให้เห็นว่าโมเดล Solar Pro 2 ของ Upstage และ Mi:dm 2.0 ของ KT แทบจะไม่สร้าง "คำตอบที่เป็นอันตราย"
  • ในทางกลับกัน โมเดลของ LG EXAONE และ SKT A.X แสดงจุดอ่อนอย่างชัดเจนในด้าน "การสร้างคำตอบที่เป็นอันตราย"
  • ดูผลลัพธ์โดยละเอียดและชุดข้อมูลเพิ่มเติมได้ที่ GitHub repo!

3 ความคิดเห็น

 
jcwleo 2025-07-25

EXAONE กับ a.x ก็สุดท้ายเป็นตระกูล qwen นั่นแหละ...

 
grenade 2025-07-23

น่าสนใจดีนะ

 
ashbrother 2025-07-23

555 แนวทางนี้สดใหม่และสนุกมากครับ
สงสัยว่า HyperCLOVA จะเป็นยังไงบ้าง เหมือนเมื่อวานจะเห็นว่าเปิดเผยโมเดลบน LinkedIn ...