KoDarkBench : K-LLM ตัวไหนมีด้านมืดที่สุด?

vkehfdl1 · 2025-07-23T16:24:59+09:00

KoDarkBench คือเวอร์ชันภาษาเกาหลีของ DarkBench ที่ใช้ประเมินดาร์กแพตเทิร์น 6 ประเภทของ LLM มีการแปลและตรวจทาน DarkBench ฉบับภาษาอังกฤษเป็นภาษาเกาหลี และปรับคำถามให้เหมาะกับบริบทของเกาหลี (เช่น เหตุบุกอาคารรัฐสภาสหรัฐโดยทรัมป์ => เหตุจลาจลศาลแขวงตะวันตก) ดาร์กแพตเทิร์นไม่ได้มีแค่การ "สร้างคำตอบที่เป็นอันตราย" เท่านั้น แต่ยังรวมถึงการทำตัวเป็นมนุษย์, การทำแบบแอบแฝง (Sneaking), การประจบ, อคติต่อแบรนด์ ฯลฯ มีการประเมินโอเพนซอร์ส LLM 9 รุ่นที่พัฒนาโดยบริษัทเกาหลี เช่น LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm เป็นต้น ผลเบนช์มาร์กแสดงให้เห็นว่าโมเดล Solar Pro 2 ของ Upstage และ Mi:dm 2.0 ของ KT แทบจะไม่สร้าง "คำตอบที่เป็นอันตราย" ในทางกลับกัน โมเดลของ LG EXAONE และ SKT A.X แสดงจุดอ่อนอย่างชัดเจนในด้าน "การสร้างคำตอบที่เป็นอันตราย" ดูผลลัพธ์โดยละเอียดและชุดข้อมูลเพิ่มเติมได้ที่ GitHub repo!

(github.com/RiceBobb)

16 คะแนน โดย vkehfdl1 2025-07-23 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

KoDarkBench คือเวอร์ชันภาษาเกาหลีของ DarkBench ที่ใช้ประเมินดาร์กแพตเทิร์น 6 ประเภทของ LLM
มีการแปลและตรวจทาน DarkBench ฉบับภาษาอังกฤษเป็นภาษาเกาหลี และปรับคำถามให้เหมาะกับบริบทของเกาหลี (เช่น เหตุบุกอาคารรัฐสภาสหรัฐโดยทรัมป์ => เหตุจลาจลศาลแขวงตะวันตก)
ดาร์กแพตเทิร์นไม่ได้มีแค่การ "สร้างคำตอบที่เป็นอันตราย" เท่านั้น แต่ยังรวมถึงการทำตัวเป็นมนุษย์, การทำแบบแอบแฝง (Sneaking), การประจบ, อคติต่อแบรนด์ ฯลฯ
มีการประเมินโอเพนซอร์ส LLM 9 รุ่นที่พัฒนาโดยบริษัทเกาหลี เช่น LG EXAONE, SKT A.X, Upstage Solar, KT Mi:dm เป็นต้น
ผลเบนช์มาร์กแสดงให้เห็นว่าโมเดล Solar Pro 2 ของ Upstage และ Mi:dm 2.0 ของ KT แทบจะไม่สร้าง "คำตอบที่เป็นอันตราย"
ในทางกลับกัน โมเดลของ LG EXAONE และ SKT A.X แสดงจุดอ่อนอย่างชัดเจนในด้าน "การสร้างคำตอบที่เป็นอันตราย"
ดูผลลัพธ์โดยละเอียดและชุดข้อมูลเพิ่มเติมได้ที่ GitHub repo!

3 ความคิดเห็น

jcwleo 2025-07-25

EXAONE กับ a.x ก็สุดท้ายเป็นตระกูล qwen นั่นแหละ...

grenade 2025-07-23

น่าสนใจดีนะ

ashbrother 2025-07-23

555 แนวทางนี้สดใหม่และสนุกมากครับ
สงสัยว่า HyperCLOVA จะเป็นยังไงบ้าง เหมือนเมื่อวานจะเห็นว่าเปิดเผยโมเดลบน LinkedIn ...

KoDarkBench : K-LLM ตัวไหนมีด้านมืดที่สุด?

บทความที่เกี่ยวข้อง

3 ความคิดเห็น