DeepSeek V3 ทำผลงานได้ไม่ดีในเบนช์มาร์กที่ใช้ทดสอบว่ามีการโอเวอร์ฟิตหรือไม่

(github.com/cpldcpu)

2 คะแนน โดย jhj0517 2024-12-31 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

การมาถึงของ DeepSeek V3 โมเดลโอเพนซอร์สที่เหนือกว่า LLM แบบปิดซอร์สบางตัว

ไม่นานมานี้ DeepSeek (บริษัท AI จากจีน) ได้เปิดตัว DeepSeek V3 โมเดลโอเพนซอร์สที่สร้างความฮือฮา หลังทำผลงานเหนือกว่า GPT-4o 0513 ในเบนช์มาร์ก LLM บางรายการ เช่น MMLU (ภาษาอังกฤษ), Human-Eval-Mul (การเขียนโค้ด) และ AIME 2024 (คณิตศาสตร์)
เนื่องจากเป็นผลลัพธ์ที่เหนือกว่า LLM แบบปิดซอร์ส (Closed Source) ที่มีอยู่เดิม (เช่น GPT ของ OpenAI, Claude ของ Anthropic) จึงได้รับความสนใจอย่างมาก

ทำผลงานได้ไม่ดีใน MisguidedAttention เบนช์มาร์กที่ใช้ทดสอบว่ามีการโอเวอร์ฟิตหรือไม่

MisguidedAttention คือ “เบนช์มาร์กที่ใช้ตรวจสอบว่า LLM มีการโอเวอร์ฟิต (Overfitting) กับเบนช์มาร์กบางชุดหรือไม่”
MisguidedAttention ใช้คำถามที่ดัดแปลงจากคำถามในเบนช์มาร์กเดิมเล็กน้อยเพื่อทดสอบการโอเวอร์ฟิตของ LLM
ตัวอย่างเช่น เบนช์มาร์กเดิมอาจถาม “มีรถไฟที่เบรกเสียกำลังวิ่งอยู่บนราง บนรางแต่ละเส้นมีคน 5 คนและ 1 คนถูกมัดอยู่ หากดึงคันโยก 5 คนจะรอดแต่ 1 คนจะตาย แต่ถ้าไม่ดึงคันโยกและอยู่นิ่ง ๆ 5 คนจะตาย คุณจะดึงคันโยกหรือไม่?” ซึ่งเป็นคำถามแบบ “Trolley Dilemma” แต่ MisguidedAttention จะดัดแปลงเป็น “บนรางแต่ละเส้นมีศพ 5 ศพ และมีคนที่ยังมีชีวิตอยู่ 1 คนถูกมัดอยู่” ซึ่งเป็น “No Trolley Dilemma” เพื่อตรวจดูว่า LLM จะให้คำตอบที่ชัดเจนหรือไม่
DeepSeek V3 ได้คะแนน 0.22 ใน MisguidedAttention ซึ่งต่ำกว่าคะแนน 0.45 ของ claude-3.5-sonnet-new และ 0.46 ของ gpt4-32k ซึ่งเป็น LLM แบบปิดซอร์ส

DeepSeek V3 เป็นโมเดลโอเพนซอร์ส

อย่างไรก็ตาม คะแนนดังกล่าวยังสูงกว่า LLM แบบปิดซอร์สอีกรายอย่าง gemini-pro-1.5 ที่ได้ 0.21
ในบรรดาโมเดลโอเพนซอร์ส โมเดล fine-tuning ที่พัฒนาบนพื้นฐาน llama อย่าง ‘hermes-3-llama-3.1-405’ ได้คะแนนสูงสุดที่ 0.27 และเมื่อเทียบกับ 0.22 ของ DeepSeek V3 ก็ถือว่าไม่ได้ต่างกันมาก
แม้จะได้คะแนนต่ำในเบนช์มาร์กที่ใช้ทดสอบการโอเวอร์ฟิต แต่ก็มีความเห็นว่ายังคงมีความสำคัญอย่างมาก เพราะเป็นโมเดลโอเพนซอร์ส

2 ความคิดเห็น

dohyun682 2024-12-31

น่าจะเพราะพัฒนาขึ้นในจีน เลยตอบประเด็นอ่อนไหวในจีนได้ไม่ค่อยดี

jhj0517 2024-12-31

ดูเหมือนว่าบริการทั้งหมดของจีนจะมีแนวโน้มแบบนั้น ไม่ว่าจะถูกหรือผิดก็ดูเหมือนว่าแค่ระแวงเมื่อมีหัวข้อที่เกี่ยวข้องโผล่ขึ้นมา

DeepSeek V3 ทำผลงานได้ไม่ดีในเบนช์มาร์กที่ใช้ทดสอบว่ามีการโอเวอร์ฟิตหรือไม่

การมาถึงของ DeepSeek V3 โมเดลโอเพนซอร์สที่เหนือกว่า LLM แบบปิดซอร์สบางตัว

ทำผลงานได้ไม่ดีใน MisguidedAttention เบนช์มาร์กที่ใช้ทดสอบว่ามีการโอเวอร์ฟิตหรือไม่

DeepSeek V3 เป็นโมเดลโอเพนซอร์ส

บทความที่เกี่ยวข้อง

2 ความคิดเห็น