การมาถึงของ DeepSeek V3 โมเดลโอเพนซอร์สที่เหนือกว่า LLM แบบปิดซอร์สบางตัว
- ไม่นานมานี้ DeepSeek (บริษัท AI จากจีน) ได้เปิดตัว DeepSeek V3 โมเดลโอเพนซอร์สที่สร้างความฮือฮา หลังทำผลงานเหนือกว่า GPT-4o 0513 ในเบนช์มาร์ก LLM บางรายการ เช่น MMLU (ภาษาอังกฤษ), Human-Eval-Mul (การเขียนโค้ด) และ AIME 2024 (คณิตศาสตร์)
- เนื่องจากเป็นผลลัพธ์ที่เหนือกว่า LLM แบบปิดซอร์ส (Closed Source) ที่มีอยู่เดิม (เช่น GPT ของ OpenAI, Claude ของ Anthropic) จึงได้รับความสนใจอย่างมาก
ทำผลงานได้ไม่ดีใน MisguidedAttention เบนช์มาร์กที่ใช้ทดสอบว่ามีการโอเวอร์ฟิตหรือไม่
- MisguidedAttention คือ “เบนช์มาร์กที่ใช้ตรวจสอบว่า LLM มีการโอเวอร์ฟิต (Overfitting) กับเบนช์มาร์กบางชุดหรือไม่”
- MisguidedAttention ใช้คำถามที่ดัดแปลงจากคำถามในเบนช์มาร์กเดิมเล็กน้อยเพื่อทดสอบการโอเวอร์ฟิตของ LLM
- ตัวอย่างเช่น เบนช์มาร์กเดิมอาจถาม “มีรถไฟที่เบรกเสียกำลังวิ่งอยู่บนราง บนรางแต่ละเส้นมีคน 5 คนและ 1 คนถูกมัดอยู่ หากดึงคันโยก 5 คนจะรอดแต่ 1 คนจะตาย แต่ถ้าไม่ดึงคันโยกและอยู่นิ่ง ๆ 5 คนจะตาย คุณจะดึงคันโยกหรือไม่?” ซึ่งเป็นคำถามแบบ “Trolley Dilemma” แต่ MisguidedAttention จะดัดแปลงเป็น “บนรางแต่ละเส้นมีศพ 5 ศพ และมีคนที่ยังมีชีวิตอยู่ 1 คนถูกมัดอยู่” ซึ่งเป็น “No Trolley Dilemma” เพื่อตรวจดูว่า LLM จะให้คำตอบที่ชัดเจนหรือไม่
- DeepSeek V3 ได้คะแนน 0.22 ใน MisguidedAttention ซึ่งต่ำกว่าคะแนน 0.45 ของ claude-3.5-sonnet-new และ 0.46 ของ gpt4-32k ซึ่งเป็น LLM แบบปิดซอร์ส
DeepSeek V3 เป็นโมเดลโอเพนซอร์ส
- อย่างไรก็ตาม คะแนนดังกล่าวยังสูงกว่า LLM แบบปิดซอร์สอีกรายอย่าง gemini-pro-1.5 ที่ได้ 0.21
- ในบรรดาโมเดลโอเพนซอร์ส โมเดล fine-tuning ที่พัฒนาบนพื้นฐาน llama อย่าง ‘hermes-3-llama-3.1-405’ ได้คะแนนสูงสุดที่ 0.27 และเมื่อเทียบกับ 0.22 ของ DeepSeek V3 ก็ถือว่าไม่ได้ต่างกันมาก
- แม้จะได้คะแนนต่ำในเบนช์มาร์กที่ใช้ทดสอบการโอเวอร์ฟิต แต่ก็มีความเห็นว่ายังคงมีความสำคัญอย่างมาก เพราะเป็นโมเดลโอเพนซอร์ส
2 ความคิดเห็น
น่าจะเพราะพัฒนาขึ้นในจีน เลยตอบประเด็นอ่อนไหวในจีนได้ไม่ค่อยดี
ดูเหมือนว่าบริการทั้งหมดของจีนจะมีแนวโน้มแบบนั้น ไม่ว่าจะถูกหรือผิดก็ดูเหมือนว่าแค่ระแวงเมื่อมีหัวข้อที่เกี่ยวข้องโผล่ขึ้นมา