1 คะแนน โดย GN⁺ 2025-01-29 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen2.5-Max เป็นโมเดล Mixture-of-Experts (MoE) ขนาดใหญ่ที่ผ่านการพรีเทรนด้วยโทเคนมากกว่า 20 ล้านล้าน (20T) โทเคน
  • มีการฝึกต่อเนื่องภายหลังผ่าน Supervised Fine-Tuning (SFT) และ Reinforcement Learning from Human Feedback (RLHF)
  • แสดงประสิทธิภาพที่โดดเด่นและทำได้เหนือกว่าในการทดสอบ benchmark ส่วนใหญ่เมื่อเทียบกับ DeepSeek V3, GPT-4o, Claude-3.5-Sonnet และ Llama-3.1-405B
    • เหนือกว่า DeepSeek V3 ใน Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond และยังแสดงผลลัพธ์ที่แข่งขันได้ใน MMLU-Pro

ผลลัพธ์ benchmark หลัก

  • Arena-Hard: การประเมินโดยประมาณของความชอบของมนุษย์
    Qwen2.5-Max ทำคะแนนได้ 89.4 คะแนน และแสดงประสิทธิภาพสูงสุด เหนือกว่า DeepSeek V3 (85.5 คะแนน), GPT-4o (85.2 คะแนน) และ Claude-3.5-Sonnet (77.9 คะแนน) ส่วน Llama-3.1-405B ได้ 69.3 คะแนน ซึ่งถือว่าค่อนข้างต่ำกว่า
  • MMLU-Pro: การประเมินความรู้ระดับมหาวิทยาลัย
    Qwen2.5-Max ได้ 76.1 คะแนน ซึ่งแทบจะเทียบเท่ากับ DeepSeek V3 (75.9 คะแนน) แม้ GPT-4o (78.0 คะแนน) จะสูงกว่าเล็กน้อย แต่ Qwen2.5-Max ก็ทำได้ดีกว่า Claude-3.5-Sonnet (77.0 คะแนน) และ Llama-3.1-405B (73.3 คะแนน)
  • GPQA-Diamond: การประเมินความสามารถในการตอบคำถามทั่วไป
    Qwen2.5-Max ได้ 60.1 คะแนน นำหน้า DeepSeek V3 (59.1 คะแนน) เล็กน้อย แต่ต่ำกว่า GPT-4o (53.6 คะแนน), Claude-3.5-Sonnet (51.1 คะแนน) และ Llama-3.1-405B (65.0 คะแนน) อยู่บ้าง
  • LiveCodeBench: การประเมินความสามารถด้านการเขียนโค้ด
    Qwen2.5-Max ทำได้ 38.7 คะแนน สูงกว่า DeepSeek V3 (37.6 คะแนน) เล็กน้อย และอยู่ในระดับใกล้เคียงกับ GPT-4o (35.1 คะแนน), Claude-3.5-Sonnet (30.2 คะแนน) และ Llama-3.1-405B (38.9 คะแนน)
  • LiveBench: การประเมินประสิทธิภาพของโมเดลโดยรวม
    Qwen2.5-Max ได้คะแนนสูงสุดที่ 62.2 คะแนน แสดงประสิทธิภาพเหนือกว่า DeepSeek V3 (60.5 คะแนน), GPT-4o (60.3 คะแนน), Claude-3.5-Sonnet (56.0 คะแนน) และ Llama-3.1-405B (53.2 คะแนน)

ทิศทางในอนาคต

  • การขยายขนาดของข้อมูลและโมเดลแสดงให้เห็นถึงพัฒนาการของความฉลาดของโมเดล และยังคงทุ่มเทให้กับการวิจัยเพื่อยกระดับความสามารถด้านการคิดและการให้เหตุผลของโมเดลภาษาขนาดใหญ่
  • การประยุกต์ใช้ reinforcement learning อย่างสร้างสรรค์เปิดโอกาสในการพัฒนาโมเดลที่ก้าวข้ามความฉลาดของมนุษย์ และสำรวจขอบเขตใหม่ของความรู้และความเข้าใจ

1 ความคิดเห็น