- Qwen2.5-Max เป็นโมเดล Mixture-of-Experts (MoE) ขนาดใหญ่ที่ผ่านการพรีเทรนด้วยโทเคนมากกว่า 20 ล้านล้าน (20T) โทเคน
- มีการฝึกต่อเนื่องภายหลังผ่าน Supervised Fine-Tuning (SFT) และ Reinforcement Learning from Human Feedback (RLHF)
- แสดงประสิทธิภาพที่โดดเด่นและทำได้เหนือกว่าในการทดสอบ benchmark ส่วนใหญ่เมื่อเทียบกับ DeepSeek V3, GPT-4o, Claude-3.5-Sonnet และ Llama-3.1-405B
- เหนือกว่า DeepSeek V3 ใน Arena-Hard, LiveBench, LiveCodeBench, GPQA-Diamond และยังแสดงผลลัพธ์ที่แข่งขันได้ใน MMLU-Pro
ผลลัพธ์ benchmark หลัก
- Arena-Hard: การประเมินโดยประมาณของความชอบของมนุษย์
Qwen2.5-Max ทำคะแนนได้ 89.4 คะแนน และแสดงประสิทธิภาพสูงสุด เหนือกว่า DeepSeek V3 (85.5 คะแนน), GPT-4o (85.2 คะแนน) และ Claude-3.5-Sonnet (77.9 คะแนน) ส่วน Llama-3.1-405B ได้ 69.3 คะแนน ซึ่งถือว่าค่อนข้างต่ำกว่า
- MMLU-Pro: การประเมินความรู้ระดับมหาวิทยาลัย
Qwen2.5-Max ได้ 76.1 คะแนน ซึ่งแทบจะเทียบเท่ากับ DeepSeek V3 (75.9 คะแนน) แม้ GPT-4o (78.0 คะแนน) จะสูงกว่าเล็กน้อย แต่ Qwen2.5-Max ก็ทำได้ดีกว่า Claude-3.5-Sonnet (77.0 คะแนน) และ Llama-3.1-405B (73.3 คะแนน)
- GPQA-Diamond: การประเมินความสามารถในการตอบคำถามทั่วไป
Qwen2.5-Max ได้ 60.1 คะแนน นำหน้า DeepSeek V3 (59.1 คะแนน) เล็กน้อย แต่ต่ำกว่า GPT-4o (53.6 คะแนน), Claude-3.5-Sonnet (51.1 คะแนน) และ Llama-3.1-405B (65.0 คะแนน) อยู่บ้าง
- LiveCodeBench: การประเมินความสามารถด้านการเขียนโค้ด
Qwen2.5-Max ทำได้ 38.7 คะแนน สูงกว่า DeepSeek V3 (37.6 คะแนน) เล็กน้อย และอยู่ในระดับใกล้เคียงกับ GPT-4o (35.1 คะแนน), Claude-3.5-Sonnet (30.2 คะแนน) และ Llama-3.1-405B (38.9 คะแนน)
- LiveBench: การประเมินประสิทธิภาพของโมเดลโดยรวม
Qwen2.5-Max ได้คะแนนสูงสุดที่ 62.2 คะแนน แสดงประสิทธิภาพเหนือกว่า DeepSeek V3 (60.5 คะแนน), GPT-4o (60.3 คะแนน), Claude-3.5-Sonnet (56.0 คะแนน) และ Llama-3.1-405B (53.2 คะแนน)
ทิศทางในอนาคต
- การขยายขนาดของข้อมูลและโมเดลแสดงให้เห็นถึงพัฒนาการของความฉลาดของโมเดล และยังคงทุ่มเทให้กับการวิจัยเพื่อยกระดับความสามารถด้านการคิดและการให้เหตุผลของโมเดลภาษาขนาดใหญ่
- การประยุกต์ใช้ reinforcement learning อย่างสร้างสรรค์เปิดโอกาสในการพัฒนาโมเดลที่ก้าวข้ามความฉลาดของมนุษย์ และสำรวจขอบเขตใหม่ของความรู้และความเข้าใจ
1 ความคิดเห็น
2023-08-03 Alibaba เปิดตัวโมเดล AI โอเพนซอร์ส QWEN
2024-04-25 Qwen1.5-110B : โมเดล 100B+ ตัวแรกในซีรีส์โอเพนซอร์ส LLM Qwen1.5 ของ Alibaba
2024-06-07 Alibaba เปิดตัวโมเดล Qwen 2
2024-09-19 Qwen2.5 - เปิดตัว foundation model หลายตัว
2024-11-28 QwQ - LLM สำหรับการให้เหตุผลของ Alibaba ที่คล้ายกับ ChatGPT o1
2024-12-24 รีวิวการใช้งาน QvQ โมเดลให้เหตุผลด้านการมองเห็นตัวใหม่ของ Qwen
2025-01-27 Qwen2.5-1M - การติดตั้งใช้งาน Qwen ด้วยตนเองที่รองรับได้ถึง 1 ล้านโทเค็น
ระหว่างที่ DeepSeek กำลังสร้างกระแสแรงอยู่ Qwen เองก็ปล่อยผลลัพธ์ระดับน่าทึ่งออกมาแบบวันละอย่างต่อเนื่องเหมือนกันนะครับ.
บริษัทจีนนี้น่ากลัวจริง ๆ ครับ.