Qwen2.5-Max: สำรวจความฉลาดของโมเดล MoE ขนาดใหญ่

(qwenlm.github.io)

1 คะแนน โดย GN⁺ 2025-01-29 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen2.5-Max เป็นโมเดล MoE ขนาดใหญ่ ที่พรีเทรนด้วยโทเคนมากกว่า 20 ล้านล้านโทเคน และเปิดใช้งานบน Alibaba Cloud API และ Qwen Chat หลังผ่าน post-training ด้วย SFT และ RLHF
การประเมินครอบคลุม MMLU-Pro, LiveCodeBench, LiveBench และ Arena-Hard โดยเปรียบเทียบโมเดล instruct ในมุมของการใช้งานปลายทางจริง เช่น แชตและการเขียนโค้ด
Qwen2.5-Max ทำผลงานเหนือกว่า DeepSeek V3 บน Arena-Hard, LiveBench, LiveCodeBench และ GPQA-Diamond และยังได้ผลลัพธ์ที่แข่งขันได้ในชุดทดสอบอย่าง MMLU-Pro
ในการเปรียบเทียบ base model ไม่สามารถเข้าถึง GPT-4o และ Claude-3.5-Sonnet ได้โดยตรง จึงใช้ DeepSeek V3, Llama-3.1-405B และ Qwen2.5-72B เป็นคู่เทียบ
ชื่อโมเดลสำหรับ API คือ qwen-max-2025-01-25 และรองรับรูปแบบ เข้ากันได้กับ OpenAI API จึงใช้โฟลว์การเรียกแบบเดิมที่อิงกับ OpenAI client ได้

ขนาดโมเดลและผลลัพธ์จากเบนช์มาร์ก

Qwen2.5-Max เป็นโมเดล MoE ขนาดใหญ่ที่พัฒนาขึ้นบนสมมติฐานว่าการขยายขนาดข้อมูลและขนาดโมเดลสามารถนำไปสู่การยกระดับความฉลาดของโมเดลได้
โมเดลนี้พรีเทรนด้วย โทเคนมากกว่า 20 ล้านล้านโทเคน และต่อมาผ่าน post-training ด้วย Supervised Fine-Tuning (SFT) และ Reinforcement Learning from Human Feedback (RLHF) ที่คัดเลือกมาแล้ว
การประเมินประสิทธิภาพใช้ทั้งเบนช์มาร์กด้านความรู้ การเขียนโค้ด และความสามารถโดยรวม
- MMLU-Pro: ประเมินความรู้ด้วยโจทย์ระดับมหาวิทยาลัย
- LiveCodeBench: ประเมินความสามารถด้านการเขียนโค้ด
- LiveBench: ประเมินความสามารถทั่วไปแบบองค์รวม
- Arena-Hard: การประเมินที่ใกล้เคียงกับความชอบของมนุษย์
ในการเปรียบเทียบโมเดล instruct มี Qwen2.5-Max, DeepSeek V3, GPT-4o และ Claude-3.5-Sonnet
- Qwen2.5-Max ทำผลงานเหนือกว่า DeepSeek V3 บน Arena-Hard, LiveBench, LiveCodeBench และ GPQA-Diamond
- และยังแสดงผลลัพธ์ที่แข่งขันได้ในการประเมินอื่น ๆ รวมถึง MMLU-Pro
ในการเปรียบเทียบ base model ไม่สามารถเข้าถึงโมเดลปิดอย่าง GPT-4o และ Claude-3.5-Sonnet ได้ จึงประเมินโดยเน้นโมเดล open weight
- คู่เทียบคือ DeepSeek V3, Llama-3.1-405B และ Qwen2.5-72B
- base model ของ Qwen2.5-Max แสดงความเหนือกว่าอย่างมีนัยสำคัญในเบนช์มาร์กส่วนใหญ่
เวอร์ชันถัดไปตั้งเป้ายกระดับประสิทธิภาพให้สูงขึ้นผ่านการปรับปรุง เทคนิค post-training

การใช้งาน API และงานถัดไป

Qwen2.5-Max ใช้งานได้บน Qwen Chat โดยสามารถแชตโดยตรงหรือใช้ฟีเจอร์อย่าง artifacts และ search ได้
API ให้บริการผ่าน Alibaba Cloud
- ชื่อโมเดลคือ qwen-max-2025-01-25
- สามารถสมัครบัญชี Alibaba Cloud เปิดใช้งานบริการ Model Studio และสร้าง API key ได้จากคอนโซล
Qwen API อยู่ในรูปแบบ เข้ากันได้กับ OpenAI API จึงเรียกใช้งานผ่าน OpenAI client ได้

from openai import OpenAI
import os

client = OpenAI(
    api_key=os.getenv("API_KEY"),
    base_url="https://dashscope-intl.aliyuncs.com/compatible-mode/v1";,
)

completion = client.chat.completions.create(
    model="qwen-max-2025-01-25",
    messages=[
        {'role': 'system', 'content': 'You are a helpful assistant.'},
        {'role': 'user', 'content': 'Which number is larger, 9.11 or 9.8?'}
    ]
)

print(completion.choices[0].message)

งานในอนาคตจะมุ่งเน้นการใช้ reinforcement learning ที่ขยายขอบเขตมากขึ้น เพื่อเพิ่มความสามารถด้านการคิดและการให้เหตุผลของโมเดลภาษาขนาดใหญ่
ข้อมูลอ้างอิงเกี่ยวกับ Qwen2.5 อยู่ใน Qwen2.5 technical report arXiv preprint arXiv:2412.15115

2 ความคิดเห็น

GN⁺ 2025-01-29

ความคิดเห็นบน Hacker News

บอกว่า DeepSeek V3 ที่เพิ่งเปิดตัวเมื่อไม่นานนี้แสดงให้เห็นว่า รายละเอียดสำคัญของกระบวนการสเกล มีประโยชน์แค่ไหน แต่สุดท้ายกลับไม่เปิดเผยข้อมูลการฝึกของตัวเอง
ถ้าเป็น API แบบปิด และไม่มีข้อมูลเพิ่มเติม คำว่า “เกือบเทียบ o1 ได้” ก็ไม่น่าสนใจเท่าไร
- ไม่ได้ “เกือบเทียบ o1 ได้” ด้วยซ้ำ ตัวที่เอามาเทียบมีแค่ 4o ที่เก่ากว่า
  คงพูดได้ว่า Qwen2.5-Max น่าจะได้คะแนนต่ำกว่าโมเดล reasoning รุ่นล่าสุด (o1, DeepSeek-R1, Gemini 2.0 Flash Thinking)
  ถ้าใช้ reinforcement learning สำหรับ reasoning ก็มีโอกาสจะกลายเป็นโมเดลที่แข็งแกร่งมาก แต่สูตรที่สำเร็จทั้งหมดเป็นข้อมูลปิด จึงอาจต้องใช้เวลา ระหว่างนั้นอาจทำ supervised fine-tuning (SFT) จาก chain of thought ของโมเดลอื่นได้ แต่รายงานทางเทคนิคของ DeepSeek-R1 ก็ระบุว่าไม่ดีเท่า reinforcement learning
นึกว่าหน้าแรกของ HN มีรายการเกี่ยวกับ DeepSeek อยู่สามรายการ ที่แท้เป็นรายการที่สี่ด้วย เพราะเป็นโพสต์ที่บอกว่าทีม Qwen มี Qwen เวอร์ชันลับที่ดีกว่า DeepSeek-V3
จำไม่ได้ว่าเคยมีช่วงไหนที่ 20% ของหน้าแรก HN เป็นหัวข้อเดียวกัน แน่นอนว่าก็นึกไม่ออกเหมือนกันว่ามีบริษัทไหนเคยเสีย มูลค่าตลาด 569,000 ล้านดอลลาร์ เหมือน NVIDIA เมื่อวานนี้
- พลาดไปว่า 4 ÷ 30 ไม่ใช่ 20% จริง ๆ แล้วใกล้ 13% มากกว่า เป็นความผิดพลาดโง่ ๆ
เดโมบน HuggingFace: https://huggingface.co/spaces/Qwen/Qwen2.5-Max-Demo
ที่มา: https://x.com/Alibaba_Qwen/status/1884263157574820053
ค่อนข้างน่าประหลาดใจที่บริษัทจีนประกาศสิ่งนี้ใน วันก่อนตรุษจีน ดูเหมือนการเปิดตัวของ DeepSeek จะจุดกระแสขึ้นมาจริง ๆ
แค่มีอะไรบางอย่างกำลังเกิดขึ้นในบริษัทเทคโนโลยีจีนตอนนี้ก็ถือว่าน่าแปลกใจแล้ว
- วิศวกรของ DeepSeek คงกำลังรับมือเหตุขัดข้องกันอย่างสิ้นหวัง เพราะความจุยังต่ำกว่าที่ต้องการมาก ส่วนคู่แข่งก็ดูเหมือนจะรีบเปิดตัวไปแล้ว หรือไม่ก็เลือกปล่อยสิ่งที่เตรียมไว้ออกมาเงียบ ๆ บรรยากาศเหมือนทุกคนทำงานกันหนักมาก
- คล้ายกับตอนที่ Gemini ขึ้นอันดับ 1 บนตาราง Chatbot Arena แล้ว OpenAI ก็ปล่อยโมเดลออกมาในวันถัดมา
ดูเหมือนนี่จะเป็น โมเดลประสิทธิภาพสูงสุด ตัวใหม่ของ Qwen และตอนนี้ใช้ได้ผ่าน API เท่านั้น พวกเขาบอกว่าดีกว่า DeepSeek v3
- ใช้งานได้ที่ https://chat.qwenlm.ai/ ผ่านตัวเลือกโมเดล
ลองรัน NYT Connections benchmark ของผมแล้วได้ 18.6 คะแนน เพิ่มขึ้นจาก 14.8 คะแนนของ Qwen 2.5 72B ไว้จะรัน benchmark อื่น ๆ ภายหลัง
https://github.com/lechmazur/nyt-connections/
Mixture of Experts (MoE) บนคลาวด์รู้สึกก้ำกึ่งอยู่บ้าง แต่บนเครื่องระดับเดสก์ท็อปมันอาจฉายแสงได้จริง ๆ
หน่วยความจำกำลังเร็วขึ้นเรื่อย ๆ ดังนั้นอีกไม่นาน MoE อาจไม่ช้าจนน่าทรมานนัก แม้กับโมเดลที่ค่อนข้างใหญ่
ถ้าไม่มี weights ก็ไม่มีหลักฐาน
- จะพูดแบบเดียวกันไหมตอน OpenAI เปิดตัวโมเดลใหม่?
นี่ไม่ใช่ reasoning model ถ้ามันชนะ DeepSeek V3 ใน benchmark ได้ เวอร์ชัน reasoning model ก็น่าจะชนะ o1 Pro ได้ด้วย

xguru 2025-01-29

2023-08-03 Alibaba เปิดตัวโมเดล AI โอเพนซอร์ส QWEN
2024-04-25 Qwen1.5-110B : โมเดล 100B+ ตัวแรกในซีรีส์โอเพนซอร์ส LLM Qwen1.5 ของ Alibaba
2024-06-07 Alibaba เปิดตัวโมเดล Qwen 2
2024-09-19 Qwen2.5 - เปิดตัว foundation model หลายตัว
2024-11-28 QwQ - LLM สำหรับการให้เหตุผลของ Alibaba ที่คล้ายกับ ChatGPT o1
2024-12-24 รีวิวการใช้งาน QvQ โมเดลให้เหตุผลด้านการมองเห็นตัวใหม่ของ Qwen
2025-01-27 Qwen2.5-1M - การติดตั้งใช้งาน Qwen ด้วยตนเองที่รองรับได้ถึง 1 ล้านโทเค็น

ระหว่างที่ DeepSeek กำลังสร้างกระแสแรงอยู่ Qwen เองก็ปล่อยผลลัพธ์ระดับน่าทึ่งออกมาแบบวันละอย่างต่อเนื่องเหมือนกันนะครับ.
บริษัทจีนนี้น่ากลัวจริง ๆ ครับ.