Qwen3 - โมเดลภาษายุคถัดไปที่คิดได้ลึกขึ้นและตอบสนองได้เร็วขึ้น

(qwenlm.github.io)

8 คะแนน โดย GN⁺ 2025-04-29 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen3 คือโมเดลภาษาขนาดใหญ่รุ่นล่าสุดที่มี พารามิเตอร์สูงสุด 235B และแสดงประสิทธิภาพในระดับ แข่งขันได้ กับ DeepSeek-R1, Grok-3, Gemini-2.5-Pro เป็นต้น
รองรับ โหมดการคิดแบบไฮบริด (Thinking/Non-Thinking) ทำให้สามารถ ปรับระดับความลึกของการให้เหตุผลตามความยากของปัญหา ได้
รองรับ 119 ภาษาและภาษาถิ่น ช่วยยกระดับ การใช้งานในระดับโลก อย่างมาก
พรีเทรนด้วยข้อมูล 36 ล้านล้านโทเคนที่ขยายจากรุ่นก่อน 2 เท่า ทำให้ความสามารถด้าน การเขียนโค้ด คณิตศาสตร์ และการให้เหตุผลเชิงตรรกะ ดีขึ้น
เปิดซอร์สภายใต้ Apache 2.0 license และสามารถใช้งานได้ทันทีบน Hugging Face, ModelScope, Kaggle เป็นต้น

บทนำ

Qwen3 คือโมเดลภาษาขนาดใหญ่รุ่นล่าสุดใน Qwen series โดยมี Qwen3-235B-A22B ซึ่งมี 235B พารามิเตอร์ เป็นโมเดลเรือธงหลัก
Qwen3-30B-A3B ซึ่งเป็น MoE model ขนาดเล็ก แสดงประสิทธิภาพเหนือกว่า QwQ-32B ที่มีการเปิดใช้งานพารามิเตอร์มากกว่าถึง 10 เท่า
เปิดเผย Dense model 6 รุ่น (0.6B, 1.7B, 4B, 8B, 14B, 32B) และ MoE model 2 รุ่น (30B, 235B) ภายใต้ไลเซนส์ Apache 2.0

คุณสมบัติหลัก

โหมดการคิดแบบไฮบริด
- Thinking mode: โหมดที่ทำ การให้เหตุผลแบบเป็นลำดับขั้น สำหรับปัญหาที่ซับซ้อน
- Non-Thinking mode: โหมดที่ให้ คำตอบได้ทันที สำหรับปัญหาง่ายที่ต้องการการตอบสนองรวดเร็ว
- สามารถปรับ งบประมาณการให้เหตุผล ตามงานเพื่อ เพิ่มประสิทธิภาพด้านต้นทุนและคุณภาพ ได้
การรองรับหลายภาษา
- รองรับ 119 ภาษาและภาษาถิ่น ช่วยเพิ่มศักยภาพในการขยายไปสู่ แอปพลิเคชันระดับโลก
- กลุ่มภาษาหลักที่รองรับ: อินโด-ยูโรเปียน, จีน-ทิเบต, แอฟโฟร-เอเชียติก, ออสโตรนีเซียน, ดราวิเดียน เป็นต้น
ความสามารถด้านเอเจนต์ที่ปรับปรุงแล้ว
- ปรับแต่งให้เหมาะกับ การเขียนโค้ดและความสามารถของเอเจนต์
- ผสานรวมกับ Qwen-Agent เพื่อเพิ่มความสามารถด้าน tool calling ได้สูงสุด

การพรีเทรน

ดำเนินการพรีเทรนโดยใช้ข้อมูล 36 ล้านล้านโทเคน ซึ่งเพิ่มขึ้น 2 เท่าเมื่อเทียบกับ Qwen2.5
รวบรวมข้อมูลจากเว็บและเอกสารลักษณะคล้าย PDF เพื่อสร้าง ชุดข้อมูลคุณภาพสูงที่หลากหลาย
เสริมข้อมูลในด้าน STEM, การเขียนโค้ด, คณิตศาสตร์ เพื่อให้ ความสามารถในการให้เหตุผลโดยรวมดีขึ้น

การฝึกหลังพรีเทรน

ใช้ ไปป์ไลน์ 4 ขั้นตอน (เริ่มต้นด้วย CoT → reinforcement learning → ผสานโหมดการคิด → reinforcement learning ทั่วไป)
ปรับแต่งโมเดลให้สามารถทำได้ทั้ง การให้เหตุผลเชิงตรรกะ และ การตอบสนองอย่างรวดเร็ว พร้อมกัน
เสริม ความเป็นสากลและความเสถียร ผ่าน reinforcement learning กับ งานโดเมนทั่วไปมากกว่า 20 รายการ

การพัฒนาด้วย Qwen3

รองรับเฟรมเวิร์กหลากหลาย เช่น Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp
Thinking mode สามารถ เปิด/ปิด ได้ง่ายในโค้ด และสลับระหว่างการสนทนาได้ด้วยคำสั่ง /think, /no_think

วิธีใช้งานเอเจนต์

ผ่าน Qwen-Agent สามารถใช้ ไฟล์กำหนดค่า MCP หรือ เครื่องมือที่มีมาในตัว เพื่อสร้าง ระบบเอเจนต์ที่ซับซ้อน ได้
สามารถสร้างเซิร์ฟเวอร์ที่เข้ากันได้กับ OpenAI API ได้โดยตรงเพื่อ ดีพลอยแบบโลคัลหรือสาธารณะ

งานในอนาคต

Qwen3 เป็นหมุดหมายสำคัญสู่ปัญญาประดิษฐ์ทั่วไป (AGI) และปัญญาประดิษฐ์เหนือมนุษย์ (ASI) โดยขยายทั้งการพรีเทรนและ reinforcement learning เพื่อบรรลุปัญญาในระดับที่สูงขึ้น
มีเป้าหมายปรับปรุงสถาปัตยกรรมโมเดลและวิธีวิทยาการฝึก เพื่อมุ่งสู่การขยายข้อมูล การเพิ่มขนาดโมเดล การขยายความยาวคอนเท็กซ์ การขยายโมดาลิตี และการให้เหตุผลระยะยาวผ่านฟีดแบ็กจากสภาพแวดล้อม
กำลังเปลี่ยนผ่านจากยุคที่เน้นการฝึกโมเดล ไปสู่ยุคที่เน้นการฝึกเอเจนต์ และเวอร์ชันถัดไปจะนำความก้าวหน้าที่มีความหมายมาสู่งานและชีวิตของทุกคน

2 ความคิดเห็น

iwanhae 2025-04-29

โมเดลขนาดใหญ่ก็น่าสนใจ แต่ฝั่งโมเดลขนาดเล็กน่าสนใจกว่า
ดูเหมือนว่าโมเดล 0.6B จะให้ประสิทธิภาพได้ราวกับโมเดล 7B ของรุ่นอื่น ๆ หลายตัวเลย

GN⁺ 2025-04-29

ความคิดเห็นจาก Hacker News

มีการโยนปัญหาที่อิงฟิสิกส์ให้ LLMs แก้ ซึ่งเป็นปัญหาที่ยากแม้แต่สำหรับมนุษย์ GPT o3, Claude 3.7, Gemini 2.5 Pro ต่างก็ตอบไม่ถูกในตอนแรก ส่วน Qwen3 ตอบผิดยิ่งกว่าเดิม
เอกสารถูกจัดทำมาอย่างดี และมีการรองรับสำหรับสแตกการทำอนุมานหลัก ๆ ตั้งแต่วันแรก มีตัวเลือกขนาดที่หลากหลาย และเคยร่วมงานกับผู้ทำ quant ในคอมมูนิตี้มาแล้ว
แม้จะยังไม่ได้ทดสอบประสิทธิภาพ แต่แค่ความใส่ใจในรายละเอียดรอบด้านก็ทำให้นี่เป็นรีลีสที่ยอดเยี่ยมแล้ว ควรเป็นมาตรฐานเมื่อเทียบกับ Llama 4 ของ Meta
ผลลัพธ์ benchmark ดีมากจนแทบไม่น่าเชื่อ โมเดล 30B แข่งขันกับ Gemini 2.5 Pro ได้ และดีกว่า Gemma 27B มาก
ตอนนี้มีโมเดล open weight หลากหลายออกมา เลยสงสัยว่ามีวิธีหาหรือไม่ว่าโมเดลไหนจะรันได้ด้วยความเร็วที่เหมาะสมบน desktop GPU มาตรฐาน กำลังใช้ Quadro RTX 4000 อยู่ และไม่รู้ว่าในบรรดาโมเดลหลายขนาด ตัวไหนจะเร็ว
มีความเป็นไปได้ว่าโมเดล Qwen และ DeepSeek ถูกฝึกให้สอดคล้องกับโลกทัศน์ของ CCP แต่ในทางปฏิบัติก็ยังไม่เคยก่อปัญหา ยังมีงานวิจัยที่เกี่ยวข้องไม่มากนัก
คาดหวังกับ Qwen-30B-A3B มากที่สุด ดูเหมือนจะเหมาะกับการเป็น coding assistant แบบออฟไลน์/โลคัลโดยเฉพาะ จนถึงตอนนี้โมเดล open weight มักจะประสิทธิภาพไม่ถึงหรือไม่ก็ช้าเกินไป
กำลังมองหามุมมองเกี่ยวกับวิธีที่ดีที่สุดในการเปรียบเทียบโมเดล reasoning โดยทั่วไปจะแนะนำให้ใช้ temperature สูงสำหรับคำตอบเชิงสร้างสรรค์ และใช้ temperature ต่ำสำหรับเอาต์พุตที่มีตรรกะและแน่นอน แต่ไม่มั่นใจว่านำไปใช้กับโมเดล reasoning ได้หรือไม่
น่าสนใจที่ LLM ขนาด 0.6B มี context window 32k อาจเป็นโมเดลตั้งต้นที่สนุกสำหรับการทำ fine-tuning บน Hugging Face มียอดดาวน์โหลดและยอดกดถูกใจมากที่สุด
โมเดลเหล่านี้ดูเหมือนจะใช้การคิดจำนวนมาก benchmark รันด้วยงบการคิด 32k โทเค็น โดยเฉพาะ A3B ที่เหนือกว่า QWQ และอาจมีประโยชน์กับการทำอนุมานบน CPU
ตัวเลขประสิทธิภาพน่าประทับใจมาก MoE ที่มี active parameters 3B แซง o1 ได้ โมเดลโลคัลกำลังดีขึ้นจนมากพอจะรับงานส่วนใหญ่ได้แล้ว