- Qwen3 คือโมเดลภาษาขนาดใหญ่รุ่นล่าสุดที่มี พารามิเตอร์สูงสุด 235B และแสดงประสิทธิภาพในระดับ แข่งขันได้ กับ DeepSeek-R1, Grok-3, Gemini-2.5-Pro เป็นต้น
- รองรับ โหมดการคิดแบบไฮบริด (Thinking/Non-Thinking) ทำให้สามารถ ปรับระดับความลึกของการให้เหตุผลตามความยากของปัญหา ได้
- รองรับ 119 ภาษาและภาษาถิ่น ช่วยยกระดับ การใช้งานในระดับโลก อย่างมาก
- พรีเทรนด้วยข้อมูล 36 ล้านล้านโทเคนที่ขยายจากรุ่นก่อน 2 เท่า ทำให้ความสามารถด้าน การเขียนโค้ด คณิตศาสตร์ และการให้เหตุผลเชิงตรรกะ ดีขึ้น
- เปิดซอร์สภายใต้ Apache 2.0 license และสามารถใช้งานได้ทันทีบน Hugging Face, ModelScope, Kaggle เป็นต้น
บทนำ
- Qwen3 คือโมเดลภาษาขนาดใหญ่รุ่นล่าสุดใน Qwen series โดยมี Qwen3-235B-A22B ซึ่งมี 235B พารามิเตอร์ เป็นโมเดลเรือธงหลัก
- Qwen3-30B-A3B ซึ่งเป็น MoE model ขนาดเล็ก แสดงประสิทธิภาพเหนือกว่า QwQ-32B ที่มีการเปิดใช้งานพารามิเตอร์มากกว่าถึง 10 เท่า
- เปิดเผย Dense model 6 รุ่น (0.6B, 1.7B, 4B, 8B, 14B, 32B) และ MoE model 2 รุ่น (30B, 235B) ภายใต้ไลเซนส์ Apache 2.0
คุณสมบัติหลัก
-
โหมดการคิดแบบไฮบริด
- Thinking mode: โหมดที่ทำ การให้เหตุผลแบบเป็นลำดับขั้น สำหรับปัญหาที่ซับซ้อน
- Non-Thinking mode: โหมดที่ให้ คำตอบได้ทันที สำหรับปัญหาง่ายที่ต้องการการตอบสนองรวดเร็ว
- สามารถปรับ งบประมาณการให้เหตุผล ตามงานเพื่อ เพิ่มประสิทธิภาพด้านต้นทุนและคุณภาพ ได้
-
การรองรับหลายภาษา
- รองรับ 119 ภาษาและภาษาถิ่น ช่วยเพิ่มศักยภาพในการขยายไปสู่ แอปพลิเคชันระดับโลก
- กลุ่มภาษาหลักที่รองรับ: อินโด-ยูโรเปียน, จีน-ทิเบต, แอฟโฟร-เอเชียติก, ออสโตรนีเซียน, ดราวิเดียน เป็นต้น
-
ความสามารถด้านเอเจนต์ที่ปรับปรุงแล้ว
- ปรับแต่งให้เหมาะกับ การเขียนโค้ดและความสามารถของเอเจนต์
- ผสานรวมกับ Qwen-Agent เพื่อเพิ่มความสามารถด้าน tool calling ได้สูงสุด
การพรีเทรน
- ดำเนินการพรีเทรนโดยใช้ข้อมูล 36 ล้านล้านโทเคน ซึ่งเพิ่มขึ้น 2 เท่าเมื่อเทียบกับ Qwen2.5
- รวบรวมข้อมูลจากเว็บและเอกสารลักษณะคล้าย PDF เพื่อสร้าง ชุดข้อมูลคุณภาพสูงที่หลากหลาย
- เสริมข้อมูลในด้าน STEM, การเขียนโค้ด, คณิตศาสตร์ เพื่อให้ ความสามารถในการให้เหตุผลโดยรวมดีขึ้น
การฝึกหลังพรีเทรน
- ใช้ ไปป์ไลน์ 4 ขั้นตอน (เริ่มต้นด้วย CoT → reinforcement learning → ผสานโหมดการคิด → reinforcement learning ทั่วไป)
- ปรับแต่งโมเดลให้สามารถทำได้ทั้ง การให้เหตุผลเชิงตรรกะ และ การตอบสนองอย่างรวดเร็ว พร้อมกัน
- เสริม ความเป็นสากลและความเสถียร ผ่าน reinforcement learning กับ งานโดเมนทั่วไปมากกว่า 20 รายการ
การพัฒนาด้วย Qwen3
- รองรับเฟรมเวิร์กหลากหลาย เช่น Hugging Face transformers, SGLang, vLLM, Ollama, LMStudio, llama.cpp
- Thinking mode สามารถ เปิด/ปิด ได้ง่ายในโค้ด และสลับระหว่างการสนทนาได้ด้วยคำสั่ง
/think, /no_think
วิธีใช้งานเอเจนต์
- ผ่าน Qwen-Agent สามารถใช้ ไฟล์กำหนดค่า MCP หรือ เครื่องมือที่มีมาในตัว เพื่อสร้าง ระบบเอเจนต์ที่ซับซ้อน ได้
- สามารถสร้างเซิร์ฟเวอร์ที่เข้ากันได้กับ OpenAI API ได้โดยตรงเพื่อ ดีพลอยแบบโลคัลหรือสาธารณะ
งานในอนาคต
- Qwen3 เป็นหมุดหมายสำคัญสู่ปัญญาประดิษฐ์ทั่วไป (AGI) และปัญญาประดิษฐ์เหนือมนุษย์ (ASI) โดยขยายทั้งการพรีเทรนและ reinforcement learning เพื่อบรรลุปัญญาในระดับที่สูงขึ้น
- มีเป้าหมายปรับปรุงสถาปัตยกรรมโมเดลและวิธีวิทยาการฝึก เพื่อมุ่งสู่การขยายข้อมูล การเพิ่มขนาดโมเดล การขยายความยาวคอนเท็กซ์ การขยายโมดาลิตี และการให้เหตุผลระยะยาวผ่านฟีดแบ็กจากสภาพแวดล้อม
- กำลังเปลี่ยนผ่านจากยุคที่เน้นการฝึกโมเดล ไปสู่ยุคที่เน้นการฝึกเอเจนต์ และเวอร์ชันถัดไปจะนำความก้าวหน้าที่มีความหมายมาสู่งานและชีวิตของทุกคน
2 ความคิดเห็น
โมเดลขนาดใหญ่ก็น่าสนใจ แต่ฝั่งโมเดลขนาดเล็กน่าสนใจกว่า
ดูเหมือนว่าโมเดล 0.6B จะให้ประสิทธิภาพได้ราวกับโมเดล 7B ของรุ่นอื่น ๆ หลายตัวเลย
ความคิดเห็นจาก Hacker News
มีการโยนปัญหาที่อิงฟิสิกส์ให้ LLMs แก้ ซึ่งเป็นปัญหาที่ยากแม้แต่สำหรับมนุษย์ GPT o3, Claude 3.7, Gemini 2.5 Pro ต่างก็ตอบไม่ถูกในตอนแรก ส่วน Qwen3 ตอบผิดยิ่งกว่าเดิม
เอกสารถูกจัดทำมาอย่างดี และมีการรองรับสำหรับสแตกการทำอนุมานหลัก ๆ ตั้งแต่วันแรก มีตัวเลือกขนาดที่หลากหลาย และเคยร่วมงานกับผู้ทำ quant ในคอมมูนิตี้มาแล้ว
แม้จะยังไม่ได้ทดสอบประสิทธิภาพ แต่แค่ความใส่ใจในรายละเอียดรอบด้านก็ทำให้นี่เป็นรีลีสที่ยอดเยี่ยมแล้ว ควรเป็นมาตรฐานเมื่อเทียบกับ Llama 4 ของ Meta
ผลลัพธ์ benchmark ดีมากจนแทบไม่น่าเชื่อ โมเดล 30B แข่งขันกับ Gemini 2.5 Pro ได้ และดีกว่า Gemma 27B มาก
ตอนนี้มีโมเดล open weight หลากหลายออกมา เลยสงสัยว่ามีวิธีหาหรือไม่ว่าโมเดลไหนจะรันได้ด้วยความเร็วที่เหมาะสมบน desktop GPU มาตรฐาน กำลังใช้ Quadro RTX 4000 อยู่ และไม่รู้ว่าในบรรดาโมเดลหลายขนาด ตัวไหนจะเร็ว
มีความเป็นไปได้ว่าโมเดล Qwen และ DeepSeek ถูกฝึกให้สอดคล้องกับโลกทัศน์ของ CCP แต่ในทางปฏิบัติก็ยังไม่เคยก่อปัญหา ยังมีงานวิจัยที่เกี่ยวข้องไม่มากนัก
คาดหวังกับ Qwen-30B-A3B มากที่สุด ดูเหมือนจะเหมาะกับการเป็น coding assistant แบบออฟไลน์/โลคัลโดยเฉพาะ จนถึงตอนนี้โมเดล open weight มักจะประสิทธิภาพไม่ถึงหรือไม่ก็ช้าเกินไป
กำลังมองหามุมมองเกี่ยวกับวิธีที่ดีที่สุดในการเปรียบเทียบโมเดล reasoning โดยทั่วไปจะแนะนำให้ใช้ temperature สูงสำหรับคำตอบเชิงสร้างสรรค์ และใช้ temperature ต่ำสำหรับเอาต์พุตที่มีตรรกะและแน่นอน แต่ไม่มั่นใจว่านำไปใช้กับโมเดล reasoning ได้หรือไม่
น่าสนใจที่ LLM ขนาด 0.6B มี context window 32k อาจเป็นโมเดลตั้งต้นที่สนุกสำหรับการทำ fine-tuning บน Hugging Face มียอดดาวน์โหลดและยอดกดถูกใจมากที่สุด
โมเดลเหล่านี้ดูเหมือนจะใช้การคิดจำนวนมาก benchmark รันด้วยงบการคิด 32k โทเค็น โดยเฉพาะ A3B ที่เหนือกว่า QWQ และอาจมีประโยชน์กับการทำอนุมานบน CPU
ตัวเลขประสิทธิภาพน่าประทับใจมาก MoE ที่มี active parameters 3B แซง o1 ได้ โมเดลโลคัลกำลังดีขึ้นจนมากพอจะรับงานส่วนใหญ่ได้แล้ว