- Qwen3-Next คือสถาปัตยกรรมโมเดลใหม่ที่พัฒนาขึ้นเพื่อรองรับ การขยายความยาวบริบท และ การขยายจำนวนพารามิเตอร์ทั้งหมด ซึ่งเป็นแนวโน้มอนาคตของ โมเดลขนาดใหญ่ โดยมอบความสามารถในการเพิ่มประสิทธิภาพการฝึกและการอนุมานให้สูงสุด
- มีการนำ กลไก attention แบบไฮบริด และ โครงสร้าง MoE ที่ sparse สูงมาก มาใช้ เพื่อยกระดับประสิทธิภาพในงานบริบทยาวและการตั้งค่าพารามิเตอร์ขนาดใหญ่
- เร่งความเร็วในการอนุมานผ่าน การเพิ่มเสถียรภาพของการฝึก และ กลไกการทำนายหลายโทเค็น
- โมเดล Qwen3-Next-80B-A3B-Base บรรลุประสิทธิภาพเทียบเท่าหรือดีกว่า Qwen3-32B โดยลดต้นทุนการฝึกลงเหลือต่ำกว่า 10%
- การเปิดตัวครั้งนี้มอบ ความก้าวหน้าด้านสถาปัตยกรรมล้ำสมัย ให้แก่ชุมชนโอเพนซอร์ส และปูพื้นฐานสู่การพัฒนา Qwen3.5 เพื่อยกระดับความฉลาดและผลิตภาพ
บทนำ
- ด้วยความเชื่อว่า การขยายความยาวบริบท และ การขยายจำนวนพารามิเตอร์ทั้งหมด คือแนวโน้มสำคัญของโมเดลขนาดใหญ่ในอนาคต จึงได้ออกแบบสถาปัตยกรรมโมเดลใหม่ชื่อ Qwen3-Next เพื่อเพิ่มประสิทธิภาพการฝึกและการอนุมานในสภาพแวดล้อมที่มีบริบทยาวและพารามิเตอร์จำนวนมาก
- เมื่อเทียบกับโครงสร้าง MoE ของ Qwen3 ได้มีการนำการปรับปรุงสำคัญหลายประการมาใช้ เช่น กลไก attention แบบไฮบริด, โครงสร้าง MoE ที่ sparse สูงมาก, การเพิ่มเสถียรภาพของการฝึก และกลไกการทำนายหลายโทเค็นเพื่อการอนุมานที่รวดเร็วยิ่งขึ้น
- บนพื้นฐานของสถาปัตยกรรมนี้ ได้ฝึกโมเดล Qwen3-Next-80B-A3B-Base ซึ่งเป็นโมเดลขนาด 80B พารามิเตอร์ โดยจะเปิดใช้งานเพียง 3B พารามิเตอร์ระหว่างการอนุมาน
- โมเดลพื้นฐานนี้ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าเล็กน้อยเมื่อเทียบกับโมเดล dense แบบ Qwen3-32B ขณะใช้ต้นทุนการฝึก (เวลา GPU) ต่ำกว่า 10%
- โดยเฉพาะอย่างยิ่ง ที่ความยาวบริบทมากกว่า 32K โทเค็น สามารถให้ throughput สูงกว่ามากกว่า 10 เท่า จึงบรรลุ ประสิทธิภาพขั้นสุด ทั้งในการฝึกและการอนุมาน
- จาก Qwen3-Next-80B-A3B-Base ได้มีการพัฒนาและเปิดตัวรุ่น post-training สองรุ่นคือ Qwen3-Next-80B-A3B-Instruct และ Qwen3-Next-80B-A3B-Thinking
- แก้ปัญหาความไม่เสถียรและประสิทธิภาพในการฝึก reinforcement learning (RL) ที่ยืดเยื้อมายาวนาน ซึ่งเกิดจากสถาปัตยกรรม hybrid attention และ high-sparsity MoE ทำให้ทั้งความเร็วในการฝึก RL และประสิทธิภาพสุดท้ายดีขึ้น
- Qwen3-Next-80B-A3B-Instruct ให้ประสิทธิภาพเทียบเท่ากับโมเดลเรือธง Qwen3-235B-A22B-Instruct-2507 และแสดงความได้เปรียบชัดเจนใน งานบริบทยาวพิเศษ สูงสุด 256K โทเค็น
- Qwen3-Next-80B-A3B-Thinking โดดเด่นในงานให้เหตุผลที่ซับซ้อน โดยเหนือกว่าโมเดลต้นทุนสูงกว่าอย่าง Qwen3-30B-A3B-Thinking-2507 และ Qwen3-32B-Thinking รวมถึงแซงหน้า Gemini-2.5-Flash-Thinking แบบปิดซอร์สในหลายเบนช์มาร์ก และเข้าใกล้ประสิทธิภาพของโมเดลระดับท็อป Qwen3-235B-A22B-Thinking-2507
- Qwen3-Next เปิดให้ใช้งานแล้วบน Hugging Face และ ModelScope และทุกคนสามารถใช้บริการ Qwen3-Next ผ่าน Alibaba Cloud Model Studio และ NVIDIA API Catalog ได้
ฟีเจอร์หลัก
- สถาปัตยกรรมไฮบริด: Gated DeltaNet + Gated Attention อาศัยข้อดีที่ linear attention สามารถทำลายข้อจำกัดความซับซ้อนกำลังสองของ standard attention และมีประสิทธิภาพมากกว่าในบริบทยาว
- พบว่า linear attention นั้นเร็วแต่มีจุดอ่อนด้าน recall ขณะที่ standard attention มีต้นทุนสูงและช้า และจากการทดลองอย่างเป็นระบบยืนยันว่า Gated DeltaNet ให้ความสามารถในการเรียนรู้ในบริบทที่แข็งแกร่งกว่าวิธีทั่วไปอย่าง Sliding Window Attention หรือ Mamba2
- ผสม Gated DeltaNet เข้ากับ standard attention ในอัตราส่วน 3:1 (75% ของเลเยอร์ใช้ Gated DeltaNet และอีก 25% คง standard attention ไว้) เพื่อให้ได้ทั้งประสิทธิภาพและความคุ้มค่าที่ดีกว่าสถาปัตยกรรมเดี่ยวอย่างสม่ำเสมอ
- ใช้กลไก output gating ในเลเยอร์ standard attention เพื่อลดปัญหา low-rank ของ attention และเพิ่มมิติต่อ attention head จาก 128 เป็น 256
- ใช้ rotary positional encoding กับเพียง 25% แรกของมิติตำแหน่ง เพื่อปรับปรุงการ extrapolate ไปยังลำดับที่ยาวขึ้น
- MoE แบบ sparse สูงพิเศษ: เปิดใช้งานเพียง 3.7% ของพารามิเตอร์ โดย Qwen3-Next ใช้การออกแบบ MoE ที่ sparse สูง ซึ่งเปิดใช้งานเพียงราว 3B จากพารามิเตอร์ทั้งหมด 80B ในแต่ละขั้นของการอนุมาน
- การทดลองแสดงให้เห็นว่า เมื่อคงจำนวน expert ที่ถูกเปิดใช้งานไว้ผ่าน global load balancing แล้วเพิ่มพารามิเตอร์ของ expert โดยรวม จะทำให้ training loss ลดลงอย่างต่อเนื่อง
- เมื่อเทียบกับ MoE ของ Qwen3 (expert รวม 128 ตัว, routing 8 ตัว) Qwen3-Next ได้ขยายเป็น expert รวม 512 ตัว และผสม expert สำหรับ routing 10 ตัว + shared expert 1 ตัว เพื่อใช้ทรัพยากรให้เต็มที่โดยไม่ลดทอนประสิทธิภาพ
- การออกแบบที่เอื้อต่อเสถียรภาพในการฝึก โดยกลไก attention output gating ช่วยขจัดปัญหาอย่าง Attention Sink และ Massive Activation เพื่อรับประกันเสถียรภาพเชิงตัวเลขของทั้งโมเดล
- พบว่าใน QK-Norm ที่ใช้ใน Qwen3 มีปัญหาที่น้ำหนัก layer norm ของบางเลเยอร์เติบโตผิดปกติ ดังนั้น Qwen3-Next จึงใช้ Zero-Centered RMSNorm และใช้ weight decay กับค่าน้ำหนักของ norm เพื่อป้องกันการเติบโตไม่สิ้นสุด
- ทำ normalization ให้กับพารามิเตอร์ของ MoE router ระหว่างการ initialize เพื่อให้ในช่วงต้นของการฝึกแต่ละ expert ถูกเลือกอย่างไม่ลำเอียง ลด noise ที่เกิดจากการสุ่มค่าเริ่มต้น
- การออกแบบที่เน้นเสถียรภาพเหล่านี้ทำให้การทดลองขนาดเล็กเชื่อถือได้มากขึ้น และช่วยให้การฝึกขนาดใหญ่ดำเนินไปอย่างราบรื่น
- การทำนายหลายโทเค็น โดย Qwen3-Next นำกลไก native multi-token prediction (MTP) มาใช้ ซึ่งไม่เพียงสร้างโมดูล MTP ที่มีอัตราการยอมรับสูงสำหรับ speculative decoding แต่ยังยกระดับประสิทธิภาพโดยรวมด้วย
- Qwen3-Next ปรับแต่งประสิทธิภาพการอนุมานแบบหลายขั้นของ MTP โดยเฉพาะ และยังเพิ่มอัตราการยอมรับของ speculative decoding ในสถานการณ์จริงเพิ่มเติมผ่านการฝึกแบบหลายขั้นที่รักษาความสอดคล้องระหว่างการฝึกและการอนุมาน
การฝึกล่วงหน้า
- ประสิทธิภาพการฝึกล่วงหน้าและความเร็วในการอนุมาน: Qwen3-Next ได้รับการฝึกบนชุดย่อยที่สุ่มอย่างสม่ำเสมอ (15T โทเค็น) จากคอร์ปัส pre-training 36T โทเค็นของ Qwen3
- ใช้เวลา GPU น้อยกว่า 80% ของที่ต้องใช้สำหรับ Qwen3-30A-3B และใช้ต้นทุนการคำนวณเพียง 9.3% ของ Qwen3-32B แต่กลับได้ประสิทธิภาพที่ดีกว่า แสดงให้เห็นถึงประสิทธิภาพการฝึกและความคุ้มค่าที่ยอดเยี่ยม
- ด้วยสถาปัตยกรรมไฮบริด จึงโดดเด่นในการอนุมานด้วยเช่นกัน โดยในช่วง prefill ที่บริบทยาว 4K มี throughput สูงกว่า Qwen3-32B เกือบ 7 เท่า
- ที่มากกว่า 32K เร็วกว่าเกิน 10 เท่า
- ในช่วง decode ที่บริบทยาว 4K มี throughput สูงกว่าเกือบ 4 เท่า และที่มากกว่า 32K ก็ยังรักษาความได้เปรียบด้านความเร็วมากกว่า 10 เท่าไว้ได้
- ประสิทธิภาพของโมเดลพื้นฐาน: Qwen3-Next-80B-A3B-Base เปิดใช้งานพารามิเตอร์ non-embedding เพียง 1/10 ของ Qwen3-32B-Base แต่กลับเหนือกว่าในเบนช์มาร์กส่วนใหญ่ และยังแซงหน้า Qwen3-30B-A3B อย่างชัดเจน แสดงให้เห็นถึงประสิทธิภาพอันโดดเด่นและพลังของโมเดล
การฝึกหลังโมเดล
- ประสิทธิภาพของโมเดล Instruct: Qwen3-Next-80B-A3B-Instruct เหนือกว่า Qwen3-30B-A3B-Instruct-2507 และ Qwen3-32B-Non-thinking อย่างชัดเจน และให้ผลลัพธ์ที่แทบจะตรงกับโมเดลเรือธง Qwen3-235B-A22B-Instruct-2507
- บน RULER, Qwen3-Next-80B-A3B-Instruct เหนือกว่า Qwen3-30B-A3B-Instruct-2507 ซึ่งมี attention layer มากกว่า ในทุกความยาว และยังแซง Qwen3-235B-A22B-Instruct-2507 ซึ่งมีจำนวนเลเยอร์รวมมากกว่า ภายในบริบท 256K พิสูจน์จุดแข็งของการออกแบบไฮบริด Gated DeltaNet + Gated Attention สำหรับงานบริบทยาว
- ประสิทธิภาพของโมเดล Thinking: Qwen3-Next-80B-A3B-Thinking เหนือกว่าโมเดลต้นทุนสูงกว่าอย่าง Qwen3-30B-A3B-Thinking-2507 และ Qwen3-32B-Thinking
- แซงหน้า Gemini-2.5-Flash-Thinking แบบปิดซอร์สในหลายเบนช์มาร์ก และเข้าใกล้ Qwen3-235B-A22B-Thinking-2507 ซึ่งเป็นโมเดลเรือธงล่าสุดในตัวชี้วัดสำคัญ
พัฒนาด้วย Qwen3
- Hugging Face Transformers โดยโค้ดของ Qwen3-Next ถูกรวมเข้ากับ main branch ของ Hugging Face transformers แล้ว
- เวอร์ชันก่อนหน้านี้อาจเกิดข้อผิดพลาดได้
- มี code snippet ที่สาธิตเนื้อหาที่โมเดลสร้างจากอินพุตที่กำหนด
- multi-token prediction (MTP) ยังไม่พร้อมใช้งานทั่วไปใน Hugging Face Transformers
- การปรับปรุงด้านประสิทธิภาพหรือ throughput ขึ้นอยู่กับการติดตั้งใช้งานอย่างมาก
- สำหรับงานอนุมาน แนะนำให้ใช้เฟรมเวิร์กอนุมานเฉพาะทางอย่าง SGLang และ vLLM
- การใช้ flash-linear-attention และ causal-conv1d อาจให้ประสิทธิภาพที่ดีกว่า ขึ้นอยู่กับการตั้งค่าการอนุมาน
- ดูรายละเอียดคำแนะนำและข้อกำหนดเพิ่มเติมได้จากลิงก์ที่เกี่ยวข้อง
- สำหรับการดีพลอย ให้ใช้ sglang หรือ vllm เวอร์ชันล่าสุดเพื่อสร้าง OpenAI-compatible API endpoint
- SGLang เป็นเฟรมเวิร์กสำหรับเสิร์ฟโมเดลขนาดใหญ่และโมเดล vision-language ที่รวดเร็ว โดยสามารถเริ่มเซิร์ฟเวอร์ที่มีบริการ API แบบเข้ากันได้กับ OpenAI ได้
- SGLang รองรับ Qwen3-Next บน main branch และสามารถติดตั้งจากซอร์สได้
- มีคำสั่งสำหรับสร้าง API endpoint ที่ http://localhost:30000/v1 ด้วย tensor parallel บน 4 GPU และความยาวบริบทสูงสุด 256K โทเค็น
- มีคำสั่งแนะนำสำหรับ MTP โดยใช้การตั้งค่าอื่นเหมือนด้านบน
- ปัจจุบันต้องใช้ตัวแปรสภาพแวดล้อม
SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
- ความยาวบริบทเริ่มต้นคือ 256K และหากเซิร์ฟเวอร์เริ่มทำงานไม่สำเร็จ ควรพิจารณาลดลงเป็นค่าที่เล็กกว่า เช่น 32768
- vLLM เป็นเอนจินอนุมานและเสิร์ฟสำหรับ LLM ที่มี throughput สูงและใช้หน่วยความจำอย่างมีประสิทธิภาพ โดยสามารถเริ่มเซิร์ฟเวอร์ที่มีบริการ API แบบเข้ากันได้กับ OpenAI ได้
- vLLM รองรับ Qwen3-Next บน main branch และสามารถติดตั้งจากซอร์สได้
- มีคำสั่งสำหรับสร้าง API endpoint ที่ http://localhost:8000/v1 ด้วย tensor parallel บน 4 GPU และความยาวบริบทสูงสุด 256K โทเค็น
- มีคำสั่งแนะนำสำหรับ MTP โดยใช้การตั้งค่าอื่นเหมือนด้านบน
- ปัจจุบันต้องใช้ตัวแปรสภาพแวดล้อม
VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
- ความยาวบริบทเริ่มต้นคือ 256K และหากเซิร์ฟเวอร์เริ่มทำงานไม่สำเร็จ ควรพิจารณาลดลงเป็นค่าที่เล็กกว่า เช่น 32768
- การใช้งานแบบ Agentic: Qwen3 โดดเด่นด้านความสามารถในการเรียกใช้เครื่องมือ และแนะนำให้ใช้ Qwen-Agent เพื่อดึงความสามารถเชิงเอเจนต์ของ Qwen3 ออกมาได้สูงสุด
- Qwen-Agent ครอบ encapsulate template การเรียกใช้เครื่องมือและ parser สำหรับการเรียกใช้เครื่องมือไว้ภายใน จึงลดความซับซ้อนในการเขียนโค้ดได้อย่างมาก
- สามารถใช้ไฟล์การตั้งค่า MCP เพื่อกำหนดเครื่องมือที่ใช้งานได้ ใช้เครื่องมือแบบรวมของ Qwen-Agent หรือใช้เครื่องมือรวมที่สร้างเองก็ได้
- การประมวลผลข้อความยาวพิเศษ: Qwen3-Next รองรับความยาวบริบทสูงสุด 262,144 โทเค็นแบบ native
- สำหรับบทสนทนาที่ความยาวรวมของอินพุตและเอาต์พุตเกินขีดจำกัดนี้มาก แนะนำให้ใช้เทคนิคการสเกล RoPE เช่น YaRN เพื่อจัดการข้อความยาวได้อย่างมีประสิทธิภาพ
- มีการตรวจสอบประสิทธิภาพของโมเดลที่ใช้ YaRN กับความยาวบริบทสูงสุด 1 ล้านโทเค็น
- ปัจจุบัน YaRN รองรับในหลายเฟรมเวิร์กอนุมาน เช่น transformers, vllm และ sglang
- มีสองแนวทางในการเปิดใช้ YaRN ในเฟรมเวิร์กที่รองรับ คือแก้ไขไฟล์โมเดลหรือส่งผ่านอาร์กิวเมนต์บรรทัดคำสั่ง
- เพิ่มฟิลด์
rope_scaling ในไฟล์ config.json
- สำหรับ vllm ให้ใช้อาร์กิวเมนต์บรรทัดคำสั่ง
- สำหรับ sglang ให้ใช้อาร์กิวเมนต์บรรทัดคำสั่ง
- เฟรมเวิร์กโอเพนซอร์สหลักทั้งหมดใช้ static YaRN ซึ่งทำให้ scaling factor คงที่ไม่ว่าความยาวอินพุตจะเป็นเท่าใด และอาจมีผลต่อประสิทธิภาพของข้อความสั้น
- แนะนำให้เพิ่มการตั้งค่า
rope_scaling เฉพาะเมื่อจำเป็นต้องประมวลผลบริบทยาวเท่านั้น
- แนะนำให้ปรับ
factor ตามความต้องการ เช่น หากแอปพลิเคชันของคุณมีความยาวบริบททั่วไปที่ 524,288 โทเค็น ให้ตั้งค่า factor เป็น 2.0
สรุป
- Qwen3-Next แสดงถึงการก้าวกระโดดครั้งสำคัญของสถาปัตยกรรมโมเดล ด้วยการนำนวัตกรรมในกลไก attention อย่าง linear attention และ attention gate มาใช้ พร้อมเพิ่มความ sparse ในการออกแบบ MoE
- Qwen3-Next-80B-A3B ให้ประสิทธิภาพเทียบเท่า Qwen3-235B-A22B-2507 ที่มีขนาดใหญ่กว่า ทั้งในโหมด thinking และ non-thinking พร้อมให้การอนุมานที่เร็วขึ้นอย่างมากในสถานการณ์บริบทยาว
- ด้วยการเปิดตัวครั้งนี้ จึงมุ่งเสริมพลังให้ชุมชนโอเพนซอร์สด้วยความก้าวหน้าด้านสถาปัตยกรรมล้ำสมัย และเดินหน้าพัฒนาไปพร้อมกับวิวัฒนาการของสถาปัตยกรรมระดับแนวหน้า
ยังไม่มีความคิดเห็น