• Qwen3-Next คือสถาปัตยกรรมโมเดลใหม่ที่พัฒนาขึ้นเพื่อรองรับ การขยายความยาวบริบท และ การขยายจำนวนพารามิเตอร์ทั้งหมด ซึ่งเป็นแนวโน้มอนาคตของ โมเดลขนาดใหญ่ โดยมอบความสามารถในการเพิ่มประสิทธิภาพการฝึกและการอนุมานให้สูงสุด
  • มีการนำ กลไก attention แบบไฮบริด และ โครงสร้าง MoE ที่ sparse สูงมาก มาใช้ เพื่อยกระดับประสิทธิภาพในงานบริบทยาวและการตั้งค่าพารามิเตอร์ขนาดใหญ่
  • เร่งความเร็วในการอนุมานผ่าน การเพิ่มเสถียรภาพของการฝึก และ กลไกการทำนายหลายโทเค็น
  • โมเดล Qwen3-Next-80B-A3B-Base บรรลุประสิทธิภาพเทียบเท่าหรือดีกว่า Qwen3-32B โดยลดต้นทุนการฝึกลงเหลือต่ำกว่า 10%
  • การเปิดตัวครั้งนี้มอบ ความก้าวหน้าด้านสถาปัตยกรรมล้ำสมัย ให้แก่ชุมชนโอเพนซอร์ส และปูพื้นฐานสู่การพัฒนา Qwen3.5 เพื่อยกระดับความฉลาดและผลิตภาพ

บทนำ

  • ด้วยความเชื่อว่า การขยายความยาวบริบท และ การขยายจำนวนพารามิเตอร์ทั้งหมด คือแนวโน้มสำคัญของโมเดลขนาดใหญ่ในอนาคต จึงได้ออกแบบสถาปัตยกรรมโมเดลใหม่ชื่อ Qwen3-Next เพื่อเพิ่มประสิทธิภาพการฝึกและการอนุมานในสภาพแวดล้อมที่มีบริบทยาวและพารามิเตอร์จำนวนมาก
  • เมื่อเทียบกับโครงสร้าง MoE ของ Qwen3 ได้มีการนำการปรับปรุงสำคัญหลายประการมาใช้ เช่น กลไก attention แบบไฮบริด, โครงสร้าง MoE ที่ sparse สูงมาก, การเพิ่มเสถียรภาพของการฝึก และกลไกการทำนายหลายโทเค็นเพื่อการอนุมานที่รวดเร็วยิ่งขึ้น
  • บนพื้นฐานของสถาปัตยกรรมนี้ ได้ฝึกโมเดล Qwen3-Next-80B-A3B-Base ซึ่งเป็นโมเดลขนาด 80B พารามิเตอร์ โดยจะเปิดใช้งานเพียง 3B พารามิเตอร์ระหว่างการอนุมาน
  • โมเดลพื้นฐานนี้ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าเล็กน้อยเมื่อเทียบกับโมเดล dense แบบ Qwen3-32B ขณะใช้ต้นทุนการฝึก (เวลา GPU) ต่ำกว่า 10%
  • โดยเฉพาะอย่างยิ่ง ที่ความยาวบริบทมากกว่า 32K โทเค็น สามารถให้ throughput สูงกว่ามากกว่า 10 เท่า จึงบรรลุ ประสิทธิภาพขั้นสุด ทั้งในการฝึกและการอนุมาน
  • จาก Qwen3-Next-80B-A3B-Base ได้มีการพัฒนาและเปิดตัวรุ่น post-training สองรุ่นคือ Qwen3-Next-80B-A3B-Instruct และ Qwen3-Next-80B-A3B-Thinking
  • แก้ปัญหาความไม่เสถียรและประสิทธิภาพในการฝึก reinforcement learning (RL) ที่ยืดเยื้อมายาวนาน ซึ่งเกิดจากสถาปัตยกรรม hybrid attention และ high-sparsity MoE ทำให้ทั้งความเร็วในการฝึก RL และประสิทธิภาพสุดท้ายดีขึ้น
  • Qwen3-Next-80B-A3B-Instruct ให้ประสิทธิภาพเทียบเท่ากับโมเดลเรือธง Qwen3-235B-A22B-Instruct-2507 และแสดงความได้เปรียบชัดเจนใน งานบริบทยาวพิเศษ สูงสุด 256K โทเค็น
  • Qwen3-Next-80B-A3B-Thinking โดดเด่นในงานให้เหตุผลที่ซับซ้อน โดยเหนือกว่าโมเดลต้นทุนสูงกว่าอย่าง Qwen3-30B-A3B-Thinking-2507 และ Qwen3-32B-Thinking รวมถึงแซงหน้า Gemini-2.5-Flash-Thinking แบบปิดซอร์สในหลายเบนช์มาร์ก และเข้าใกล้ประสิทธิภาพของโมเดลระดับท็อป Qwen3-235B-A22B-Thinking-2507
  • Qwen3-Next เปิดให้ใช้งานแล้วบน Hugging Face และ ModelScope และทุกคนสามารถใช้บริการ Qwen3-Next ผ่าน Alibaba Cloud Model Studio และ NVIDIA API Catalog ได้

ฟีเจอร์หลัก

  • สถาปัตยกรรมไฮบริด: Gated DeltaNet + Gated Attention อาศัยข้อดีที่ linear attention สามารถทำลายข้อจำกัดความซับซ้อนกำลังสองของ standard attention และมีประสิทธิภาพมากกว่าในบริบทยาว
    • พบว่า linear attention นั้นเร็วแต่มีจุดอ่อนด้าน recall ขณะที่ standard attention มีต้นทุนสูงและช้า และจากการทดลองอย่างเป็นระบบยืนยันว่า Gated DeltaNet ให้ความสามารถในการเรียนรู้ในบริบทที่แข็งแกร่งกว่าวิธีทั่วไปอย่าง Sliding Window Attention หรือ Mamba2
    • ผสม Gated DeltaNet เข้ากับ standard attention ในอัตราส่วน 3:1 (75% ของเลเยอร์ใช้ Gated DeltaNet และอีก 25% คง standard attention ไว้) เพื่อให้ได้ทั้งประสิทธิภาพและความคุ้มค่าที่ดีกว่าสถาปัตยกรรมเดี่ยวอย่างสม่ำเสมอ
    • ใช้กลไก output gating ในเลเยอร์ standard attention เพื่อลดปัญหา low-rank ของ attention และเพิ่มมิติต่อ attention head จาก 128 เป็น 256
    • ใช้ rotary positional encoding กับเพียง 25% แรกของมิติตำแหน่ง เพื่อปรับปรุงการ extrapolate ไปยังลำดับที่ยาวขึ้น
  • MoE แบบ sparse สูงพิเศษ: เปิดใช้งานเพียง 3.7% ของพารามิเตอร์ โดย Qwen3-Next ใช้การออกแบบ MoE ที่ sparse สูง ซึ่งเปิดใช้งานเพียงราว 3B จากพารามิเตอร์ทั้งหมด 80B ในแต่ละขั้นของการอนุมาน
    • การทดลองแสดงให้เห็นว่า เมื่อคงจำนวน expert ที่ถูกเปิดใช้งานไว้ผ่าน global load balancing แล้วเพิ่มพารามิเตอร์ของ expert โดยรวม จะทำให้ training loss ลดลงอย่างต่อเนื่อง
    • เมื่อเทียบกับ MoE ของ Qwen3 (expert รวม 128 ตัว, routing 8 ตัว) Qwen3-Next ได้ขยายเป็น expert รวม 512 ตัว และผสม expert สำหรับ routing 10 ตัว + shared expert 1 ตัว เพื่อใช้ทรัพยากรให้เต็มที่โดยไม่ลดทอนประสิทธิภาพ
  • การออกแบบที่เอื้อต่อเสถียรภาพในการฝึก โดยกลไก attention output gating ช่วยขจัดปัญหาอย่าง Attention Sink และ Massive Activation เพื่อรับประกันเสถียรภาพเชิงตัวเลขของทั้งโมเดล
    • พบว่าใน QK-Norm ที่ใช้ใน Qwen3 มีปัญหาที่น้ำหนัก layer norm ของบางเลเยอร์เติบโตผิดปกติ ดังนั้น Qwen3-Next จึงใช้ Zero-Centered RMSNorm และใช้ weight decay กับค่าน้ำหนักของ norm เพื่อป้องกันการเติบโตไม่สิ้นสุด
    • ทำ normalization ให้กับพารามิเตอร์ของ MoE router ระหว่างการ initialize เพื่อให้ในช่วงต้นของการฝึกแต่ละ expert ถูกเลือกอย่างไม่ลำเอียง ลด noise ที่เกิดจากการสุ่มค่าเริ่มต้น
    • การออกแบบที่เน้นเสถียรภาพเหล่านี้ทำให้การทดลองขนาดเล็กเชื่อถือได้มากขึ้น และช่วยให้การฝึกขนาดใหญ่ดำเนินไปอย่างราบรื่น
  • การทำนายหลายโทเค็น โดย Qwen3-Next นำกลไก native multi-token prediction (MTP) มาใช้ ซึ่งไม่เพียงสร้างโมดูล MTP ที่มีอัตราการยอมรับสูงสำหรับ speculative decoding แต่ยังยกระดับประสิทธิภาพโดยรวมด้วย
    • Qwen3-Next ปรับแต่งประสิทธิภาพการอนุมานแบบหลายขั้นของ MTP โดยเฉพาะ และยังเพิ่มอัตราการยอมรับของ speculative decoding ในสถานการณ์จริงเพิ่มเติมผ่านการฝึกแบบหลายขั้นที่รักษาความสอดคล้องระหว่างการฝึกและการอนุมาน

การฝึกล่วงหน้า

  • ประสิทธิภาพการฝึกล่วงหน้าและความเร็วในการอนุมาน: Qwen3-Next ได้รับการฝึกบนชุดย่อยที่สุ่มอย่างสม่ำเสมอ (15T โทเค็น) จากคอร์ปัส pre-training 36T โทเค็นของ Qwen3
    • ใช้เวลา GPU น้อยกว่า 80% ของที่ต้องใช้สำหรับ Qwen3-30A-3B และใช้ต้นทุนการคำนวณเพียง 9.3% ของ Qwen3-32B แต่กลับได้ประสิทธิภาพที่ดีกว่า แสดงให้เห็นถึงประสิทธิภาพการฝึกและความคุ้มค่าที่ยอดเยี่ยม
    • ด้วยสถาปัตยกรรมไฮบริด จึงโดดเด่นในการอนุมานด้วยเช่นกัน โดยในช่วง prefill ที่บริบทยาว 4K มี throughput สูงกว่า Qwen3-32B เกือบ 7 เท่า
    • ที่มากกว่า 32K เร็วกว่าเกิน 10 เท่า
    • ในช่วง decode ที่บริบทยาว 4K มี throughput สูงกว่าเกือบ 4 เท่า และที่มากกว่า 32K ก็ยังรักษาความได้เปรียบด้านความเร็วมากกว่า 10 เท่าไว้ได้
  • ประสิทธิภาพของโมเดลพื้นฐาน: Qwen3-Next-80B-A3B-Base เปิดใช้งานพารามิเตอร์ non-embedding เพียง 1/10 ของ Qwen3-32B-Base แต่กลับเหนือกว่าในเบนช์มาร์กส่วนใหญ่ และยังแซงหน้า Qwen3-30B-A3B อย่างชัดเจน แสดงให้เห็นถึงประสิทธิภาพอันโดดเด่นและพลังของโมเดล

การฝึกหลังโมเดล

  • ประสิทธิภาพของโมเดล Instruct: Qwen3-Next-80B-A3B-Instruct เหนือกว่า Qwen3-30B-A3B-Instruct-2507 และ Qwen3-32B-Non-thinking อย่างชัดเจน และให้ผลลัพธ์ที่แทบจะตรงกับโมเดลเรือธง Qwen3-235B-A22B-Instruct-2507
    • บน RULER, Qwen3-Next-80B-A3B-Instruct เหนือกว่า Qwen3-30B-A3B-Instruct-2507 ซึ่งมี attention layer มากกว่า ในทุกความยาว และยังแซง Qwen3-235B-A22B-Instruct-2507 ซึ่งมีจำนวนเลเยอร์รวมมากกว่า ภายในบริบท 256K พิสูจน์จุดแข็งของการออกแบบไฮบริด Gated DeltaNet + Gated Attention สำหรับงานบริบทยาว
  • ประสิทธิภาพของโมเดล Thinking: Qwen3-Next-80B-A3B-Thinking เหนือกว่าโมเดลต้นทุนสูงกว่าอย่าง Qwen3-30B-A3B-Thinking-2507 และ Qwen3-32B-Thinking
    • แซงหน้า Gemini-2.5-Flash-Thinking แบบปิดซอร์สในหลายเบนช์มาร์ก และเข้าใกล้ Qwen3-235B-A22B-Thinking-2507 ซึ่งเป็นโมเดลเรือธงล่าสุดในตัวชี้วัดสำคัญ

พัฒนาด้วย Qwen3

  • Hugging Face Transformers โดยโค้ดของ Qwen3-Next ถูกรวมเข้ากับ main branch ของ Hugging Face transformers แล้ว
    • เวอร์ชันก่อนหน้านี้อาจเกิดข้อผิดพลาดได้
    • มี code snippet ที่สาธิตเนื้อหาที่โมเดลสร้างจากอินพุตที่กำหนด
    • multi-token prediction (MTP) ยังไม่พร้อมใช้งานทั่วไปใน Hugging Face Transformers
    • การปรับปรุงด้านประสิทธิภาพหรือ throughput ขึ้นอยู่กับการติดตั้งใช้งานอย่างมาก
    • สำหรับงานอนุมาน แนะนำให้ใช้เฟรมเวิร์กอนุมานเฉพาะทางอย่าง SGLang และ vLLM
    • การใช้ flash-linear-attention และ causal-conv1d อาจให้ประสิทธิภาพที่ดีกว่า ขึ้นอยู่กับการตั้งค่าการอนุมาน
    • ดูรายละเอียดคำแนะนำและข้อกำหนดเพิ่มเติมได้จากลิงก์ที่เกี่ยวข้อง
    • สำหรับการดีพลอย ให้ใช้ sglang หรือ vllm เวอร์ชันล่าสุดเพื่อสร้าง OpenAI-compatible API endpoint
  • SGLang เป็นเฟรมเวิร์กสำหรับเสิร์ฟโมเดลขนาดใหญ่และโมเดล vision-language ที่รวดเร็ว โดยสามารถเริ่มเซิร์ฟเวอร์ที่มีบริการ API แบบเข้ากันได้กับ OpenAI ได้
    • SGLang รองรับ Qwen3-Next บน main branch และสามารถติดตั้งจากซอร์สได้
    • มีคำสั่งสำหรับสร้าง API endpoint ที่ http://localhost:30000/v1 ด้วย tensor parallel บน 4 GPU และความยาวบริบทสูงสุด 256K โทเค็น
    • มีคำสั่งแนะนำสำหรับ MTP โดยใช้การตั้งค่าอื่นเหมือนด้านบน
    • ปัจจุบันต้องใช้ตัวแปรสภาพแวดล้อม SGLANG_ALLOW_OVERWRITE_LONGER_CONTEXT_LEN=1
    • ความยาวบริบทเริ่มต้นคือ 256K และหากเซิร์ฟเวอร์เริ่มทำงานไม่สำเร็จ ควรพิจารณาลดลงเป็นค่าที่เล็กกว่า เช่น 32768
  • vLLM เป็นเอนจินอนุมานและเสิร์ฟสำหรับ LLM ที่มี throughput สูงและใช้หน่วยความจำอย่างมีประสิทธิภาพ โดยสามารถเริ่มเซิร์ฟเวอร์ที่มีบริการ API แบบเข้ากันได้กับ OpenAI ได้
    • vLLM รองรับ Qwen3-Next บน main branch และสามารถติดตั้งจากซอร์สได้
    • มีคำสั่งสำหรับสร้าง API endpoint ที่ http://localhost:8000/v1 ด้วย tensor parallel บน 4 GPU และความยาวบริบทสูงสุด 256K โทเค็น
    • มีคำสั่งแนะนำสำหรับ MTP โดยใช้การตั้งค่าอื่นเหมือนด้านบน
    • ปัจจุบันต้องใช้ตัวแปรสภาพแวดล้อม VLLM_ALLOW_LONG_MAX_MODEL_LEN=1
    • ความยาวบริบทเริ่มต้นคือ 256K และหากเซิร์ฟเวอร์เริ่มทำงานไม่สำเร็จ ควรพิจารณาลดลงเป็นค่าที่เล็กกว่า เช่น 32768
  • การใช้งานแบบ Agentic: Qwen3 โดดเด่นด้านความสามารถในการเรียกใช้เครื่องมือ และแนะนำให้ใช้ Qwen-Agent เพื่อดึงความสามารถเชิงเอเจนต์ของ Qwen3 ออกมาได้สูงสุด
    • Qwen-Agent ครอบ encapsulate template การเรียกใช้เครื่องมือและ parser สำหรับการเรียกใช้เครื่องมือไว้ภายใน จึงลดความซับซ้อนในการเขียนโค้ดได้อย่างมาก
    • สามารถใช้ไฟล์การตั้งค่า MCP เพื่อกำหนดเครื่องมือที่ใช้งานได้ ใช้เครื่องมือแบบรวมของ Qwen-Agent หรือใช้เครื่องมือรวมที่สร้างเองก็ได้
  • การประมวลผลข้อความยาวพิเศษ: Qwen3-Next รองรับความยาวบริบทสูงสุด 262,144 โทเค็นแบบ native
    • สำหรับบทสนทนาที่ความยาวรวมของอินพุตและเอาต์พุตเกินขีดจำกัดนี้มาก แนะนำให้ใช้เทคนิคการสเกล RoPE เช่น YaRN เพื่อจัดการข้อความยาวได้อย่างมีประสิทธิภาพ
    • มีการตรวจสอบประสิทธิภาพของโมเดลที่ใช้ YaRN กับความยาวบริบทสูงสุด 1 ล้านโทเค็น
    • ปัจจุบัน YaRN รองรับในหลายเฟรมเวิร์กอนุมาน เช่น transformers, vllm และ sglang
    • มีสองแนวทางในการเปิดใช้ YaRN ในเฟรมเวิร์กที่รองรับ คือแก้ไขไฟล์โมเดลหรือส่งผ่านอาร์กิวเมนต์บรรทัดคำสั่ง
    • เพิ่มฟิลด์ rope_scaling ในไฟล์ config.json
    • สำหรับ vllm ให้ใช้อาร์กิวเมนต์บรรทัดคำสั่ง
    • สำหรับ sglang ให้ใช้อาร์กิวเมนต์บรรทัดคำสั่ง
    • เฟรมเวิร์กโอเพนซอร์สหลักทั้งหมดใช้ static YaRN ซึ่งทำให้ scaling factor คงที่ไม่ว่าความยาวอินพุตจะเป็นเท่าใด และอาจมีผลต่อประสิทธิภาพของข้อความสั้น
    • แนะนำให้เพิ่มการตั้งค่า rope_scaling เฉพาะเมื่อจำเป็นต้องประมวลผลบริบทยาวเท่านั้น
    • แนะนำให้ปรับ factor ตามความต้องการ เช่น หากแอปพลิเคชันของคุณมีความยาวบริบททั่วไปที่ 524,288 โทเค็น ให้ตั้งค่า factor เป็น 2.0

สรุป

  • Qwen3-Next แสดงถึงการก้าวกระโดดครั้งสำคัญของสถาปัตยกรรมโมเดล ด้วยการนำนวัตกรรมในกลไก attention อย่าง linear attention และ attention gate มาใช้ พร้อมเพิ่มความ sparse ในการออกแบบ MoE
  • Qwen3-Next-80B-A3B ให้ประสิทธิภาพเทียบเท่า Qwen3-235B-A22B-2507 ที่มีขนาดใหญ่กว่า ทั้งในโหมด thinking และ non-thinking พร้อมให้การอนุมานที่เร็วขึ้นอย่างมากในสถานการณ์บริบทยาว
  • ด้วยการเปิดตัวครั้งนี้ จึงมุ่งเสริมพลังให้ชุมชนโอเพนซอร์สด้วยความก้าวหน้าด้านสถาปัตยกรรมล้ำสมัย และเดินหน้าพัฒนาไปพร้อมกับวิวัฒนาการของสถาปัตยกรรมระดับแนวหน้า

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น