- Qwen3-Coder-Next เป็น โมเดลภาษาน้ำหนักเปิด ที่ออกแบบมาสำหรับเอเจนต์เขียนโค้ดและสภาพแวดล้อมการพัฒนาแบบโลคัล โดยมีพื้นฐานจากสถาปัตยกรรม hybrid attention และ MoE
- ผ่านการฝึกด้วย การสังเคราะห์งานที่รันได้จริง ขนาดใหญ่, การโต้ตอบกับสภาพแวดล้อม และ การเรียนรู้แบบเสริมกำลัง ทำให้มี ความสามารถด้านการเขียนโค้ดและการเป็นเอเจนต์ ที่แข็งแกร่งแม้มีต้นทุนการอนุมานต่ำ
- แทนที่จะขยายจำนวนพารามิเตอร์เพียงอย่างเดียว โมเดลนี้มุ่งเน้นที่ การขยายสัญญาณการฝึกของเอเจนต์ และใช้โจทย์โค้ดที่ตรวจสอบได้กับสภาพแวดล้อมการรันเพื่อเรียนรู้จากฟีดแบ็กโดยตรง
- ทำได้มากกว่า 70% บน SWE-Bench Verified และแสดงประสิทธิภาพที่แข่งขันได้กับโมเดลขนาดใหญ่บน SWE-Bench Pro และในสภาพแวดล้อมหลายภาษา
- แม้จะเป็นโมเดลขนาดเล็ก แต่ก็สร้าง สมดุลแบบพาเรโต ระหว่างประสิทธิภาพและสมรรถนะได้สำเร็จ ซึ่งมีความหมายสำคัญต่อ การปรับใช้เอเจนต์อย่างคุ้มค่า
ภาพรวมของ Qwen3-Coder-Next
- Qwen3-Coder-Next เป็นโมเดลภาษาน้ำหนักเปิดที่พัฒนาบนพื้นฐานของ Qwen3-Next-80B-A3B-Base
- ใช้สถาปัตยกรรม hybrid attention และ Mixture of Experts(MoE)
- ฝึกด้วย การสังเคราะห์งานที่รันได้จริง ขนาดใหญ่, การโต้ตอบกับสภาพแวดล้อม และ การเรียนรู้แบบเสริมกำลัง
- เป้าหมายคือการใช้งานอย่างมีประสิทธิภาพใน เอเจนต์เขียนโค้ด และ สภาพแวดล้อมการพัฒนาแบบโลคัล
- มอบ ความสามารถในการให้เหตุผล และ ประสิทธิภาพการเขียนโค้ด ที่แข็งแกร่งแม้มีต้นทุนการอนุมานต่ำ
แนวทางการขยายการฝึกเอเจนต์
- โมเดลนี้มุ่งเน้นที่ การขยายสัญญาณการฝึกของเอเจนต์ มากกว่า การขยายจำนวนพารามิเตอร์
- ผสานโจทย์โค้ดที่ตรวจสอบได้เข้ากับสภาพแวดล้อมที่รันได้จริง เพื่อเรียนรู้จากฟีดแบ็กของสภาพแวดล้อมโดยตรง
- ขั้นตอนการฝึกหลัก
- การพรีเทรนต่อเนื่อง ด้วยข้อมูลที่เน้นโค้ดและเอเจนต์
- การปรับจูนแบบมีผู้สอน โดยใช้ข้อมูลเส้นทางเอเจนต์คุณภาพสูง
- การฝึกเฉพาะทางตามโดเมน เช่น วิศวกรรมซอฟต์แวร์, QA, เว็บ/UX
- กลั่นความรู้ จากโมเดลผู้เชี่ยวชาญหลายตัวให้เป็น โมเดลเดี่ยวสำหรับการปรับใช้
- แนวทางนี้ช่วยเสริมความสามารถด้าน การให้เหตุผลระยะยาว, การใช้เครื่องมือ และ การกู้คืนจากความล้มเหลวระหว่างรัน
ประสิทธิภาพบนเบนช์มาร์กของเอเจนต์เขียนโค้ด
- มีการประเมินบนเบนช์มาร์กหลากหลาย เช่น SWE-Bench (Verified, Multilingual, Pro), TerminalBench 2.0, Aider
- ทำได้มากกว่า 70% บน SWE-Bench Verified
- ยังคงรักษาความสามารถในการแข่งขันได้บน SWE-Bench Pro และในสภาพแวดล้อมหลายภาษา
- แม้มีจำนวน active parameters น้อย แต่ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลโอเพนซอร์สที่ใหญ่กว่า
- ใน งานเอเจนต์แบบหลายเทิร์น พบว่ายิ่งเพิ่มจำนวนเทิร์นของเอเจนต์ ก็ยิ่งเสริม ความสามารถในการให้เหตุผลระยะยาว
สมดุลระหว่างประสิทธิภาพและสมรรถนะ
- Qwen3-Coder-Next (3B active) ทำผลงานบน SWE-Bench-Pro ได้ใกล้เคียงกับ โมเดลที่ใหญ่กว่าถึง 10~20 เท่า
- แม้ โมเดลปิดที่ใช้ full attention จะนำหน้าในด้านประสิทธิภาพสูงสุด แต่ Qwen3-Coder-Next อยู่บนพาเรโตฟรอนเทียร์ที่โดดเด่นด้าน ความคุ้มค่าต่อค่าใช้จ่าย
- สิ่งนี้แสดงให้เห็นว่าเป็นโมเดลที่เหมาะกับ การปรับใช้เอเจนต์อย่างคุ้มค่า
เดโมและตัวอย่างการใช้งาน
- เป็นโมเดล coder ขนาดเล็กและรวดเร็วที่ผสานเข้ากับสภาพแวดล้อมการใช้งานได้หลากหลาย
- มีการสาธิตบน OpenClaw, Qwen Code, Claude Code, Web Dev, Browser Use, Cline
- ใช้งานผ่านเว็บได้ที่ coder.qwen.ai
สรุปและแผนในอนาคต
- Qwen3-Coder-Next พิสูจน์ให้เห็นถึง ความเร็วและความสามารถในการให้เหตุผลที่ยอดเยี่ยมบนเบนช์มาร์กของเอเจนต์เขียนโค้ด
- แม้จะแสดง ประสิทธิภาพที่แข่งขันได้ เมื่อเทียบกับโมเดลโอเพนซอร์สขนาดใหญ่ แต่ก็ยังมีพื้นที่ให้พัฒนาอีก
- ในอนาคตมีแผนเสริม ความสามารถในการใช้เครื่องมือ, การแก้ปัญหาที่ซับซ้อน, ความสามารถในการตัดสินใจ และ
- รองรับงานได้มากขึ้นพร้อม อัปเดตอย่างรวดเร็ว โดยอิงจากฟีดแบ็กของผู้ใช้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
โมเดล GGUF นี้มีขนาด 48.4GB จึงรันได้แม้บนโน้ตบุ๊กสเปกสูง
จนถึงตอนนี้ฉันยังไม่เคยเห็นโมเดลโลคัลที่รันเอเจนต์เขียนโค้ดระดับ Codex CLI หรือ Claude Code ได้ดีจริงบน MacBook Pro 64GB ของฉัน
เลยสงสัยว่าคราวนี้อาจจะแตกต่างออกไป ดูจากไกด์ของ Unslothแล้วก็น่าจะมีความเป็นไปได้
แค่เชื่อมผ่าน llama.cpp บนเครื่องเดียวกันแล้วเรียกว่าโลคัลมันยังไม่พอ สิ่งที่ฉันหมายถึงคือ โมเดล LAN คือระดับที่สามารถรัน inference ได้แบบ ‘ฟรี’ บนฮาร์ดแวร์ที่ฉันควบคุมเองโดยตรง
ตัวอย่างเช่น ชุด 5090 + Threadripper + RAM 256GB อยู่ที่ราว 10,000 ดอลลาร์ ส่วนสาย MLX อยู่ที่ราว 6,000 ดอลลาร์
สถาปัตยกรรมภายในและวิธี quantization ของโมเดลมีผลมากต่อการใช้หน่วยความจำจริง ดังนั้นการเทียบกันด้วยจำนวนพารามิเตอร์อย่างเดียวจึงยิ่งมีความหมายน้อยลงเรื่อย ๆ
เพราะแบบนั้นจึงน่าจะต้องมีระบบ benchmark งานจริงอย่าง tool calling, การสร้างโค้ด, การประมวลผลเอกสาร บนมาตรฐานฮาร์ดแวร์ที่กำหนดไว้
แม้จะเป็นโน้ตบุ๊ก Razer Blade รุ่นเก่า แต่ก็ยังทำงานได้ค่อนข้างเสถียรถึง คอนเท็กซ์ 64k
สำหรับงานอย่างโปรเจ็กต์เล็ก ๆ การแก้บั๊ก หรือการปรับปรุง UI ก็ถือว่าใช้งานได้ดีพอ
แต่ฉันคิดว่าเกณฑ์ของคำว่า “usable” ต่างกันไปในแต่ละคน การประเมินก็จะเปลี่ยนไปตามงานที่ลองทำ
ถ้ารวบรวมล็อกการรันที่ดีของโมเดล 120b แล้วเอาไป fine-tuning รุ่น 20b ต่อ ก็น่าจะมีประโยชน์มาก
ถ้าเพิ่ม reasoning_effort ก็ให้ผลลัพธ์ที่ค่อนข้างดี แต่ด้วยข้อจำกัดหน่วยความจำ 64GB การปรับปรุง 20b จึงดูเป็นจริงได้มากกว่า
ollama run glm-4.7-flash) แล้วรันบน Mac mini M2Pro 32GBใช้จัดระเบียบโค้ดของโปรเจ็กต์ git เก่า ทำเอกสาร และเพิ่มเทสต์ ได้ดีพอสมควร
มาตรฐานของฉันอาจจะไม่สูงมาก แต่ในฐานะ ตัวช่วยเขียนโค้ดแบบโลคัล ก็ถือว่าพอใจทีเดียว
ถ้าการผลิต GPU ประสิทธิภาพสูงและหน่วยความจำเพิ่มขึ้น และมีการปรับแต่งโมเดลต่อเนื่อง ฮาร์ดแวร์ระดับกลางก็น่าจะให้ประสิทธิภาพที่ดีพอได้
มีการอัปโหลด Dynamic Unsloth GGUF สำหรับ deploy แบบโลคัลไว้บน Hugging Face แล้ว
และยังเขียนไกด์สำหรับใช้ Claude Code / Codex แบบโลคัลด้วย
รันเซิร์ฟเวอร์ llama.cpp บนสภาพแวดล้อมที่ใช้ Radeon RX 7900 XTX และทำงานได้เสถียรด้วยการตั้งค่า ctx-size 32768
มีคำถามว่าทำไมควรใช้เวอร์ชันของ Unsloth แทน GGUF ปกติของ Qwen3
ติดตั้ง llama.cpp ผ่าน Homebrew แล้วรันโมเดล quantized ของ Unsloth แบบโลคัล
สามารถเปิดทั้งอินเทอร์เฟซ CLI และ เซิร์ฟเวอร์ API ที่เข้ากันได้กับ OpenAI พร้อมกันได้ และใช้ RAM ราว 28GB
ถ้าโมเดลนี้ทำได้จริงตามที่อ้างว่า ให้ประสิทธิภาพการเขียนโค้ดระดับ Sonnet 4.5 ด้วย active parameters แค่ 3B ก็ถือว่าใหญ่มาก
มันยังมีข้อผิดพลาดแม้กับปัญหาง่าย ๆ และบางครั้งก็ติดอยู่ใน thinking loop
อาจเป็นบั๊กของ implementation ช่วงแรก แต่ตอนนี้ยังดูเหมือนเป็นคำกล่าวอ้างประสิทธิภาพที่เกินจริง
ฉันลองรัน Qwen3 Coder 30B แบบโลคัลบน Mac M4 Max (36GB)
แม้จะช้าแต่ก็ใช้งานได้ และให้ผลลัพธ์ที่ค่อนข้างดี
เลยแชร์วิดีโอสาธิตและบล็อกวิธีตั้งค่า
บนโน้ตบุ๊ก VRAM 6GB ทำได้ 17 tok/s และคอนเท็กซ์สูงสุด 100k
แม้จะน่าทึ่ง แต่เพราะความเร็วช้า สุดท้ายก็ยังคิดว่าจะใช้ cloud inference ต่อไป
มีการแชร์ [docker-compose ตัวอย่างการตั้งค่า]
มีการ benchmark โมเดล FP8 บนสภาพแวดล้อม DGX Spark + vLLM 0.15.1
สำหรับคำขอเดี่ยวทำได้ราว 43 tok/s และเมื่อรันหลายคำขอพร้อมกันขึ้นไปได้สูงสุด 62 tok/s
ส่วนเวอร์ชัน quantization 4-bit ของ llama.cpp ทำได้ราว 30~35 tok/s และใช้ RAM เพียง 50GB แม้ที่ คอนเท็กซ์ 200k
แม้ประสิทธิภาพจะต่ำกว่า GLM 4.7 เล็กน้อยด้วย active parameters 3B แต่ประสิทธิภาพเชิงความคุ้มค่านั้นน่าทึ่งมาก
ฉันคิดว่าถ้าเอาเอเจนต์เขียนโค้ดที่เร็วแต่เรียบง่ายไปใช้ร่วมกับ orchestrator ความเร็วโดยรวมอาจยิ่งดีขึ้นได้
ใช้ทำงานซ้ำ ๆ อัตโนมัติ เช่น สแกนโค้ด ค้นหาไลบรารี และสำรวจ SourceGraph
ด้วย ฟีเจอร์ Workspace ของ Mastra จึงทำให้การพัฒนาแบบ agentic ทรงพลังขึ้นมาก
ฉันลองรัน lmstudio-community/Qwen3-Coder-Next-GGUF:Q8_0 บน Strix Halo
ทำได้ 32 tok/s และคอนเท็กซ์ถึง 128k แม้จะด้อยกว่า MiniMax M2.1 Q6 เล็กน้อยแต่ก็น่าประทับใจ
FP8 ใช้หน่วยความจำ 110GB จึงได้คอนเท็กซ์แค่ 16k
มีการลองใช้สร้างโค้ด Rust แล้วพบว่ามันค่อนข้างมีความสามารถ ถ้าเรื่องความเร็วดีขึ้นก็น่าจะใช้งานจริงได้
คิดว่าอีกไม่นาน ผู้ให้บริการ API ก็น่าจะเริ่มให้บริการโมเดลนี้ในราคาถูก
สงสัยว่ามี แหล่งจัดอันดับโมเดลโลคัลที่เชื่อถือได้ ที่ไหนบ้าง
เพราะ benchmark ดูเหมือนถูกปรุงแต่งมากเกินไป เลยคิดว่า รีวิวจากผู้ใช้จริงมีความหมายมากกว่า
อยากรู้ว่ามีที่ไหนรวบรวม โมเดลเด่นแยกตามโดเมน อย่างโค้ด เสียง ภาพ การสรุป เพลง ฯลฯ ไว้บ้าง