- Qwen3-Coder บรรลุ ประสิทธิภาพระดับสูงสุดในงาน agent coding ในบรรดาโมเดลแบบเปิด ด้วยสถาปัตยกรรม Mixture-of-Experts ขนาด 480B พารามิเตอร์, 35B active parameters และรองรับ คอนเท็กซ์ 256K~1M โทเค็น
- นำเทคนิคการเรียนรู้แบบเสริมกำลังขนาดใหญ่ที่เหมาะกับปัญหาวิศวกรรมซอฟต์แวร์จริง เช่น Code RL, Long-Horizon RL มาใช้ เพื่อเพิ่ม อัตราความสำเร็จในการรันและประสิทธิภาพในงานหลากหลายประเภท อย่างมาก
- เชื่อมต่อกับเครื่องมือบรรทัดคำสั่งและ API อย่าง Qwen Code และ Claude Code ได้ รวมถึงใช้งานได้ทันทีในสภาพแวดล้อมพัฒนาหลากหลายแบบ เช่น Node.js และ OpenAI-compatible API
- ด้วย สภาพแวดล้อมและโครงสร้างพื้นฐานแบบขนานขนาดใหญ่ จึงสามารถรองรับปฏิสัมพันธ์ที่ซับซ้อน เช่น การวางแผน, การรับฟีดแบ็ก, การใช้เครื่องมือ ที่จำเป็นต่อการทำงานเขียนโค้ดจริง
- ในอนาคตเตรียมทดลองและพัฒนาต่อทั้งในด้าน ขนาดโมเดลที่หลากหลายขึ้น, การปรับใช้ต้นทุนต่ำ และ ความเป็นไปได้ของการพัฒนาตัวเองของ coding agent
Qwen3-Coder
- Qwen3-Coder เป็นโมเดล AI โอเพนซอร์สที่เสริมความสามารถแบบ agentic มากที่สุดในบรรดาโมเดลสร้างโค้ดก่อนหน้านี้
- รุ่นหลักตัวแรกที่เปิดตัวคือ Qwen3-Coder-480B-A35B-Instruct ซึ่งใช้สถาปัตยกรรม Mixture-of-Experts ที่มีพารามิเตอร์ทั้งหมด 480 พันล้าน และเปิดใช้งาน 35 พันล้านพารามิเตอร์
- รองรับ คอนเท็กซ์ 256K โทเค็น เป็นค่าเริ่มต้น และ ขยายได้ถึง 1M โทเค็น
- ด้วยประสิทธิภาพที่โดดเด่น ทำให้ได้ผลลัพธ์ระดับสูงสุดในบรรดาโอเพนโมเดลบนเบนช์มาร์กสำคัญอย่าง Agentic Coding, Browser-Use, Tool-Use และแสดงให้เห็นถึง คุณภาพของงานโค้ด/เอเจนต์ที่เทียบเคียงได้กับ Claude Sonnet 4
- เครื่องมือ CLI Qwen Code ที่เปิดตัวพร้อมกันนั้น fork มาจาก Gemini Code และใช้พรอมป์ต์พิเศษกับโปรโตคอล function calling เพื่อดึงความสามารถเชิงเอเจนต์ของ Qwen3-Coder ออกมาได้เต็มที่
- Qwen3-Coder ยังเชื่อมต่อกับเครื่องมือพัฒนาจากชุมชนต่าง ๆ อย่าง OpenAI SDK และ Claude Code ได้อย่างราบรื่น
- มีเป้าหมายเพื่อทำให้ agent coding เกิดขึ้นได้จริงในโลกของซอฟต์แวร์โดยรวมในฐานะโมเดลพื้นฐานแบบใช้งานทั่วไป
การฝึกก่อนล่วงหน้า (Pre-Training)
- ขยายขนาดโทเค็น: ใช้โทเค็นรวม 7.5 ล้านล้านโทเค็น (สัดส่วนโค้ด 70%) เพื่อเสริมทั้งความสามารถด้านโค้ดและความสามารถทั่วไปกับคณิตศาสตร์อย่างสมดุล
- ขยายช่วงบริบท: รองรับ 256K เป็นค่าเริ่มต้น และรองรับ 1M โทเค็นบนพื้นฐาน YaRN จึงจัดการข้อมูลไดนามิกระดับรีโพขนาดใหญ่ เช่น Pull Request ได้
- ยกระดับคุณภาพข้อมูลสังเคราะห์: ปรับปรุงคุณภาพข้อมูลโดยรวมอย่างมาก ด้วยการใช้ ข้อมูลที่ลบสัญญาณรบกวนและเขียนใหม่ จาก Qwen2.5-Coder เดิม
การฝึกหลังล่วงหน้า (Post-Training)
-
การขยายการเรียนรู้แบบเสริมกำลังสำหรับโค้ด (Code RL): แก้ยากแต่ตรวจสอบง่าย
- ต่างจากแนวทางที่เน้นการแข่งขันในชุมชนการสร้างโค้ด วิธีนี้เลือกใช้การ รัน/ตรวจสอบงานโค้ดทั้งหมดบนพื้นฐานของการเรียนรู้แบบเสริมกำลัง (RL) ขนาดใหญ่
- ขยาย test case แบบอัตโนมัติ สำหรับงานเขียนโค้ดจริงหลายรูปแบบ สร้างอินสแตนซ์การฝึก RL จำนวนมาก และเพิ่มอัตราความสำเร็จให้สูงสุด
- ผลลัพธ์แสดงให้เห็นว่าวิธีนี้ ไม่เพียงเพิ่มอัตราความสำเร็จในการรันโค้ด แต่ยังยกระดับประสิทธิภาพของงานประเภทอื่นด้วย
- ต่อจากนี้จะให้ความสำคัญกับการค้นหาพื้นที่ใหม่ ๆ ที่ แก้ยากแต่ตรวจสอบง่าย ต่อไป
-
การเรียนรู้แบบเสริมกำลังระยะยาว (Long-Horizon RL)
- ในงานวิศวกรรมซอฟต์แวร์จริงอย่าง SWE-Bench จำเป็นต้องมี ปฏิสัมพันธ์หลายเทิร์น เช่น การวางแผน, การใช้เครื่องมือ, การประมวลผลฟีดแบ็ก, การตัดสินใจ
- Qwen3-Coder นำ Long-Horizon RL (Agent RL) มาใช้ โดยฝึกให้สามารถโต้ตอบกับเครื่องมือในสภาพแวดล้อมจริงและแก้งานแบบหลายเทิร์นได้
- สร้าง สภาพแวดล้อมขนานอิสระ 20,000 ชุด บนโครงสร้างพื้นฐานของ Alibaba Cloud เพื่อรองรับทั้งการเรียนรู้แบบเสริมกำลังขนาดใหญ่และการประเมินผลแบบเรียลไทม์
- ทำผลงานได้ ดีที่สุดในบรรดาโมเดลโอเพนซอร์ส บนเบนช์มาร์ก SWE-Bench Verified
วิธีใช้งาน Qwen3-Coder
-
Qwen Code: agent coding ผ่านบรรทัดคำสั่ง
- Qwen Code เป็นเครื่องมือ CLI ที่สร้างขึ้นเพื่อการวิจัย โดยพัฒนาบนพื้นฐานของ Gemini CLI และเพิ่ม parser กับเครื่องมือเฉพาะสำหรับ Qwen-Coder
- ต้องใช้สภาพแวดล้อม Node.js 20+ และสามารถติดตั้งและรันได้ง่ายผ่าน npm
- รองรับโปรโตคอล OpenAI SDK จึงตั้งค่าผ่าน environment variable หรือไฟล์ .env และใช้งานกับโครงสร้างพื้นฐาน LLM ได้หลากหลาย
- สามารถเรียกใช้พลังของ Qwen3-Coder ได้อย่างง่ายดายด้วยคำสั่ง Qwen-Code
-
การเชื่อมต่อกับ Claude Code
- Qwen3-Coder สามารถใช้งานได้ในสภาพแวดล้อม Claude Code เช่นกัน
- สามารถออก API key จาก Alibaba Cloud Model Studio แล้วติดตั้งเชื่อมต่อกับ Claude Code ได้
- รองรับการเลือกแบ็กเอนด์โมเดลได้หลากหลายและตั้งค่าได้ง่ายผ่าน proxy API และแพ็กเกจ claude-code-config
-
การเชื่อมต่อกับ Cline
- สามารถตั้งค่าและใช้งานโมเดล Qwen3-Coder-480B-A35B-Instruct ได้ในสภาพแวดล้อมพัฒนา Cline
- ในส่วน API Provider ให้เลือก ‘OpenAI Compatible’ และระบุ API Key ที่ได้รับจาก Dashscope พร้อม Custom Base URL
กรณีการใช้งาน (Use Cases)
- การจำลองการรื้อถอนปล่องควันแบบอิงฟิสิกส์
- ตัวอย่างการใช้งาน Qwen + Cline ร่วมกัน
- การพัฒนาเว็บบนพื้นฐาน Qwen Chat
- การวัดความเร็วการพิมพ์โดยใช้คำคมชื่อดัง
- การจำลองลูกบอลเด้งภายในไฮเปอร์คิวบ์ที่กำลังหมุน
- การจำลองสภาพแวดล้อมของระบบสุริยะ
- การสร้างเกม DUET และตัวอย่างงานโค้ดกับการจำลองที่หลากหลาย
การเชื่อมต่อ API
- สามารถใช้งาน API ของ Qwen3-Coder ได้โดยตรงผ่าน Alibaba Cloud Model Studio
- มีการสาธิตการสร้างโค้ดแบบสนทนาด้วย Python OpenAI SDK ผ่าน Qwen API
ทิศทางการพัฒนาในอนาคต
- กำลังเดินหน้าวิจัยอย่างจริงจังเพื่อปรับปรุงประสิทธิภาพของ Coding Agent และให้รับช่วงงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อนและทำซ้ำได้
- กำลังเตรียมเปิดตัว โมเดลหลายขนาดมากขึ้น พร้อมมุ่งลดต้นทุนในการปรับใช้ไปพร้อมกัน
- มุ่งสู่การเพิ่มผลิตภาพของมนุษย์ให้สูงสุดใน งานวิศวกรรมซอฟต์แวร์ที่ซับซ้อนและทำซ้ำ ในระยะยาว รวมถึงความเป็นไปได้ด้าน การพัฒนาตัวเองของ Coding Agent
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ตอนนี้ผมกำลังทำ GGUF ตั้งแต่ 2bit ถึง 8bit เพื่อให้ใช้รันบนเครื่องโลคัลได้
น่าจะปล่อยที่ HuggingFace Unsloth Qwen3-Coder-480B-A35B-Instruct-GGUF ภายในหนึ่งชั่วโมง
เอกสารการรันสำหรับเครื่องที่มี GPU 24GB และ RAM 128~256GB อยู่ที่ นี่
แทนที่จะเป็น "Recommended context: 65,536 tokens (can be increased)" ในเอกสารทางการกลับระบุเรื่องความยาวเอาต์พุตว่า "We recommend using an output length of 65,536 tokens for most queries, which is adequate for instruct models"
ดังนั้นจึงเป็นความยาวเอาต์พุตที่แนะนำ
แม้ Qwen3-Coder จะออกมาหลายขนาด แต่ส่วนตัวผมคาดหวังกับรุ่นเล็กมากที่สุด
ผมคิดว่าโมเดลเบา ๆ ที่รันบนเครื่องโลคัลได้กำลังเขียนโค้ดได้ดีขึ้นเรื่อย ๆ
ช่วงนี้อาจยังต้องใช้โมเดลใหญ่กว่าอยู่บ้าง แต่ก็ดีที่ยังเลือกใช้โมเดลคุณภาพสูงแบบ open weight ได้เวลาที่การโฮสต์เองยังไม่ค่อยเป็นจริงได้
การได้ลองใช้โมเดลเล็กอย่างอิสระ และค่อยจ่ายใช้โมเดลใหญ่เมื่อจำเป็นก็เป็นประสบการณ์ที่ดี
ขอแสดงความยินดีกับทีม Qwen สำหรับรีลีสครั้งนี้ และผมจะลองใช้ทันที
โมเดลใหญ่มักมีทั้งความรู้และความฉลาดมากกว่าอย่างชัดเจน
แม้โมเดลเล็กจะพัฒนาขึ้น แต่โมเดลใหญ่ก็พัฒนาไปพร้อมกัน
ครั้งหนึ่ง HN เคยเป็นศูนย์กลางเชิงเทคนิคของวงการ LLM แต่ช่วงนี้บน Reddit มีผู้ใช้ที่ลองรันโมเดลขนาดมหึมาด้วยตัวเองมากกว่า
ถ้าศึกษาและลองทำเอง การโฮสต์เองก็ยังเป็นสิ่งที่ทำได้จริงพอสมควร
แอป "qwen-code" ดูเหมือนเป็นเวอร์ชัน fork ของ gemini-cli
QwenLM/qwen-code
ไลเซนส์
หวังว่าสักวันเหล่า OSS CC (open source code companion) clone จะรวมตัวกันเป็นมาตรฐานเดียว
ในหน้าดังกล่าวก็ระบุชัดว่า "we’re also open-sourcing a command-line tool for agentic coding: Qwen Code. Forked from Gemini Code"
ตอนนี้ผมใช้ claude-code เป็นหลัก แต่ให้ zen mcp ส่งงาน reasoning หนัก ๆ ไปที่ openai, gemini pro
gemini-cli ก็รองรับใน zen เช่นกันจึงใช้แทนได้ และถ้า qwen-coder อิงจาก gemini-cli ก็คงไม่ยากที่จะเพิ่มการรองรับ
พวกเราได้ปล่อย RA.Aid ไปแล้วตั้งแต่ปลายปี '24
มันเป็นโปรเจกต์ที่ต่อยอดจากแนวทางที่ aider เริ่มไว้ ไปอีกขั้นในแบบ CLI-first และมุ่งสู่คอมมูนิตี้โอเพนซอร์สอย่างแท้จริง
มี maintainer อิสระ 5 คนจากคนละนิติบุคคลที่มีสิทธิ์ commit เต็มรูปแบบ (หนึ่งในนั้นย้ายมาร่วมกับ Gobii ที่ผมอยู่ และกำลังพัฒนาเว็บบราวซิงเอเจนต์)
พวกเราเชื่อว่ามันแข่งขันได้สบายเมื่อเทียบกับ Cursor, Windsurf และโซลูชัน agentic coding อื่น ๆ
รู้สึกว่าจำเป็นมากที่จะต้องมีมาตรฐานบนฐาน FOSS ที่ไม่ผูกติดกับบริษัทยักษ์ใหญ่หรือโมเดลใดโมเดลหนึ่ง
เท่าที่ทราบ Claude Code ก็รองรับด้วย แต่โครงสร้างนี้เป็นแบบ closed source และรองรับแค่ Anthropic API endpoint เท่านั้น เลยสงสัยว่าจริง ๆ แล้วมันทำงานอย่างไร
อยากแนะนำโปรเจกต์ของผมอย่าง Plandex ด้วย
เริ่มก่อน Claude Code และรองรับทั้งการผสมโมเดลจากหลายผู้ให้บริการ (Anthropic, Google, OpenAI) รวมถึงใช้งานโมเดลโอเพนซอร์สและโมเดลโลคัลได้
โดยเฉพาะจะเน้นงานระยะยาวที่มีคอนเท็กซ์ขนาดใหญ่และหลายขั้นตอน
plandex-ai/plandex GitHub
มีข้อเสนอให้เพิ่ม
QWEN.mdเป็นคู่มือเอเจนต์ในรีโพซิทอรีแต่ทุกวันนี้ในรีโพซิทอรีของทีมกลับมีไฟล์ Markdown ซ้ำ ๆ เพิ่มขึ้นสำหรับแต่ละเอเจนต์จนไม่มีประสิทธิภาพ
คำอธิบายทุกอย่างเหมือนกัน จึงไม่จำเป็นต้องแยกตามโมเดล
แล้วก็ตัดเวอร์ชันเฉพาะของแต่ละโมเดลออกด้วย gitignore
สงสัยว่าควรตามความเปลี่ยนแปลงที่เร็วขนาดนี้อย่างไร
ทำให้อดคาดหวังไม่ได้ว่าอีกสัก 2~3 ปีจะมีเครื่องมือผู้ชนะเพียงตัวเดียวหรือไม่
ถึงตอนนั้นก็น่าจะไม่มีใครลังเลและใช้ตัวเดียวกันหมด
คนเราก็มักจะตามสิ่งที่ตัวเองสนใจได้เองตามธรรมชาติ
สุดสัปดาห์นี้ลองรัน Kimi K2 แล้ว และใน 2 วันที่ผ่านมาได้รัน Ernie4.5-300B
เช้านี้ก็เพิ่งดาวน์โหลด Qwen3-235b ตัวล่าสุด และจะเริ่มใช้คืนนี้
คืนนี้ก็กำลังโหลด Qwen3-Coder-480B อยู่ด้วย—ด้วยความเร็วเน็ตของผมคงใช้เวลา 2~3 วัน
นี่เรียกว่าหมกมุ่นหรือเปล่า?
แค่เมินไปก่อนจนกว่าจะดูมีประโยชน์ก็พอ
พูดตรง ๆ ว่าการพิมพ์ข้อความลงในกล่องพรอมป์ต์ไม่ได้ต้องใช้ประสบการณ์ 3 ปีอะไรขนาดนั้น จึงไม่ต้องกังวลมาก
ไม่ตามก็ไม่เป็นไร
ตราบใดที่ไม่มีประเด็นอย่างเรื่องความสามารถในการทำกำไร ระหว่างทางเดี๋ยวก็จะมีเครื่องมือที่กลายเป็นกระแสหลักอย่างชัดเจนโผล่มาเอง
ทำไมถึงคิดแบบนั้น?
ลีดเดอร์บอร์ดของวงการนี้ผันผวนมาก และก็ยังไม่เห็นว่าสภาพความผันผวนแบบนี้จะหายไปง่าย ๆ
อีก 2~3 ปีข้างหน้าสถานการณ์ก็น่าจะคล้ายเดิม แค่ผู้เล่นอาจเปลี่ยนไปเล็กน้อย
อยากรู้ว่าถ้าจะรัน Qwen3-Coder-480B-A35B-Instruct ต้องใช้ฮาร์ดแวร์ระดับไหน
ถ้าประสิทธิภาพเข้าใกล้ Sonnet ได้ ก็คิดว่าน่าจะมีผู้ใช้ Claude Code จำนวนมากสนใจหันมารันโลคัล
สงสัยว่าถ้าใช้โลคัลอินสแตนซ์ร่วมกันเป็นทีมจะคุ้มค่าทางเศรษฐศาสตร์จริงไหม
มีเอกสารวิธีใช้ร่วมกับ Claude Code ด้วย
บน X (Twitter) ก็เห็นกรณีแชร์บิลค่าใช้งานมหาศาลอยู่บ่อย ๆ
ตอนนี้กำลังเตรียมเวอร์ชัน dynamic GGUF quantization สำหรับโมเดลดีพเลิร์นนิงอยู่
คาดว่าน่าจะรันแบบ dynamic 2bit ได้ด้วย VRAM 24GB + RAM 128GB โดยประมาณ และจะปล่อยภายในหนึ่งชั่วโมง
เอกสารอ้างอิง: docs.unsloth.ai/basics/qwen3-coder
เวอร์ชัน 4bit ใช้แรมราว 272GB บน Mac Studio M3 รุ่น 512GB
ลิงก์ดาวน์โหลด
วิดีโอการทำงานจริง: วิดีโอบน X
เครื่องดังกล่าวมีราคาราว 10,000 ดอลลาร์
ถ้าเป็นเวอร์ชันไม่ quantize และไม่ distilled ก็คงต้องใช้คลัสเตอร์ประมาณ H200 จำนวน 8 ใบเพื่อรันตามเบนช์มาร์ก
B200 รุ่นใหม่เร็วกว่าก็จริง แต่แพงกว่ามาก
คาดว่าเกิน 300,000 ดอลลาร์
เวลาคนปล่อยเวอร์ชัน quantized/distilled กัน ก็มักไม่ค่อยเผยผลเบนช์มาร์กด้วย
แค่ RAM อย่างเดียวก็น่าจะต้องเกิน 500GB แล้ว และถ้ารวมเรื่องคอนเท็กซ์ด้วยก็ควรมีเผื่ออีก 100~200GB
ถ้าจับคู่กับ GPU 24GB ก็คาดว่าความเร็วจะอยู่ราว 10 โทเค็นต่อวินาที
ไม่จำเป็นต้องเป็นอุปกรณ์มหาศาลเสมอไป
แค่ RTX Pro 6000 กับ RAM 256GB ก็พอแล้ว
น่าสนใจที่มีโมเดล open weight ซึ่งแข่งกับ Cloud 4 ได้
ด้วยโครงสร้าง MoE ก็เลยดูมีโอกาสรันโลคัลได้จริง
แล้วจะเอา 480GB ไปวางไว้ที่ไหนถึงจะได้ประสิทธิภาพแบบนั้น?
มี RAM ขนาดนั้นจริงหรือ?
ตื่นเต้นมากกับการมาของ Coder
ดีใจที่ช่วงนี้เบนช์มาร์กหลัก ๆ ต่างใช้ OpenHands(All-Hands-AI/OpenHands) เป็น scaffold พื้นฐานกันหมด
ไม่มีอะไรน่าอึดอัดไปกว่าการเห็นแค่ "private scaffold" ในเบนช์มาร์กสาธารณะ
มี วิดีโอ YouTube ที่ robert พูดถึง AllHands แบบละเอียด
ไม่น่าเชื่อว่า Cognition จะดูไร้ความสามารถได้ขนาดนี้
ระดมทุนไปหลายล้านดอลลาร์ แต่กลับแพ้ให้ Cursor และ Claude Code แล้วตอนนี้ยังถูกคลอนส่วนแบ่งตลาดโดยคลอนของตัวเอง (เมื่อก่อนใช้ชื่อ OpenDevin) อีกด้วย
เห็นแล้วว่ามีขึ้นบน OpenRouter ให้ใช้ได้ทันที (openrouter.ai/qwen/qwen3-coder)
อยากให้มีใครสักคนทำตัวนี้เป็น CLI ด้วย Rust/Ratatui