- เปิดตัวเป็น โมเดลมัลติโหมดแบบ dense ขนาด 27 พันล้านพารามิเตอร์ รองรับทั้งโหมด thinking และ non-thinking รวมถึงการประมวลผลภาพและวิดีโอในเช็กพอยต์แบบรวมเดียว
- ประสิทธิภาพด้าน agentic coding เหนือกว่าเรือธงโอเพนซอร์สรุ่นก่อนหน้า Qwen3.5-397B-A17B ในเบนช์มาร์กด้านโค้ดหลักเกือบทั้งหมด และยังเหนือกว่าโมเดลที่มีจำนวนพารามิเตอร์รวมมากกว่าสูงสุดถึง 15 เท่า
- ทำคะแนน SWE-bench Verified 77.2, SWE-bench Pro 53.5, Terminal-Bench 2.0 59.3, SkillsBench 48.2 และยังเปิดเผยคะแนนการให้เหตุผลเชิงข้อความและการประเมิน STEM เช่น GPQA Diamond 87.8, AIME26 94.1
- ด้วยการใช้ สถาปัตยกรรม dense จึงไม่มีความซับซ้อนจากการทำ MoE routing ทำให้ดีพลอยได้ง่าย พร้อมให้ทั้ง open weights, API, การใช้งานทันทีผ่าน Qwen Studio และการผสานรวมกับ OpenClaw, Qwen Code, Claude Code
- แสดงให้เห็นว่า โมเดล dense ที่ฝึกมาอย่างดีสามารถแซงหน้ารุ่นก่อนหน้าที่มีขนาดใหญ่กว่ามากในงานหลักของนักพัฒนา และยังต่อยอดไปสู่การขยาย agentic coding ในสาย Qwen3.6
ภาพรวม
- Qwen3.6-27B เปิดตัวเป็น โมเดลมัลติโหมดแบบ dense ขนาด 27 พันล้านพารามิเตอร์ รองรับทั้งโหมดมัลติโหมดแบบ thinking และ non-thinking
- ในด้าน agentic coding ทำได้ดีกว่าเรือธงโอเพนซอร์สรุ่นก่อนหน้า Qwen3.5-397B-A17B ในเบนช์มาร์กโค้ดหลักโดยรวม
- ใช้ สถาปัตยกรรม dense ที่ไม่มีความซับซ้อนของ MoE routing จึงดีพลอยได้ง่าย และให้ประสิทธิภาพด้านโค้ดระดับแนวหน้าในขนาดที่ใช้งานจริงและกระจายใช้งานได้กว้าง
- ใช้งานได้ทันทีบน Qwen Studio และมีทั้ง open weights สำหรับชุมชนรวมถึงช่องทางเข้าถึงผ่าน API
- จุดเด่นหลักประกอบด้วย agentic coding ระดับเรือธง, การให้เหตุผลเชิงข้อความที่แข็งแกร่ง และความสามารถด้านการให้เหตุผลแบบมัลติโหมด
ประสิทธิภาพ
- Qwen3.6-27B ถูกประเมินเทียบกับโมเดลอ้างอิงทั้งแบบ dense และ MoE โดยแสดงการยกระดับอย่างชัดเจนใน เบนช์มาร์ก agentic coding
- ระบุว่าสามารถเหนือกว่า โมเดลที่มีจำนวนพารามิเตอร์รวมมากกว่าสูงสุด 15 เท่า
- หมวดการประเมินประกอบด้วย ภาษา ความรู้ STEM และการให้เหตุผล วิชัน-ภาษา การเข้าใจเอกสาร การเข้าใจวิดีโอ และ visual agent
-
ภาษา
- ด้วยพารามิเตอร์เพียง 27 พันล้าน ก็ยังเหนือกว่า Qwen3.5-397B-A17B ในเบนช์มาร์กโค้ดหลักทั้งหมด
- SWE-bench Verified 77.2 ต่อ 76.2
- SWE-bench Pro 53.5 ต่อ 50.9
- Terminal-Bench 2.0 59.3 ต่อ 52.5
- SkillsBench 48.2 ต่อ 30.0
- ยังนำหน้า โมเดล dense อื่น ๆ ในขนาดใกล้เคียงกันอย่างชัดเจน
- ในงานให้เหตุผล ทำคะแนน GPQA Diamond 87.8 ซึ่งเป็นระดับที่แข่งขันได้กับโมเดลที่มีขนาดใหญ่กว่าหลายเท่าของบริษัทเดียวกัน
- ตารางรายละเอียดเปรียบเทียบ Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B และ Qwen3.6-27B
- ตัวเลขสำคัญในหมวด Coding Agent
- SWE-bench Multilingual 71.3
- QwenWebBench 1487
- NL2Repo 36.2
- Claw-Eval Avg 72.4
- Claw-Eval Pass^3 60.6
- QwenClawBench 53.4
- ตัวเลขสำคัญในหมวด Knowledge
- MMLU-Pro 86.2
- MMLU-Redux 93.5
- SuperGPQA 66.0
- C-Eval 91.4
- ตัวเลขสำคัญในหมวด STEM และการให้เหตุผล
- HLE 24.0
- LiveCodeBench v6 83.9
- HMMT Feb 25 93.8
- HMMT Nov 25 90.7
- HMMT Feb 26 84.3
- IMOAnswerBench 80.8
- AIME26 94.1
- ด้วยพารามิเตอร์เพียง 27 พันล้าน ก็ยังเหนือกว่า Qwen3.5-397B-A17B ในเบนช์มาร์กโค้ดหลักทั้งหมด
-
การตั้งค่าการประเมินภาษา
- SWE-Bench Series ใช้ internal agent scaffold พร้อมเครื่องมือ bash และ file-edit โดยตั้งค่า temp 1.0, top_p 0.95 และ context window 200K
- โมเดลอ้างอิงทั้งหมดถูกประเมินบน refined benchmark ที่แก้ไขงานบางส่วนที่มีปัญหาในชุด SWE-bench Pro สาธารณะ
- Terminal-Bench 2.0 ใช้ Harbor หรือ Terminus-2 harness
- timeout 3 ชั่วโมง, 32 CPU, RAM 48 GB
- temp 1.0, top_p 0.95, top_k 20, max_tokens 80K, ctx 256K
- เฉลี่ยจากการรัน 5 ครั้ง
- SkillsBench ใช้ OpenCode ประเมิน 78 งาน
- ใช้ subset แบบ self-contained ที่ตัดงานซึ่งพึ่งพา API ออก
- เฉลี่ยจากการรัน 5 ครั้ง
- การประเมินโมเดลอื่นใน NL2Repo ใช้ Claude Code
- temp 1.0, top_p 0.95, max_turns 900
- QwenClawBench เป็นเบนช์มาร์ก Claw agent ที่อิงจากการกระจายตัวของผู้ใช้จริง
- temp 0.6, ctx 256K
- QwenWebBench เป็นเบนช์มาร์กภายในสำหรับการสร้างโค้ดฝั่งฟรอนต์เอนด์
- รองรับสองภาษา EN และ CN
- มี 7 หมวด ได้แก่ Web Design, Web Apps, Games, SVG, Data Visualization, Animation และ 3D
- ประเมินทั้งความถูกต้องของโค้ดและความสอดคล้องเชิงภาพด้วย auto-render และ multimodal judge
- ใช้ระบบ BT หรือ Elo rating
- AIME 26 ใช้ข้อสอบ AIME 2026 I และ II ครบชุด
- ระบุว่าคะแนนอาจแตกต่างจากโน้ตของ Qwen 3.5
- SWE-Bench Series ใช้ internal agent scaffold พร้อมเครื่องมือ bash และ file-edit โดยตั้งค่า temp 1.0, top_p 0.95 และ context window 200K
-
วิชัน-ภาษา
- Qwen3.6-27B รองรับทั้งโหมดวิชัน-ภาษาแบบ thinking และ non-thinking ในเช็กพอยต์แบบรวมเดียว
- ประมวลผลได้ทั้ง ภาพและวิดีโอ ควบคู่กับข้อความ
- รองรับงานให้เหตุผลแบบมัลติโหมด การเข้าใจเอกสาร และ visual question answering
- ตารางเปรียบเทียบอ้างอิง Qwen3.5-27B, Qwen3.5-397B-A17B, Gemma4-31B, Claude 4.5 Opus, Qwen3.6-35B-A3B และ Qwen3.6-27B
-
STEM และปริศนา
- MMMU 82.9
- MMMU-Pro 75.8
- MathVista mini 87.4
- DynaMath 85.6
- VlmsAreBlind 97.0
-
VQA ทั่วไป
- RealWorldQA 84.1
- MMStar 81.4
- MMBench EN-DEV-v1.1 92.3
- SimpleVQA 56.1
-
การเข้าใจเอกสาร
- CharXiv RQ 78.4
- CC-OCR 81.2
- OCRBench 89.4
-
ความฉลาดเชิงพื้นที่
- ERQA 62.5
- CountBench 97.8
- RefCOCO avg 92.5
- EmbSpatialBench 84.6
- RefSpatialBench 70.0
-
การเข้าใจวิดีโอ
- VideoMME(w sub.) 87.7
- VideoMMMU 84.4
- MLVU 86.6
- MVBench 75.5
-
Visual Agent
- V* 94.7
- AndroidWorld 70.3
-
หมายเหตุ
- ช่องว่าง (--) ในตารางหมายถึงยังไม่มีคะแนนหรือไม่เกี่ยวข้อง
การใช้งาน Qwen3.6-27B
- ระบุว่าการรองรับ Alibaba Cloud Model Studio จะพร้อมใช้งานในเร็ว ๆ นี้
- มี open weights บน Hugging Face และ ModelScope รองรับการ self-hosting
- มีทั้งช่องทางใช้งานผ่าน Alibaba Cloud Model Studio API และการทดลองใช้ทันทีบน Qwen Studio
- รองรับการผสานรวมกับผู้ช่วยเขียนโค้ดจากภายนอกอย่าง OpenClaw, Claude Code, Qwen Code
- กล่าวถึงการลดความซับซ้อนของเวิร์กโฟลว์การพัฒนาและรองรับ context-aware coding experience
-
การใช้ API
- รุ่นใหม่นี้รองรับฟีเจอร์
preserve_thinking - เป็นฟีเจอร์ที่เก็บรักษาเนื้อหา thinking ที่สร้างขึ้นในทุกเทิร์นก่อนหน้าของข้อความ และระบุว่าแนะนำสำหรับ agentic task
- รุ่นใหม่นี้รองรับฟีเจอร์
-
Alibaba Cloud Model Studio
- รองรับ chat completions และ responses API ที่เข้ากันได้กับสเปก OpenAI
- รองรับ Anthropic-compatible API interface ด้วย
- ยกตัวอย่างตัวแปรสภาพแวดล้อมตามเอกสารทางการ
DASHSCOPE_API_KEYDASHSCOPE_BASE_URLDASHSCOPE_MODEL
- มีตัวอย่าง Base URL ตามภูมิภาคด้วย
- ในตัวอย่างโค้ดใช้ชื่อโมเดลเริ่มต้นเป็น
qwen3.6-27b - ใน
extra_bodyมีenable_thinking: Truepreserve_thinking: Trueแสดงไว้ในรูปแบบคอมเมนต์
- มีตัวอย่างการแยกเก็บ reasoning_content และ answer content จากการตอบกลับแบบสตรีมมิง
- ข้อมูลเพิ่มเติมให้ดูที่ลิงก์ API doc
-
Coding & Agents
- Qwen3.6-27B มีความสามารถด้าน agentic coding และผสานรวมกับ OpenClaw, Claude Code, Qwen Code ได้อย่างราบรื่น
-
OpenClaw
- OpenClaw เป็น AI coding agent แบบโอเพนซอร์สที่โฮสต์เองได้ โดยก่อนหน้านี้ใช้ชื่อ Moltbot หรือ Clawdbot
- เชื่อมต่อกับ Model Studio เพื่อมอบประสบการณ์ agentic coding เต็มรูปแบบในเทอร์มินัล
- สคริปต์เริ่มต้นระบุขั้นตอน Node.js 22+, รันสคริปต์ติดตั้ง, ตั้งค่า
DASHSCOPE_API_KEY, แล้วเรียกopenclaw dashboardหรือopenclaw tui - ในการใช้งานครั้งแรกต้องแก้ไข
~/.openclaw/openclaw.json- ระบุชัดว่าไม่ให้เขียนทับทั้งไฟล์
- ให้ merge เฉพาะฟิลด์ที่จำเป็นเพื่อเก็บค่าตั้งเดิมไว้
- ตัวอย่างการตั้งค่ามีการลงทะเบียน provider
modelstudioและโมเดลqwen3.6-27bapiเป็นopenai-completions- ค่า
reasoningเป็น true - ชนิดอินพุตคือ
text,image contextWindowคือ 131072maxTokensคือ 16384- โมเดล primary เริ่มต้นคือ
modelstudio/qwen3.6-27b
-
Qwen Code
- Qwen Code เป็น AI agent แบบโอเพนซอร์สสำหรับเทอร์มินัล และเป็นเครื่องมือที่ปรับแต่งมาอย่างลึกสำหรับ Qwen Series
- สคริปต์เริ่มต้นระบุขั้นตอน Node.js 20+, ติดตั้ง
@qwen-code/qwen-code@latest, แล้วรันqwen - มีตัวอย่างการใช้คำสั่ง
/help,/authภายในเซสชัน - เมื่อใช้งานครั้งแรกจะมีพรอมป์ต์ให้ล็อกอิน และสามารถสลับวิธีการยืนยันตัวตนได้ด้วย
/auth
-
Claude Code
- Qwen APIs รองรับ Anthropic API protocol ด้วย
- ระบุว่าสามารถใช้ร่วมกับเครื่องมืออย่าง Claude Code ได้
- ตัวอย่างการตั้งค่ามีตัวแปรสภาพแวดล้อมต่อไปนี้
ANTHROPIC_MODEL="qwen3.6-27b"ANTHROPIC_SMALL_FAST_MODEL="qwen3.6-27b"ANTHROPIC_BASE_URL=https://dashscope-intl.aliyuncs.com/apps/anthropicANTHROPIC_AUTH_TOKEN=<your_api_key>
- คำสั่งรันคือ
claude
สรุป
- โมเดล dense ที่ฝึกมาอย่างดี สามารถแซงหน้ารุ่นก่อนหน้าที่มีขนาดใหญ่กว่ามากในงานสำคัญสำหรับนักพัฒนาได้ ซึ่ง Qwen3.6-27B ได้พิสูจน์ให้เห็นแล้ว
- แม้จะมีขนาด 27 พันล้านพารามิเตอร์ แต่ก็ยังเหนือกว่า Qwen3.5-397B-A17B ในเบนช์มาร์ก agentic coding หลักทั้งหมด
- โครงสร้างเรียบง่ายต่อการดีพลอยและให้บริการ และสาย โอเพนซอร์ส Qwen3.6 ก็มีชุดโมเดลที่ครอบคลุมยิ่งขึ้นด้วยการเพิ่ม Qwen3.6-27B
4 ความคิดเห็น
อย่างน้อยถ้าเป็น a3b ก็ยังพอรันบนเครื่องโลคัลได้บ้าง 555
เขาว่าคะแนนเบนช์มาร์กออกมาดี แต่พอใช้งานจริงก็ยังดูไม่ถึงระดับที่เอามาใช้เป็นโค้ดดิ้งเอเจนต์ได้อย่างจริงจังนะครับ
ผมลองใช้แล้วและไม่มีปัญหาใหญ่กับการโค้ดแบบเอเจนติก แต่ตามที่บอก การใช้งานจริง+การโค้ดทั่วไปก็ยังด้อยกว่าโมเดลที่มีพารามิเตอร์ใหญ่กว่าอย่างหลีกเลี่ยงไม่ได้ ค่าการตั้งค่าต่าง ๆ ก็แตกต่างจาก 3.5 และยังมีการเพิ่มโหมด
preserve_thinkingเข้ามาด้วย โปรดใช้เป็นข้อมูลอ้างอิง หากเป็นการควอนไทซ์ 4 บิตของ 27B ก็ไม่มีปัญหาในการใช้งานบนเครื่องโลคัลครับความเห็นจาก Hacker News
unsloth/Qwen3.6-27B-GGUF:Q4_K_Mกับllama-serverส่วนโมเดล 35B-A3B ได้ราว 25 t/s เทียบกันแล้วบน A100 ได้ประมาณ 41 t/s กับ 97 t/s ตามลำดับ ผมยังไม่ได้ทดสอบ 27B แบบยาวๆ แต่ 35B-A3B มักหลุดบ่อยเมื่อ context เกิน 15k~20k โทเคน งานพื้นฐานสั่งได้ค่อนข้างเสถียร แต่คงยังเรียกระดับ frontier model ไม่ได้