Qwen3.6-35B-A3B: เปิดเผยประสิทธิภาพการเขียนโค้ดแบบเอเจนต์สำหรับผู้ใช้ทุกคน

(qwen.ai)

4 คะแนน โดย GN⁺ 14 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นโมเดลโอเพนซอร์สที่ใช้สถาปัตยกรรม Sparse Mixture-of-Experts (MoE) โดยจากทั้งหมด 35 พันล้านพารามิเตอร์ จะมีการเปิดใช้งานเพียง 3 พันล้านพารามิเตอร์ ทำให้ได้ทั้งประสิทธิภาพและสมรรถนะพร้อมกัน
เมื่อเทียบกับรุ่นก่อนหน้า ความสามารถด้าน การเขียนโค้ดแบบเอเจนต์ ดีขึ้นอย่างมาก และมีระดับที่สามารถแข่งขันกับโมเดล dense ขนาดใหญ่อย่าง Qwen3.5-27B หรือ Gemma4-31B ได้
ทำคะแนนสูงใน เบนช์มาร์กด้านการเขียนโค้ด หลัก ๆ เช่น SWE-bench, Terminal-Bench และ Claw-Eval และยังทำผลงานด้านงานมัลติโมดัลได้ในระดับ Claude Sonnet 4.5
เปิดให้เข้าถึงทั้ง น้ำหนักโมเดลแบบสาธารณะและ API ผ่าน Alibaba Cloud Model Studio API, Hugging Face และ ModelScope พร้อมรองรับการเชื่อมต่อกับเครื่องมือเขียนโค้ดหลากหลาย เช่น OpenClaw และ Claude Code
นำเสนอ มาตรฐานใหม่ของโมเดลโอเพนที่มีประสิทธิภาพ ด้วยพารามิเตอร์ที่เปิดใช้งานเพียง 3 พันล้านตัว แต่ให้สมรรถนะทัดเทียมโมเดลขนาดใหญ่

ภาพรวมของ Qwen3.6-35B-A3B

Qwen3.6-35B-A3B เป็นโมเดล Sparse Mixture-of-Experts (MoE) ที่มีการเปิดใช้งานเพียง 3 พันล้านพารามิเตอร์จากทั้งหมด 35 พันล้านพารามิเตอร์ เป็นโมเดลโอเพนซอร์สที่มีทั้งประสิทธิภาพและสมรรถนะ
เมื่อเทียบกับเวอร์ชันก่อนหน้าอย่าง Qwen3.5-35B-A3B ประสิทธิภาพด้าน agentic coding ดีขึ้นอย่างมาก และอยู่ในระดับที่แข่งขันกับโมเดล dense ขนาดใหญ่อย่าง Qwen3.5-27B หรือ Gemma4-31B ได้
รองรับทั้ง โหมดการให้เหตุผลแบบมัลติโมดัลและโหมดไม่ให้เหตุผล และเปิดให้ใช้งานผ่าน Qwen Studio, API, Hugging Face และ ModelScope
สามารถใช้งานโมเดลแบบโต้ตอบได้ใน Qwen Studio เรียกใช้งานผ่าน Alibaba Cloud Model Studio API(qwen3.6-flash) หรือโฮสต์ใช้งานเองได้โดยตรง

การประเมินประสิทธิภาพ

ประสิทธิภาพด้านภาษาและการเขียนโค้ด
- Qwen3.6-35B-A3B ใช้พารามิเตอร์ที่เปิดใช้งานเพียง 3 พันล้านตัว แต่ทำผลงานเหนือกว่า Qwen3.5-27B (โมเดล dense 27 พันล้านพารามิเตอร์) ในหลายเบนช์มาร์กการเขียนโค้ดหลัก
- ทำคะแนนสูง เช่น SWE-bench Verified 73.4, Terminal-Bench 51.5 และค่าเฉลี่ย Claw-Eval 68.7
- ใน QwenWebBench (เบนช์มาร์กการสร้างโค้ดเว็บ) ทำได้ 1397 คะแนน ซึ่งอยู่ในระดับสูงสุดของโมเดลกลุ่มเดียวกัน
- ในเบนช์มาร์กเอเจนต์ทั่วไป (MCPMark, MCP-Atlas, WideSearch เป็นต้น) ก็ให้ผลลัพธ์ที่ดีกว่าโมเดลคู่แข่ง
- ยังรักษาความแม่นยำสูงในงานด้านความรู้และการให้เหตุผล เช่น MMLU-Pro, GPQA และ AIME26
สภาพแวดล้อมการประเมิน
- ชุด SWE-Bench ถูกประเมินบนพื้นฐาน internal agent scaffold (เครื่องมือ bash + file-edit) ภายใต้ context window ขนาด 200K
- Terminal-Bench 2.0 ใช้ข้อจำกัดเวลา 3 ชั่วโมง ในสภาพแวดล้อม 32 CPU/48GB RAM และคิดค่าเฉลี่ยจาก 5 รอบ
- SkillsBench ประเมินจาก 78 งาน โดยตัดงานที่พึ่งพา API ออก
- QwenClawBench และ QwenWebBench เป็นเบนช์มาร์กภายในที่อิงจากการกระจายการใช้งานจริง จึงสะท้อนสภาพแวดล้อมของผู้ใช้จริง
ประสิทธิภาพด้านวิชัน-ภาษา
- Qwen3.6-35B-A3B เป็น โมเดลมัลติโมดัลโดยธรรมชาติ ที่ให้สมรรถนะระดับ Claude Sonnet 4.5 ได้ด้วยพารามิเตอร์ที่เปิดใช้งานเพียง 3 พันล้านตัว
- แสดงจุดแข็งด้าน spatial intelligence ด้วยคะแนน RefCOCO (การรับรู้เชิงพื้นที่) 92.0 และ ODInW13 50.8
- ทำคะแนนสูงในงานวิชัน-ภาษาหลากหลาย เช่น RealWorldQA 85.3, MMBench EN-DEV 92.8 และ OmniDocBench1.5 89.9
- ในเบนช์มาร์กความเข้าใจวิดีโอ (VideoMME, VideoMMMU, MLVU เป็นต้น) ก็ยังคงทำคะแนนได้ในช่วง 80~86 อย่างสม่ำเสมอ

การใช้งาน Qwen3.6-35B-A3B

การปรับใช้และการเข้าถึง
- ใช้งานได้ผ่าน Alibaba Cloud Model Studio API(qwen3.6-flash) และดาวน์โหลด น้ำหนักโมเดลแบบเปิด ได้จาก Hugging Face และ ModelScope
- ทดลองใช้งานได้ทันทีใน Qwen Studio และรองรับการเชื่อมต่อกับ ผู้ช่วยเขียนโค้ดจากภายนอก เช่น OpenClaw, Claude Code และ Qwen Code
การใช้งาน API
- รองรับฟังก์ชัน preserve_thinking เพื่อคงเนื้อหาการคิด (thinking) จากบทสนทนาก่อนหน้าไว้ จึงเหมาะกับ งานแบบเอเจนต์
- Alibaba Cloud Model Studio มี chat completions API ที่เข้ากันได้กับสเปกของ OpenAI และ Anthropic API
- ในโค้ดตัวอย่าง สามารถใช้ตัวเลือก enable_thinking เพื่อแยกการแสดง reasoning trace และคำตอบสุดท้ายออกจากกันได้
การเชื่อมต่อ OpenClaw
- Qwen3.6-35B-A3B เข้ากันได้กับ OpenClaw (เดิมชื่อ Moltbot/Clawdbot) และสามารถเชื่อมต่อกับ Model Studio เพื่อมอบสภาพแวดล้อมการเขียนโค้ดแบบเอเจนต์บนเทอร์มินัล
- ใช้งานโดยรวมข้อมูล API ของ Model Studio เข้าไปในไฟล์ตั้งค่า (~/.openclaw/openclaw.json)
- ติดตั้งและรันได้ในสภาพแวดล้อม Node.js 22 ขึ้นไป
การเชื่อมต่อ Qwen Code
- ใช้งานร่วมกับ Qwen Code (โอเพนซอร์ส AI agent สำหรับเทอร์มินัลที่ปรับแต่งมาสำหรับซีรีส์ Qwen) ได้อย่างสมบูรณ์
- ติดตั้งบน Node.js 20 ขึ้นไป และทำขั้นตอนยืนยันตัวตนด้วยคำสั่ง /auth
การเชื่อมต่อ Claude Code
- เนื่องจากรองรับโปรโตคอล Anthropic API จึงสามารถใช้งานใน Claude Code ได้โดยตรง
- ตั้งค่าตัวแปรสภาพแวดล้อม ANTHROPIC_MODEL="qwen3.6-flash" แล้วจึงเรียกใช้ CLI

สรุปและแนวโน้ม

Qwen3.6-35B-A3B พิสูจน์ให้เห็นว่า ความสามารถด้านการเขียนโค้ดแบบเอเจนต์และการให้เหตุผล สามารถทัดเทียมโมเดล dense ขนาดใหญ่ได้ แม้ใช้ สถาปัตยกรรม Sparse MoE
ด้วยพารามิเตอร์ที่เปิดใช้งานเพียง 3 พันล้านตัว จึงได้ทั้งประสิทธิภาพและสมรรถนะ พร้อมผลลัพธ์ที่โดดเด่นในเบนช์มาร์กมัลติโมดัล
มีการเปิดเผยเป็นเช็กพอยต์โอเพนซอร์สเต็มรูปแบบ และนำเสนอ มาตรฐานใหม่ของโมเดลโอเพนที่มีประสิทธิภาพ
ทีม Qwen มีแผนจะขยายตระกูลโอเพนซอร์ส Qwen3.6 อย่างต่อเนื่อง และคาดหวังต่อฟีดแบ็กและการนำไปใช้งานจากชุมชน

ข้อมูลอ้างอิง

@misc{qwen36_35b_a3b, title = {Qwen3.6-35B-A3B: Agentic Coding Power, Now Open to All}, url = {https://qwen.ai/blog?id=qwen3.6-35b-a3b}, author = {Qwen Team}, month = {April}, year = {2026}}

1 ความคิดเห็น

GN⁺ 14 일 전

ความคิดเห็นจาก Hacker News

ฉันลองรันเวอร์ชัน Unsloth 20.9GB GGUF บนโน้ตบุ๊กด้วย LM Studio
ลิงก์โมเดล
น่าแปลกที่มันวาด นกเพลิแกนขี่จักรยาน ได้ดีกว่า Opus 4.7
ดู โพสต์เปรียบเทียบของ Simon Willison
- ฉันลองทำซ้ำด้วยโมเดลเดียวกันแล้ว (M1 Max 64GB, ไม่ถึง 90 วินาที) — ภาพผลลัพธ์
  ผลลัพธ์ของฉันมี ดวงอาทิตย์กับเมฆ บนท้องฟ้า หญ้าเป็นเส้นสีเขียวบาง ๆ และเอฟเฟกต์ ดวงอาทิตย์มีรัศมี
  มีการแสดง “กระแสอากาศ” คล้ายกับของ Simon ด้วย แต่สุดท้ายสิ่งสำคัญก็คือเพลิแกนกับจักรยาน
- ฉันลองเพราะมีลิงก์ GGUF ให้
  ใช้มันในโปรเจกต์ Shoggoth.db สำหรับงาน สำรวจ wiki + สร้าง DB อัตโนมัติ
  รู้สึกได้ว่าความสามารถในการสำรวจสิ่งมีชีวิตใหม่ ๆ ดีขึ้นจาก Qwen3.5
  ความเร็วก็เพิ่มเป็นราว 140 token/s และทำงานได้เสถียรบน RTX 4090 โดยไม่ต้อง offload หน่วยความจำ
  แต่ต้องใช้ตัวเลือก --no-mmproj-offload เพื่อเลี่ยงปัญหาชนกันของมัลติโหมด
- สงสัยว่าเมื่อไรการทดสอบอย่าง “เพลิแกนขี่จักรยาน” จะหมดประโยชน์
  เดิมทีตั้งใจใช้ พรอมป์ต์ประหลาด ที่ไม่มีใครคิดถึงเพื่อวัดความคิดสร้างสรรค์ของโมเดล แต่ตอนนี้เริ่มรู้สึกว่ามันกลายเป็นเบนช์มาร์กภายในไปแล้ว
- ฉันไม่เข้าใจว่าทำไมภาพฟลามิงโกของ Qwen ถึงชนะ
  มันนั่งอยู่บนยาง ตำแหน่งจะงอยปากก็แปลก และ สัดส่วนซี่ล้อกับขา ก็ดูไม่เป็นธรรมชาติ
  แว่นกันแดดยังโปร่งแสงจนเห็นตาแค่ข้างเดียว
  มันน่ารักก็จริง แต่พวก หูกระต่ายและเครื่องประดับ ที่ไม่ได้ขอกลับเป็นจุดหักคะแนนสำหรับฉัน
  ผลลัพธ์ของ Opus อาจหวือหวาน้อยกว่า แต่แม่นยำกว่า
- ยิ่งดูภาพมากเท่าไร ก็ยิ่งรู้สึกว่า world model ยังเป็นชิ้นส่วนปริศนาที่ขาดหายอยู่
  สุดท้ายแล้วโมเดลตอนนี้ก็ยังเป็นเพียง ตัวสร้างประโยคเชิงความน่าจะเป็น เท่านั้น
ดีใจที่ทีม Qwen ยังปล่อย open weights ออกมาต่อเนื่อง
ข่าวที่เกี่ยวข้อง 1, ข่าว 2
น่าประทับใจที่โปรเจกต์ยังเดินหน้าต่อได้แม้หลังจากบุคลากรหลักอย่าง Junyang Lin และคนอื่น ๆ ออกไป
- นี่เป็นเพียงหนึ่งในซีรีส์ Qwen 3.6
  โมเดลขนาดเล็กน่าจะถูกปล่อยตามมาเร็ว ๆ นี้ แต่ดูเหมือนว่า โมเดลหลัก 397A17B จะไม่รวมอยู่ด้วย
- ส่วนตัวฉันอยากให้ปล่อย open weights ของ qwen-image 2.0
Unsloth มีเวอร์ชันที่ทำ quantization และแปลงรูปแบบ เสร็จแล้วอยู่แล้ว
ลิงก์ Hugging Face
- Unsloth มักอัป quants สำหรับทดลองได้เร็ว แต่ เวอร์ชันทันทีหลังเปิดตัวมักถูกแก้ไขทีหลัง
  ควรรอสักประมาณหนึ่งสัปดาห์แล้วค่อยกลับไปเช็กเพื่อให้ได้เวอร์ชันที่นิ่งกว่า
  บางครั้งบั๊กช่วงแรกก็ทำให้โมเดลดี ๆ ถูกประเมินต่ำเกินไป
- สงสัยว่าทำไม Qwen ไม่ปล่อยโมเดล quantized เอง
  ฉันคิดว่า กระบวนการทำ quantization ซับซ้อนและมีความเสี่ยงด้านคุณภาพ ดังนั้นให้นักพัฒนาต้นฉบับทำเองน่าจะดีกว่า
  เวอร์ชัน quant ที่ผิดพลาดอาจทำลายชื่อเสียงของโมเดลได้
- อยากรู้ว่าต้องใช้ VRAM เท่าไร รันบน GPU 16GB ได้ไหม
- สงสัยว่า quantization พื้นฐานของ Qwen แย่ตรงไหน Unsloth คือใคร
  และ ข้อดีของฟอร์แมตที่ดี คืออะไร
  ถ้าอธิบายแนวคิดของ quantization เองด้วยก็คงดี
- สงสัยว่าใช้โมเดลนี้ผ่านคำสั่ง ollama run claude ได้ไหม
ดีใจที่ทีม Qwen ปล่อยรุ่นนี้ออกมา
โมเดลเขียนโค้ด open-weight ขนาดเล็ก มีประโยชน์สำหรับการสร้างเอเจนต์แบบปรับแต่งเองให้ทีมพัฒนาในบางอุตสาหกรรม เช่น การเงินหรือเฮลท์แคร์ ที่มีข้อจำกัดเรื่องการเข้าถึงคลาวด์
ในฝั่งตะวันตกแทบไม่มีใครทำตลาดนี้เลย โดยดูเหมือนมีแค่ Mistral ที่เป็นข้อยกเว้น
- Mistral ดูเหมือนเป็นบริษัทเดียวที่มุ่งหา โมเดลธุรกิจที่ยั่งยืน
  บริษัท AI อื่น ๆ ให้ความรู้สึกว่าเน้นแค่รายได้ระยะสั้น
- โมเดลโอเพนขนาดเล็กก็สนุกดี แต่ คนละระดับกับโมเดลโฮสต์ขนาดใหญ่
  ถ้าจะทำงานจริงจัง ก็ควรลงทุนกับฮาร์ดแวร์ที่สามารถรันโมเดลใหญ่กว่าได้เอง
- เห็นด้วย แต่โมเดลเล็กแบบนี้ยังไม่พอสำหรับงานอุตสาหกรรมจริง
  ด้วยอุปกรณ์ระดับราว 100,000 ดอลลาร์ ก็สามารถรันโมเดลที่ใหญ่กว่านี้แบบ on-premise ได้
- การทำโมเดล open-weight ที่แข่งได้เป็นเรื่องยอดเยี่ยม แต่ ต้นทุนสูงเกินไป
- ในอุตสาหกรรมที่มีการกำกับดูแล ฉันสงสัยว่าจะตรวจสอบอย่างไรว่าโมเดล ไม่ได้ฝึกจากข้อมูลที่เป็นอันตราย
ลักษณะ language embedding ของ Qwen น่าสนใจมาก
ทวีตวิเคราะห์ที่เกี่ยวข้อง
เขาบอกว่า Qwen อยู่ใน basin ที่เน้นการสอบ ต่างจากโมเดลอื่น
มีผู้บริหารของ Qwen ไปตั้งโพลบนทวิตเตอร์ถามว่าอยากเห็นโมเดลไหนเป็นโอเพนซอร์ส
แม้ว่า เวอร์ชัน 27B จะได้ความนิยมสูงสุด แต่ก็ยังไม่ถูกปล่อยออกมา
- มีความเป็นไปได้ว่าจะค่อย ๆ ปล่อยตามลำดับผ่าน กระบวนการ distillation แบบตอน 3.5
  โครงสร้าง A3B ทำให้ distill ได้เร็ว จึงอาจมาเร็ว ๆ นี้
- 27B เป็น โมเดล dense เลยดึงดูดทางการตลาดน้อยกว่า 35A3B
  รุ่นหลังเร็วกว่าและให้ความรู้สึกว่า “ฉลาด” กว่า
- น่าจะปล่อยเร็ว ๆ นี้แหละ
- ส่วนตัวฉันคิดว่า สถาปัตยกรรม MoE ไม่มีประสิทธิภาพ
  ถ้าใช้ VRAM เท่ากัน โมเดล dense 27B จะจัดการคอนเท็กซ์ที่ใหญ่กว่าได้ จึงน่าจะให้คุณภาพดีกว่า
ฉันใช้ Qwen3.5-35B-A3B ในการทดสอบบนเครื่องตัวเองมาเยอะมาก
มันเป็นโมเดลที่ทรงพลังที่สุดในบรรดาที่เครื่องฉันรันไหว
โดยเฉพาะ quant เวอร์ชัน Mudler APEX-I-Quality กับ Byteshape Q3_K_S-3.40bpw ที่น่าประทับใจมาก
บน RTX 3060 12GB มีหน่วยความจำเหลือมากขึ้นและความเร็วก็เพิ่มเป็นเกิน 40 t/s
- พอลองหลายงานแล้ว Qwen3.6 คือการก้าวกระโดดครั้งใหญ่จาก 3.5
  มันสามารถปรับปรุงโปรเจกต์ที่ก่อนหน้านี้เคยติดขัดได้ด้วยตัวเอง
- สงสัยว่า quant เวอร์ชันไหนดีที่สุด
ฉันรอคอย การปล่อยซอฟต์แวร์ AI แบบนี้มากที่สุด
ไม่มีการตลาดแบบปั่นความเสี่ยง ไม่มีค่าสมัครสมาชิก เป็นแค่โมเดลที่อยากลองใช้อย่างแท้จริง
- ฉันก็คิดเหมือนกัน ในอนาคตอันใกล้หวังว่า โมเดลโลคัลและประสิทธิภาพฮาร์ดแวร์ จะดีขึ้นพอ
  จนใช้งานได้จริงสำหรับกรณีใช้งานส่วนใหญ่
สงสัยว่าคนเอาโมเดลโลคัลแบบนี้ไปใช้จริงกันอย่างไร
อยากรู้ว่ามันมีคุณค่าอะไรเมื่อเทียบกับการเช่าโทเค็นของ Anthropic หรือ OpenAI
- ฉันใช้ Qwen3.5-9B กับงาน ดึงตารางจาก OCR แบบโลคัล
  เพราะรูปแบบเอกสารแตกต่างกันมาก แต่ก่อนต้องใช้ pipeline แบบอิงกฎที่ซับซ้อน
  ตอนนี้ใช้ ความสามารถมัลติโหมด เพื่อดึงข้อมูลแบบผสานภาษา+ภาพได้แล้ว
- ฉันใช้ Qwen3.5-4B ร่วมกับ FOSS NVR ชื่อ Frigate
  มันดีพอสำหรับงานวิเคราะห์วิดีโอ ส่วนสรุปข้อความหรือแปลภาษาค่อยให้โมเดลใหญ่กว่าจัดการ
  ถ้าไม่ใช่งานเรียลไทม์ คุณภาพสำคัญกว่าความเร็ว จึงเหมาะกับ การประมวลผลแบบแบตช์
- ฉันไม่อยากใช้ โมเดลเช่าโทเค็นไปตลอดชีวิต
  ฉันต้องการโมเดล self-hosted ที่ เป็นส่วนตัวอย่างสมบูรณ์
  ฉันเบื่อที่ SaaS ปิดบริการ แล้วคิดว่า LLM สุดท้ายก็ควรไปจบที่การโฮสต์เอง
- ฉันใช้ vLLM + qwen3-coder-next ประมวลผลเอกสารหลายล้านฉบับแบบแบตช์
  ใช้งาน GPU ได้ 100% โดยไม่มีข้อจำกัดเรื่องโทเค็นหรือความเร็ว
- ไม่ใช่ทุกงานที่จะต้องใช้โมเดลระดับ SOTA
  เช่น ฉันใช้ Gemma 4 เป็นตัวแปลออฟไลน์บน iPhone
  ซึ่งเร็วและแม่นยำกว่า Apple Translate
  งานเล็ก ๆ อย่าง การแก้ JSON โมเดลโลคัลมีประสิทธิภาพกว่ามาก

Qwen3.6-35B-A3B: เปิดเผยประสิทธิภาพการเขียนโค้ดแบบเอเจนต์สำหรับผู้ใช้ทุกคน

ภาพรวมของ Qwen3.6-35B-A3B

การประเมินประสิทธิภาพ

ประสิทธิภาพด้านภาษาและการเขียนโค้ด

สภาพแวดล้อมการประเมิน

ประสิทธิภาพด้านวิชัน-ภาษา

การใช้งาน Qwen3.6-35B-A3B

การปรับใช้และการเข้าถึง

การใช้งาน API

การเชื่อมต่อ OpenClaw

การเชื่อมต่อ Qwen Code

การเชื่อมต่อ Claude Code

สรุปและแนวโน้ม

ข้อมูลอ้างอิง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News