- ผู้สืบทอดจาก Qwen3.6-Plus โดยเมื่อเทียบกับรุ่นก่อนหน้า ได้ปรับปรุง การเขียนโค้ดแบบเอเจนต์ พร้อมทั้งเสริมความแข็งแกร่งด้านความรู้เกี่ยวกับโลกและความสามารถในการทำตามคำสั่ง
- ทำ คะแนนสูงสุด ใน 6 เบนช์มาร์กการเขียนโค้ดหลัก ยืนยันการยกระดับประสิทธิภาพของเอเจนต์เขียนโค้ดอย่างมาก
- รองรับฟีเจอร์ preserve_thinking ซึ่งใช้วิธีเก็บกระบวนการคิดจากเทิร์นก่อนหน้าไว้ในข้อความระหว่างงานแบบเอเจนต์
- ในเบนช์มาร์กด้านความรู้เกี่ยวกับโลกมีการปรับปรุง เช่น SuperGPQA +2.3, QwenChineseBench +5.3 และด้านการทำตามคำสั่งทำได้ ToolcallFormatIFBench +2.8
- สามารถทดสอบแบบโต้ตอบได้ใน Qwen Studio และจะเรียกใช้งานผ่าน API ของ Alibaba Cloud Model Studio ด้วย
qwen3.6-max-preview
การปรับปรุงหลัก
- เมื่อเทียบกับ Qwen3.6-Plus ความสามารถด้าน การเขียนโค้ดแบบเอเจนต์ ดีขึ้นอย่างมาก: SkillsBench +9.9, SciCode +6.3, NL2Repo +5.0, Terminal-Bench 2.0 +3.8
- เสริม ความรู้เกี่ยวกับโลก (world knowledge): SuperGPQA +2.3, QwenChineseBench +5.3
- ปรับปรุง การทำตามคำสั่ง (instruction following): ToolcallFormatIFBench +2.8
- ทำคะแนนสูงสุดใน 6 เบนช์มาร์กการเขียนโค้ดหลัก: SWE-bench Pro, Terminal-Bench 2.0, SkillsBench, QwenClawBench, QwenWebBench, SciCode
คุณลักษณะของโมเดลและแนวทางการเข้าถึง
- เป็น โมเดลโฮสต์แบบปิดเฉพาะ ที่ให้บริการผ่าน Alibaba Cloud Model Studio
- ปรับปรุงประสิทธิภาพของเอเจนต์ในโลกจริง (real-world agent) และ ความน่าเชื่อถือของความรู้ (knowledge reliability)
- สามารถทดสอบแบบโต้ตอบได้ทันทีใน Qwen Studio
- ชื่อโมเดลสำหรับ API คือ
qwen3.6-max-previewและจะพร้อมใช้งานใน Alibaba Cloud Model Studio API เร็ว ๆ นี้
การใช้งาน API และฟีเจอร์
- รองรับ โปรโตคอลมาตรฐานอุตสาหกรรม เช่น OpenAI-compatible chat completions และ responses API รวมถึงอินเทอร์เฟซที่เข้ากันได้กับ Anthropic
- ผ่านฟีเจอร์
preserve_thinkingสามารถเก็บ กระบวนการให้เหตุผล (reasoning content) จากเทิร์นก่อนหน้าไว้ได้ และแนะนำให้ใช้กับงานแบบเอเจนต์ - เมื่อตั้งค่า
enable_thinking: Trueจะสามารถรับเนื้อหาการให้เหตุผลและคำตอบแบบ สตรีมมิงแยกกัน ได้ - มี Base URL ของ API ให้ตามภูมิภาค: ปักกิ่ง, สิงคโปร์, สหรัฐอเมริกา (เวอร์จิเนีย)
สถานะการพัฒนา
- ขณะนี้อยู่ในขั้น พรีวิวรีลีส และยังคงปรับปรุงแบบวนซ้ำอย่างต่อเนื่อง โดยมีแผนปรับปรุงเพิ่มเติมในเวอร์ชันถัดไป
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
รู้สึกตลกนิด ๆ ที่คนหมกมุ่นกับการเทียบ SOTA กันอย่างเดียว ผมเคยเห็นกรณีที่ glm 5.1 ทำสิ่งที่ Opus ทำไม่ได้ และก็เคยเจอมันเขียนโค้ดได้ดีกว่าด้วย ยังไม่ได้ลอง qwen max แต่ก็เคยเห็นโมเดล local 122b อ่านเอกสารได้ดีกว่าและประมวลผลได้แม่นยำกว่า สุดท้ายแล้ว benchmark ก็เป็นแค่ส่วนหนึ่งเท่านั้น ในการใช้งานจริงแต่ละโมเดลมี จุดแข็ง ต่างกัน เลยคิดว่าไม่ควรพูดเหมือนกำลังเทียบค้อนกับประแจแบบตัดสินแพ้ชนะกันตรง ๆ
ที่บริษัทผมใช้ Claude Code ต่อเนื่องมาหลายเดือนแล้ว และไม่นานมานี้ก็ใช้กับโปรเจกต์เว็บไซต์ส่วนตัวเล็ก ๆ ได้ดีมากด้วย สุดสัปดาห์ก่อนเพิ่งลอง self-hosting เป็นครั้งแรก เลยสงสัยว่ามีใครที่ลองใช้ CC หรือ Codex มามากพอแล้ว และหาคอนฟิกแบบโฮสต์เองที่น่าพอใจได้หรือยัง ผมลองหลายแบบบนเครื่อง 32GB DDR5, AMD 7800X3D, RTX 4090, Windows กับ WSL โดยทดสอบการจับคู่ ollama, docker desktop model runner, pi-coding-agent, opencode กับ Gemma 4, Qwen, GLM-5.1 หลายชุด RAM พื้นฐานก็ใช้ไปเยอะอยู่แล้วเลยรันโมเดลดี ๆ อย่าง Gemma4-31B ไม่ได้ บน Windows ล้วน ๆ ปัญหาเรื่อง path ของไฟล์เพี้ยนบ่อย ส่วนการรัน pi หรือ opencode บน WSL แล้วให้โมเดลทำงานผ่าน docker desktop นั้นสำเร็จได้ระดับหนึ่ง แต่ประสิทธิภาพที่สัมผัสได้จริงก็ช้ากว่า CC มาก และในแง่ความสมบูรณ์ของเครื่องมือก็รู้สึกว่า CC harness ดีกว่ามาก ผมเสียเวลากับการเซ็ตอัปไปเยอะเกินจนยังไม่ได้ใช้งานจริงนานนัก แต่ก็ยังเป็นการทดลองที่สนุก
ผมกังวลว่าทิศทางของวงการนี้จะเป็นแบบ ปล่อยของฟรีก่อนเพื่อสร้างชื่อ แล้วค่อยเปลี่ยนทั้งหมดเป็น proprietary ทีหลัง ถึงอย่างนั้นก็ยังอยากให้มี open weights ออกมาต่อไป ถ้าวันไหนไม่มีใครปล่อย open weights เลยคงรู้สึกหดหู่มาก ถ้าโลกเป็นแบบนั้น คนทั่วไปก็น่าจะยิ่งถือครอง compute ของตัวเองได้ยากขึ้น
วันนี้ Kimi K2.6 ก็ออกมาพร้อมกันด้วย เลยรู้สึกว่าเอามาเทียบกันเป็นเรื่องธรรมชาติมาก แค่ดูราคาก็เห็นว่า Qwen คิดค่า input 1.3 ดอลลาร์ output 7.8 ดอลลาร์ แต่ Kimi คิด input 0.95 ดอลลาร์ output 4 ดอลลาร์ เลยดูว่า Qwen แพงกว่า ในโพสต์ประกาศก็มี benchmark ที่ทับกันอยู่แค่สองตัว และทั้ง SWE-Bench Pro กับ Terminal-Bench 2.0 ก็เป็น Kimi ที่ได้สูงกว่า Qwen เล็กน้อย แน่นอนว่าแต่ละโมเดลมีจุดแข็งต่างกันและ benchmark ไม่ใช่ทั้งหมด แต่ถ้าดูแค่ตัวเลข Kimi ก็ดูน่าสนใจกว่า
ความย้อนแย้งของประกาศนี้ผมว่ามันอยู่ในชื่อเองเลย Max-Preview เป็น proprietary และมีแค่บนคลาวด์ สำหรับผม Qwen ที่สำคัญจริง ๆ คือซีรีส์ open weights ที่คนเอาไปรันบนฮาร์ดแวร์ของตัวเอง ผมรัน 32B กับ 72B แบบ local บน dual A4000 อยู่ ช่องว่างกับ Max แบบ hosted ยังมีอยู่ แต่ก็เห็นชัดว่ามันแคบลงทุกครั้งที่มีรุ่นใหม่ออกมา เพราะงั้นคำถามที่น่าสนใจจริง ๆ ไม่ใช่ว่า Max เทียบกับ Opus ยังไง แต่คือเมื่อไร open-weight tier จะทำให้ cloud tier แทบไม่มีความหมายสำหรับงานส่วนใหญ่
ระหว่างที่ทุกคนไล่ตาม SOTA กันอยู่ ผมใช้ MiniMax M2.5 รันหลายเซสชันพร้อมกันและทำงานเขียนโค้ดทั้งหมดได้ในราคา 10 ดอลลาร์ต่อเดือน แทบไม่ชนลิมิตเลย
ผมอ่าน เอกสาร context caching ของ Qwen แล้วก็ทดสอบ Opus, Codex และ Qwen ด้วยกัน รู้สึกว่า Qwen แข็งแกร่งกับงานเขียนโค้ดหลายแบบจริง แต่สิ่งที่ผมให้ความสำคัญที่สุดคือพฤติกรรมใน เซสชันยาว ๆ Qwen ชูเรื่อง context window ใหญ่ก็จริง แต่ประสิทธิภาพใน long context จริง ๆ ดูจะขึ้นกับวิธีทำ context caching มาก เอกสารทางการบอกว่ามีทั้ง implicit และ explicit caching แต่ TTL สั้นแค่ระดับไม่กี่นาที และยังมีข้อจำกัดอย่างการจับคู่แบบ prefix กับเงื่อนไขจำนวนโทเค็นขั้นต่ำ ด้วยข้อจำกัดพวกนี้ ในเวิร์กโฟลว์อย่าง coding agent ที่บริบทโตขึ้นเรื่อย ๆ การนำแคชกลับมาใช้ซ้ำอาจไม่ได้ผลดีอย่างที่หวัง เพราะงั้นต่อให้ราคาต่อโทเค็นดูต่ำ แต่ในเซสชันยาว cache hit rate อาจตกและมีการคำนวณซ้ำมากขึ้น จนรู้สึกว่าค่าใช้จ่ายจริงสูงกว่าได้ ถึงอย่างนั้นในงานด้านความปลอดภัยบางอย่างผมก็เคยเห็น Qwen ทำได้ดีกว่า Opus จากประสบการณ์ของผม Qwen ทำงานสั้น ๆ ระดับเมธอดหรือฟังก์ชันได้ดีกว่า Opus มาก แต่ถ้ามองประสบการณ์เขียนโค้ดโดยรวม มันยังให้ความรู้สึกเหมือน ตัวสร้างระดับฟังก์ชัน มากกว่าจะเป็นผู้ช่วยเขียนโค้ด end-to-end แบบอัตโนมัติอย่าง Claude
พอเห็น Qwen เอาไปเทียบกับ Opus 4.5 ก็รู้สึกว่ายากจะรับในแง่เจตนาดี ถึงจะเข้าใจได้ที่ไม่มี Opus 4.7 เพราะใหม่มาก แต่ Opus 4.6 ออกมานานพอสมควรแล้ว
พอมองผู้ให้บริการจีนช่วงนี้ ผมรู้สึกว่าเห็นแพตเทิร์นอยู่ อย่างแรกคือพวกเขากำลังมุ่งไปทางคงโมเดลไว้เป็น closed source และอย่างที่สองคือขึ้นราคาค่อนข้างแรง บางกรณีขึ้นเกือบ 100 เปอร์เซ็นต์เลย
เรื่องที่น่าสนใจคือ คุณอาจรู้จัก ตระกูลโมเดล Qwen ที่รัน local ได้ทั้งหมด แต่กลับไม่รู้เรื่องโมเดลคลาวด์ของมันเลย ผมเองรู้จักแค่สาย 3.5 กับ 3.6 อยู่ตัวหนึ่ง แล้วชื่อ Plus ก็เพิ่งเคยได้ยินครั้งนี้