- โมเดล เน้นการให้เหตุผล รุ่นล่าสุดที่ยกระดับประสิทธิภาพในหลายด้าน เช่น ความรู้เชิงข้อเท็จจริง การให้เหตุผลที่ซับซ้อน และการจัดแนวตามความพึงพอใจของมนุษย์ ผ่านการเรียนรู้แบบเสริมกำลังขนาดใหญ่และการขยายพารามิเตอร์
- ทำผลลัพธ์ได้ใกล้เคียงหรือเหนือกว่าในบางด้านเมื่อเทียบกับ GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro เป็นต้น ใน 19 เบนช์มาร์ก
- ด้วยความสามารถ adaptive tool use จึงสามารถเรียกใช้การค้นหา หน่วยความจำ และ code interpreter ระหว่างบทสนทนาได้โดยอัตโนมัติ พร้อมช่วย ลดอาการหลอนข้อมูลและเข้าถึงข้อมูลแบบเรียลไทม์
- ใช้กลยุทธ์ test-time scaling เพื่อลดการคำนวณซ้ำระหว่างการให้เหตุผล และเพิ่มประสิทธิภาพผ่าน กลไกสะสมประสบการณ์บนพื้นฐานการสะท้อนตนเอง
- พร้อมใช้งานได้ทันทีผ่าน Qwen Chat และ API โดย รองรับ OpenAI และ Anthropic API ทำให้นักพัฒนานำไปรวมเข้ากับเวิร์กโฟลว์เดิมได้ง่าย
ภาพรวมของ Qwen3-Max-Thinking
- Qwen3-Max-Thinking คือ โมเดลการให้เหตุผล เรือธงล่าสุดของซีรีส์ Qwen ที่ขยายสมรรถนะด้วยการเรียนรู้แบบเสริมกำลังและทรัพยากรการประมวลผลขนาดใหญ่
- ปรับปรุงในหลายมิติ เช่น ความรู้เชิงข้อเท็จจริง การให้เหตุผลที่ซับซ้อน การทำตามคำสั่ง การจัดแนวตามความพึงพอใจของมนุษย์ และความสามารถแบบเอเจนต์
- ทำผลงานในระดับใกล้เคียงกับ GPT-5.2-Thinking, Claude-Opus-4.5, Gemini 3 Pro ใน 19 เบนช์มาร์กมาตรฐาน
- เสริมความแข็งแกร่งด้วยนวัตกรรมหลัก 2 อย่าง
- adaptive tool-use : เรียกใช้การค้นหาและ code interpreter โดยอัตโนมัติเมื่อจำเป็น
- test-time scaling ขั้นสูง : ใช้การประมวลผลเพิ่มเติมระหว่างการให้เหตุผลอย่างมีประสิทธิภาพ เพื่อให้ได้ประสิทธิภาพเหนือกว่า Gemini 3 Pro
สรุปประสิทธิภาพบนเบนช์มาร์ก
- ในด้าน ความรู้ (knowledge) ได้คะแนนใกล้เคียงโมเดลระดับแนวหน้า เช่น MMLU-Pro 85.7 และ C-Eval 93.7
- ในสาย STEM ได้ GPQA 87.4 และ HLE 30.2 ซึ่งต่ำกว่าบางโมเดล แต่ยังคงรักษาสมดุลของประสิทธิภาพโดยรวม
- ในเบนช์มาร์กด้าน การให้เหตุผล (reasoning) ทำคะแนนสูง เช่น HMMT Nov 25 94.7 และ LiveCodeBench v6 85.9
- ในหมวด การทำตามคำสั่งและการจัดแนว (instruction following & alignment) ทำ Arena-Hard v2 ได้ 90.2 ซึ่งอยู่ในระดับสูงสุด
- ในด้าน การใช้เครื่องมือ (tool use) และ agentic search ก็พบว่ามีบางผลลัพธ์ที่เหนือกว่ารุ่นคู่แข่ง
ความสามารถ adaptive tool use
- แม้ผู้ใช้จะไม่ได้เลือกเครื่องมือเอง โมเดลก็สามารถใช้ Search, Memory, Code Interpreter ได้โดยอัตโนมัติ
- Search และ Memory ช่วยลดอาการหลอนข้อมูล พร้อมรองรับการเข้าถึงข้อมูลแบบเรียลไทม์และการตอบกลับที่ปรับให้เหมาะกับผู้ใช้
- Code Interpreter ช่วยแก้ปัญหาซับซ้อนผ่านการรันโค้ดและการให้เหตุผลที่อิงการคำนวณ
- ความสามารถเหล่านี้ได้รับการเสริมด้วยกระบวนการฝึกเพิ่มเติมที่ผสาน ฟีดแบ็กแบบอิงกฎและอิงโมเดล
- ผลลัพธ์คือประสบการณ์ การสนทนาแบบโต้ตอบ ที่เป็นธรรมชาติและทรงพลัง
กลยุทธ์ test-time scaling
- เป็นวิธีเพิ่มประสิทธิภาพด้วยการ กระจายการประมวลผลเพิ่มเติมระหว่างการให้เหตุผล ซึ่งมีประสิทธิภาพมากกว่าการสุ่มตัวอย่างแบบขนานอย่างง่าย
- วิธีที่นำเสนอใช้แนวทาง หลายรอบบนพื้นฐานการสะท้อนตนเองและการสะสมประสบการณ์ (self-reflective multi-round)
- ผ่านกลไก “take-experience” เพื่อดึงอินไซต์สำคัญจากรอบก่อนหน้า
- ไม่ทำซ้ำข้อสรุปที่ได้ไปแล้ว และ มุ่งเน้นไปที่ความไม่แน่นอนที่ยังไม่ได้คลี่คลาย
- ทำให้ได้ ประสิทธิภาพเชิงบริบท สูงขึ้นภายใต้การใช้โทเค็นเท่าเดิม
- ปรับปรุงจาก GPQA 90.3→92.8, HLE 34.1→36.5, LiveCodeBench v6 88.0→91.4, IMO-AnswerBench 89.5→91.5, HLE(w/ tools) 55.8→58.3
การพัฒนาและการผสาน API
- พร้อมใช้งานได้ทันทีใน Qwen Chat โดยใช้ชื่อโมเดล
qwen3-max-2026-01-23
- ใช้งานได้หลังสร้าง API key ผ่าน Alibaba Cloud Model Studio
- รองรับ OpenAI API อย่างสมบูรณ์ พร้อมตัวอย่างโค้ด Python
- สามารถเปิดโหมดการให้เหตุผลได้ผ่านตัวเลือก
enable_thinking
- ยังรองรับ โปรโตคอล Anthropic API ทำให้ใช้งานในสภาพแวดล้อม Claude Code ได้เหมือนกัน
- หลังตั้งค่าตัวแปรสภาพแวดล้อมแล้ว สามารถรันได้ด้วยคำสั่ง
claude
1 ความคิดเห็น
ความเห็นจาก Hacker News
มีคำถามเกี่ยวกับภาพถ่ายที่มีชื่อเสียงภาพหนึ่ง แต่ระบบตรวจจับว่าเป็น "เนื้อหาไม่เหมาะสม" และส่งข้อผิดพลาดกลับมา ผู้ใช้จึงสงสัยว่าทำไมภาพนี้ถึงมีความสำคัญในระดับนานาชาติ
ช่วงนี้เริ่มสงสัยเรื่อง การใช้โทเคน ของโมเดลต่าง ๆ มากขึ้น การที่ ‘ความสามารถในการให้เหตุผลดีขึ้น’ หรือ ‘ใช้เครื่องมือมากขึ้น’ อาจไม่ใช่การพัฒนาของโมเดลโดยตรง แต่เป็นการใช้โทเคนมากขึ้นเพื่อชี้นำโมเดลให้ดีขึ้น กล่าวคือไม่ใช่ “ใช้น้อยแต่ได้มากขึ้น” แต่เป็น “ใช้มากขึ้นแล้วได้มากขึ้น”
มีคนสงสัยว่าทำไมตอนปิดฟังก์ชันค้นหาจึงด้อยกว่า Opus 4.5 แต่พอเปิดแล้วกลับดีกว่า เป็นเพราะ คุณภาพคอนเทนต์ของอินเทอร์เน็ตจีน ดีกว่าหรือไม่
มีคนสงสัยเรื่อง นโยบายราคา ของโมเดล Qwen ว่าราคาเท่ากับ Qwen Max หรือไม่ และทำไมราคาภายในจีนถึงถูกกว่ามาก
หน้าโมเดล Alibaba Cloud
บทความที่เกี่ยวข้อง
ใน HN มองว่า Opus 4.5 เป็นเหมือน โมเดลมาตรฐาน ไปแล้ว และเชื่อกันว่าโมเดลจีนตามหลังอยู่มากกว่า 8 เดือน จึงมีคนสงสัยว่าโมเดลนี้จะช่วยลดช่องว่างนั้นได้หรือไม่
ส่วน Gemini 3 Pro/Flash ยังต่ำกว่าอยู่หนึ่งระดับ แต่ถ้าเทียบกับปีก่อนก็เร็วขึ้นมากและถูกลงมาก สุดท้ายแล้ว benchmark ก็เป็นเพียงข้อมูลอ้างอิง ส่วนคุณภาพที่สัมผัสได้จริงนั้นเป็นเรื่องอัตวิสัย
เมื่อฤดูใบไม้ร่วงปีก่อน มีคนใช้ Qwen3-coder กับโปรเจกต์ Rust ผ่าน CLI agent trae แล้วพบว่า ความสามารถในการสร้างโค้ดและรีแฟกเตอร์ ดีกว่า Gemini 2.5 Pro และ Claude Opus 3.5
มันจัดการได้แม้กระทั่งการเพิ่ม Linux shared memory IPC call และการทำ x86_64 SIMD optimization แต่เพราะใช้ทั้ง token cache และ context window ขนาดใหญ่ จึงมีค่าใช้จ่ายหลายร้อยดอลลาร์ต่อเดือน
มีคนสงสัยว่า Qwen เลิกปล่อย โมเดลแบบเปิด แล้วหรือไม่ เพราะไม่เห็นลิงก์ Hugging Face
มีคนถามว่าสามารถใช้งานบน Open Router ได้หรือไม่ และตั้งตารอ การเปรียบเทียบกับ Gemini 3 Flash
Mafia Arena
lmarena.ai, แดชบอร์ด safe.ai,
Clock Draw Test, EQBench, OCR Arena
Benchmark ของ LLM เหมือน การสัมภาษณ์งานนักพัฒนา คือแก้ปัญหาอัลกอริทึมแบบกระจายที่ซับซ้อนได้ดี แต่ในงานจริงกลับมีความห่างกัน เช่นแค่เพิ่มปุ่มหนึ่งปุ่มก็ยัง ลืมนำ Tailwind class กลับมาใช้ซ้ำ
มีคำถามเกี่ยวกับขนาดของโมเดล
บล็อกทางการ