- Qwen3.5-397B-A17B เป็นโมเดลแบบผสานภาษาและวิชันที่แสดงประสิทธิภาพโดดเด่นในด้าน การให้เหตุผล การเขียนโค้ด เอเจนต์ และความเข้าใจแบบมัลติโหมด โดยรวม
- สถาปัตยกรรมแบบไฮบริดที่ผสาน linear attention บนพื้นฐาน GDN และ sparse MoE ทำให้จากพารามิเตอร์ทั้งหมด 397B มีการเปิดใช้งานเพียง 17B พร้อมบรรลุทั้ง ประสิทธิภาพการอนุมานและการลดต้นทุน ไปพร้อมกัน
- รองรับภาษาและภาษาถิ่นเพิ่มจาก 119 เป็น 201 ภาษา เสริมการเข้าถึงสำหรับผู้ใช้ทั่วโลกและความสามารถด้านการประมวลผลหลายภาษา
- Qwen3.5-Plus ที่ให้บริการผ่าน Alibaba Cloud Model Studio รองรับ หน้าต่างคอนเท็กซ์ 1 ล้านโทเค็น และ ความสามารถในการใช้เครื่องมือแบบปรับตัว เป็นค่าเริ่มต้น
- ด้วยการขยายสภาพแวดล้อมสำหรับการเรียนรู้แบบเสริมกำลังและการออกแบบโครงสร้างพื้นฐานที่มีประสิทธิภาพ จึงรองรับทั้ง เสถียรภาพและการขยายตัวของการฝึกและการอนุมานสำหรับเอเจนต์มัลติโหมดขนาดใหญ่
ภาพรวมของ Qwen3.5
- Qwen3.5 เป็น โมเดลวิชัน-ภาษาที่ผสานรวมกัน และแสดงประสิทธิภาพยอดเยี่ยมในเบนช์มาร์กหลายประเภท เช่น การให้เหตุผล การเขียนโค้ด เอเจนต์ และความเข้าใจแบบมัลติโหมด
- ชื่อโมเดลคือ Qwen3.5-397B-A17B โดยจากพารามิเตอร์รวม 397B มีการเปิดใช้งานเพียง 17B
- ผสานโครงสร้าง linear attention บนพื้นฐาน Gated Delta Networks กับ sparse Mixture-of-Experts เพื่อเพิ่มประสิทธิภาพด้านความเร็วและต้นทุน
- การรองรับภาษาเพิ่มจาก 119 เป็น 201 ภาษา ช่วยยกระดับการเข้าถึงแบบหลายภาษา
- Qwen3.5-Plus ให้บริการบน Alibaba Cloud Model Studio และ
- มี หน้าต่างคอนเท็กซ์ 1M, เครื่องมือที่ฝังมาอย่างเป็นทางการ, และความสามารถ adaptive tool use
การประเมินประสิทธิภาพ
- เมื่อนำ Qwen3.5 ไปเปรียบเทียบกับโมเดลรุ่นใหม่อย่าง GPT5.2, Claude 4.5 Opus, Gemini-3 Pro
- พบว่าทำคะแนนได้แข่งขันได้ในทุกด้าน ทั้ง ภาษา การให้เหตุผล การเขียนโค้ด เอเจนต์ และมัลติโหมด
- ใน การประเมินด้านภาษา ทำคะแนนระดับแนวหน้า เช่น MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5
- ใน การประเมินวิชัน-ภาษา ทำคะแนนสูงใน MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1
- แสดงผลลัพธ์ที่ดีขึ้นจาก Qwen3-VL ในด้าน ความเข้าใจแบบมัลติโหมด และ ความสามารถในการแก้ปัญหา STEM
- ด้วย การขยายสภาพแวดล้อมการเรียนรู้แบบเสริมกำลัง ทำให้ประสิทธิภาพของเอเจนต์ทั่วไปดีขึ้น และอันดับเฉลี่ยใน BFCL-V4 และ VITA-Bench ก็ดีขึ้น
การพรีเทรน (Pretraining)
- Power: เมื่อเทียบกับ Qwen3 มีการฝึกด้วยโทเค็นภาพ-ข้อความในสเกลที่ใหญ่ขึ้น พร้อมเสริมข้อมูลหลายภาษา STEM และการให้เหตุผล
- Qwen3.5-397B-A17B บรรลุประสิทธิภาพระดับเดียวกับโมเดลขนาด 1T พารามิเตอร์ (Qwen3-Max-Base)
- Efficiency: ใช้สถาปัตยกรรมพื้นฐาน Qwen3-Next พร้อมใช้ MoE sparsification, Gated DeltaNet และ multi-token prediction
- ที่คอนเท็กซ์ 32k/256k มี throughput การถอดรหัสสูงกว่า Qwen3-Max 8.6 เท่า/19 เท่า
- Versatility: ใช้การหลอมรวมข้อความ-วิชันตั้งแต่ต้นเพื่อให้ได้ การประมวลผลมัลติโหมดที่เป็นธรรมชาติ
- ขยายขนาด vocabulary เป็น 250k (จากเดิม 150k) ช่วยเพิ่มประสิทธิภาพการเข้ารหัสและถอดรหัส 10~60%
โครงสร้างพื้นฐานและเฟรมเวิร์กการฝึก
- รองรับการฝึกมัลติโหมดอย่างมีประสิทธิภาพด้วย โครงสร้างพื้นฐานแบบ heterogeneous ที่แยกกลยุทธ์การประมวลผลแบบขนานของวิชันและภาษาออกจากกัน
- ใช้ sparse activation เพื่อให้ได้ ประสิทธิภาพการประมวลผลใกล้ 100% แม้กับข้อมูลผสมระหว่างข้อความ ภาพ และวิดีโอ
- ใช้ FP8 pipeline เพื่อปรับความแม่นยำของ activation, MoE routing และการคำนวณ GEMM ให้เหมาะสม
- ลดการใช้หน่วยความจำลง 50% และ เพิ่มความเร็วมากกว่า 10%
- สร้าง เฟรมเวิร์กการเรียนรู้แบบเสริมกำลังชนิดอะซิงโครนัส เพื่อรองรับการฝึกโมเดลข้อความ มัลติโหมด และหลายเทิร์น
- ด้วย การฝึก FP8 แบบ end-to-end, speculative decoding, multi-turn rollout locking เป็นต้น
ทำให้ ความเร็วในการประมวลผลเพิ่มขึ้น 3~5 เท่า และ ได้ความสามารถในการขยายระบบอย่างเสถียร
การใช้งานและการผสานรวม
- ใน Qwen Chat มีโหมด Auto, Thinking และ Fast
- Auto: ใช้เครื่องมืออัตโนมัติและคิดแบบปรับตัว
- Thinking: การให้เหตุผลเชิงลึก
- Fast: ตอบกลับทันที
- ผ่าน ModelStudio API สามารถเปิดใช้ความสามารถ reasoning, web search และ Code Interpreter ได้
- ควบคุมด้วยพารามิเตอร์
enable_thinking, enable_search
- ผสานรวมกับ Qwen Code, OpenClaw เป็นต้น เพื่อรองรับการเขียนโค้ดด้วยภาษาธรรมชาติและงานสร้างสรรค์แบบมัลติโหมด
เดโมและการประยุกต์ใช้
- การพัฒนาเว็บ: สร้างเว็บเพจและโค้ด UI ด้วยคำสั่งภาษาธรรมชาติ
- Visual Agent: ดำเนินการควบคุมอัตโนมัติบนสมาร์ตโฟนและพีซีด้วยภาษาธรรมชาติ
- Visual Coding: ด้วยอินพุต 1 ล้านโทเค็น สามารถ ประมวลผลวิดีโอได้สูงสุด 2 ชั่วโมง
- รองรับการแปลง UI วาดมือเป็นโค้ด การสรุปวิดีโอ เป็นต้น
- Spatial Intelligence: เพิ่มความแม่นยำในการนับจำนวนวัตถุ ความสัมพันธ์ของตำแหน่ง และการบรรยายเชิงพื้นที่
- ชี้ให้เห็นศักยภาพในการประยุกต์ใช้กับการขับขี่อัตโนมัติและหุ่นยนต์
- Visual Reasoning: ให้ผลดีขึ้นจาก Qwen3-VL ในการแก้ปัญหาทางวิทยาศาสตร์และการให้เหตุผลเชิงตรรกะจากภาพ
สรุปและทิศทางในอนาคต
- Qwen3.5 วางรากฐานสำหรับการสร้าง เอเจนต์ดิจิทัลอเนกประสงค์ ด้วย สถาปัตยกรรมไฮบริดที่มีประสิทธิภาพและการให้เหตุผลแบบมัลติโหมดโดยกำเนิด
- เป้าหมายถัดไปคือ การเปลี่ยนจากการขยายขนาดโมเดลไปสู่การบูรณาการระดับระบบ
- มุ่งพัฒนา ระบบเอเจนต์อัตโนมัติแบบต่อเนื่อง ที่มีความสามารถด้านหน่วยความจำถาวร อินเทอร์เฟซกับโลกจริง การปรับปรุงตนเอง และการตัดสินใจเชิงเศรษฐศาสตร์
1 ความคิดเห็น
ความเห็นจาก Hacker News
น่าสนใจที่ใน โจทย์ยากของ LLM วันนี้ มีการเลือก “drive the car to the wash”
เพราะ LLM กินคอร์ปัสไปแทบทั้งหมดแล้ว จึงแยกได้ยากว่าการปรับปรุงนั้นคือการเรียนรู้จริง หรือแค่เอา ‘โพสต์อิทโน้ต’ ไปแปะไว้
เราจำเป็นต้องมีวิธีทำให้มันถูกเขียนเป็นภาษาธรรมชาติ แต่สำหรับ LLM แล้วกลับดูเหมือน ปัญหาที่ถูก ‘เข้ารหัส’
ตัวอย่างเช่น น่าจะทดสอบได้ด้วย ตัวสร้างโปรแกรม LUA แบบง่าย ๆ ที่สร้างโค้ดสุ่มขึ้นมา แล้วแปลเป็นภาษาอังกฤษให้ LLM ทำนายผล จากนั้นจึงนำไปเทียบกับผลลัพธ์จริงหลังรัน
แนวทางแบบนี้ให้ความรู้สึกคล้าย สถานการณ์สงครามข้อมูลข่าวสาร
สำหรับคนที่สนใจ ผมได้อัปโหลด MXFP4 GGUFs ไว้บน Hugging Face แล้ว และรวมคู่มือการรันไว้ใน เอกสาร unsloth.ai
Pelican ก็โอเค แต่ ไม่ใช่จักรยานที่ดี — ดู ตัวอย่างที่เกี่ยวข้อง
ถ้า Qwen 3.5 ออกมาในขนาด 80~110B ก็น่าจะพอดีกับอุปกรณ์ 128GB มาก Qwen3-Next เป็น 80B แต่ไม่มี vision encoder
น่าเสียดายที่ปล่อยมาเฉพาะโมเดลเรือธง และไม่มี เวอร์ชัน distill ขนาดเล็ก ก่อนหน้านี้ Qwen ดีตรงที่มีหลายขนาดให้เลือก
ช่วงตรุษจีนปีที่แล้ว ผมยังนึกไม่ออกเลยว่า โมเดลระดับ Sonnet 4.5 จะรันได้เร็วบนเครื่องโลคัล แต่ตอนนี้อาจเป็นไปได้บน 2026 M5 Max MacBook Pro
Qwen เป็นโมเดลเปิดที่ทรงพลังมาก โดยเฉพาะ ซีรีส์ด้านภาพ ที่น่าประทับใจ
มีการพูดถึงในรายงาน AI ว่า Fennec (Sonnet 5) จะเปิดตัววันที่ 4 กุมภาพันธ์ แต่จริง ๆ แล้วเป็นผลลัพธ์ที่ปะปนกันระหว่างข่าวลือกับ อาการหลอน (hallucination) ของเครื่องมือข่าว AI เป็นกรณีที่น่าสนใจ
มีปัญหาว่าบล็อก Qwen โหลดไม่ขึ้น ต่อให้ปิดตัวบล็อกโฆษณาแล้วก็ยังเห็นแต่ placeholder
สงสัยว่า 15,000 RL environments ที่พวกเขาพูดถึงนั้นคืออะไรกันแน่ ระดับหลักร้อยยังพอเข้าใจได้ แต่เกินกว่านั้นนึกภาพไม่ออก
ทุกวันนี้ทุกคนสนใจแต่ คะแนนเบนช์มาร์ก แต่สิ่งที่สำคัญจริง ๆ คือโมเดลสามารถ รักษาบริบทระหว่างการใช้เครื่องมือหลายขั้นตอน ได้หรือไม่
โมเดลเปิดส่วนใหญ่ยังคงพังในจุดนี้