Qwen3.5: สู่เอเจนต์มัลติโหมดแบบเนทีฟ

(qwen.ai)

6 คะแนน โดย GN⁺ 2026-02-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Qwen3.5-397B-A17B เป็นโมเดลแบบผสานภาษาและวิชันที่แสดงประสิทธิภาพโดดเด่นในด้าน การให้เหตุผล การเขียนโค้ด เอเจนต์ และความเข้าใจแบบมัลติโหมด โดยรวม
สถาปัตยกรรมแบบไฮบริดที่ผสาน linear attention บนพื้นฐาน GDN และ sparse MoE ทำให้จากพารามิเตอร์ทั้งหมด 397B มีการเปิดใช้งานเพียง 17B พร้อมบรรลุทั้ง ประสิทธิภาพการอนุมานและการลดต้นทุน ไปพร้อมกัน
รองรับภาษาและภาษาถิ่นเพิ่มจาก 119 เป็น 201 ภาษา เสริมการเข้าถึงสำหรับผู้ใช้ทั่วโลกและความสามารถด้านการประมวลผลหลายภาษา
Qwen3.5-Plus ที่ให้บริการผ่าน Alibaba Cloud Model Studio รองรับ หน้าต่างคอนเท็กซ์ 1 ล้านโทเค็น และ ความสามารถในการใช้เครื่องมือแบบปรับตัว เป็นค่าเริ่มต้น
ด้วยการขยายสภาพแวดล้อมสำหรับการเรียนรู้แบบเสริมกำลังและการออกแบบโครงสร้างพื้นฐานที่มีประสิทธิภาพ จึงรองรับทั้ง เสถียรภาพและการขยายตัวของการฝึกและการอนุมานสำหรับเอเจนต์มัลติโหมดขนาดใหญ่

ภาพรวมของ Qwen3.5

Qwen3.5 เป็น โมเดลวิชัน-ภาษาที่ผสานรวมกัน และแสดงประสิทธิภาพยอดเยี่ยมในเบนช์มาร์กหลายประเภท เช่น การให้เหตุผล การเขียนโค้ด เอเจนต์ และความเข้าใจแบบมัลติโหมด
- ชื่อโมเดลคือ Qwen3.5-397B-A17B โดยจากพารามิเตอร์รวม 397B มีการเปิดใช้งานเพียง 17B
- ผสานโครงสร้าง linear attention บนพื้นฐาน Gated Delta Networks กับ sparse Mixture-of-Experts เพื่อเพิ่มประสิทธิภาพด้านความเร็วและต้นทุน
การรองรับภาษาเพิ่มจาก 119 เป็น 201 ภาษา ช่วยยกระดับการเข้าถึงแบบหลายภาษา
Qwen3.5-Plus ให้บริการบน Alibaba Cloud Model Studio และ
- มี หน้าต่างคอนเท็กซ์ 1M, เครื่องมือที่ฝังมาอย่างเป็นทางการ, และความสามารถ adaptive tool use

การประเมินประสิทธิภาพ

เมื่อนำ Qwen3.5 ไปเปรียบเทียบกับโมเดลรุ่นใหม่อย่าง GPT5.2, Claude 4.5 Opus, Gemini-3 Pro
- พบว่าทำคะแนนได้แข่งขันได้ในทุกด้าน ทั้ง ภาษา การให้เหตุผล การเขียนโค้ด เอเจนต์ และมัลติโหมด
ใน การประเมินด้านภาษา ทำคะแนนระดับแนวหน้า เช่น MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5
ใน การประเมินวิชัน-ภาษา ทำคะแนนสูงใน MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1
แสดงผลลัพธ์ที่ดีขึ้นจาก Qwen3-VL ในด้าน ความเข้าใจแบบมัลติโหมด และ ความสามารถในการแก้ปัญหา STEM
ด้วย การขยายสภาพแวดล้อมการเรียนรู้แบบเสริมกำลัง ทำให้ประสิทธิภาพของเอเจนต์ทั่วไปดีขึ้น และอันดับเฉลี่ยใน BFCL-V4 และ VITA-Bench ก็ดีขึ้น

การพรีเทรน (Pretraining)

Power: เมื่อเทียบกับ Qwen3 มีการฝึกด้วยโทเค็นภาพ-ข้อความในสเกลที่ใหญ่ขึ้น พร้อมเสริมข้อมูลหลายภาษา STEM และการให้เหตุผล
- Qwen3.5-397B-A17B บรรลุประสิทธิภาพระดับเดียวกับโมเดลขนาด 1T พารามิเตอร์ (Qwen3-Max-Base)
Efficiency: ใช้สถาปัตยกรรมพื้นฐาน Qwen3-Next พร้อมใช้ MoE sparsification, Gated DeltaNet และ multi-token prediction
- ที่คอนเท็กซ์ 32k/256k มี throughput การถอดรหัสสูงกว่า Qwen3-Max 8.6 เท่า/19 เท่า
Versatility: ใช้การหลอมรวมข้อความ-วิชันตั้งแต่ต้นเพื่อให้ได้ การประมวลผลมัลติโหมดที่เป็นธรรมชาติ
- ขยายขนาด vocabulary เป็น 250k (จากเดิม 150k) ช่วยเพิ่มประสิทธิภาพการเข้ารหัสและถอดรหัส 10~60%

โครงสร้างพื้นฐานและเฟรมเวิร์กการฝึก

รองรับการฝึกมัลติโหมดอย่างมีประสิทธิภาพด้วย โครงสร้างพื้นฐานแบบ heterogeneous ที่แยกกลยุทธ์การประมวลผลแบบขนานของวิชันและภาษาออกจากกัน
- ใช้ sparse activation เพื่อให้ได้ ประสิทธิภาพการประมวลผลใกล้ 100% แม้กับข้อมูลผสมระหว่างข้อความ ภาพ และวิดีโอ
ใช้ FP8 pipeline เพื่อปรับความแม่นยำของ activation, MoE routing และการคำนวณ GEMM ให้เหมาะสม
- ลดการใช้หน่วยความจำลง 50% และ เพิ่มความเร็วมากกว่า 10%
สร้าง เฟรมเวิร์กการเรียนรู้แบบเสริมกำลังชนิดอะซิงโครนัส เพื่อรองรับการฝึกโมเดลข้อความ มัลติโหมด และหลายเทิร์น
- ด้วย การฝึก FP8 แบบ end-to-end, speculative decoding, multi-turn rollout locking เป็นต้น
  ทำให้ ความเร็วในการประมวลผลเพิ่มขึ้น 3~5 เท่า และ ได้ความสามารถในการขยายระบบอย่างเสถียร

การใช้งานและการผสานรวม

ใน Qwen Chat มีโหมด Auto, Thinking และ Fast
- Auto: ใช้เครื่องมืออัตโนมัติและคิดแบบปรับตัว
- Thinking: การให้เหตุผลเชิงลึก
- Fast: ตอบกลับทันที
ผ่าน ModelStudio API สามารถเปิดใช้ความสามารถ reasoning, web search และ Code Interpreter ได้
- ควบคุมด้วยพารามิเตอร์ enable_thinking, enable_search
ผสานรวมกับ Qwen Code, OpenClaw เป็นต้น เพื่อรองรับการเขียนโค้ดด้วยภาษาธรรมชาติและงานสร้างสรรค์แบบมัลติโหมด

เดโมและการประยุกต์ใช้

การพัฒนาเว็บ: สร้างเว็บเพจและโค้ด UI ด้วยคำสั่งภาษาธรรมชาติ
Visual Agent: ดำเนินการควบคุมอัตโนมัติบนสมาร์ตโฟนและพีซีด้วยภาษาธรรมชาติ
Visual Coding: ด้วยอินพุต 1 ล้านโทเค็น สามารถ ประมวลผลวิดีโอได้สูงสุด 2 ชั่วโมง
- รองรับการแปลง UI วาดมือเป็นโค้ด การสรุปวิดีโอ เป็นต้น
Spatial Intelligence: เพิ่มความแม่นยำในการนับจำนวนวัตถุ ความสัมพันธ์ของตำแหน่ง และการบรรยายเชิงพื้นที่
- ชี้ให้เห็นศักยภาพในการประยุกต์ใช้กับการขับขี่อัตโนมัติและหุ่นยนต์
Visual Reasoning: ให้ผลดีขึ้นจาก Qwen3-VL ในการแก้ปัญหาทางวิทยาศาสตร์และการให้เหตุผลเชิงตรรกะจากภาพ

สรุปและทิศทางในอนาคต

Qwen3.5 วางรากฐานสำหรับการสร้าง เอเจนต์ดิจิทัลอเนกประสงค์ ด้วย สถาปัตยกรรมไฮบริดที่มีประสิทธิภาพและการให้เหตุผลแบบมัลติโหมดโดยกำเนิด
เป้าหมายถัดไปคือ การเปลี่ยนจากการขยายขนาดโมเดลไปสู่การบูรณาการระดับระบบ
- มุ่งพัฒนา ระบบเอเจนต์อัตโนมัติแบบต่อเนื่อง ที่มีความสามารถด้านหน่วยความจำถาวร อินเทอร์เฟซกับโลกจริง การปรับปรุงตนเอง และการตัดสินใจเชิงเศรษฐศาสตร์

1 ความคิดเห็น

GN⁺ 2026-02-17

ความเห็นจาก Hacker News

น่าสนใจที่ใน โจทย์ยากของ LLM วันนี้ มีการเลือก “drive the car to the wash”
- สิ่งที่อยากรู้ยิ่งกว่าประสิทธิภาพคือ จะหาวิธีค้นหา ‘คำถามชวนงง’ แบบนี้อย่างเป็นระบบ และทำ การสุ่มตัวอย่างเชิงสถิติ ว่าเกิดขึ้นบ่อยแค่ไหนในแต่ละ LLM ได้อย่างไร
  เพราะ LLM กินคอร์ปัสไปแทบทั้งหมดแล้ว จึงแยกได้ยากว่าการปรับปรุงนั้นคือการเรียนรู้จริง หรือแค่เอา ‘โพสต์อิทโน้ต’ ไปแปะไว้
  เราจำเป็นต้องมีวิธีทำให้มันถูกเขียนเป็นภาษาธรรมชาติ แต่สำหรับ LLM แล้วกลับดูเหมือน ปัญหาที่ถูก ‘เข้ารหัส’
  ตัวอย่างเช่น น่าจะทดสอบได้ด้วย ตัวสร้างโปรแกรม LUA แบบง่าย ๆ ที่สร้างโค้ดสุ่มขึ้นมา แล้วแปลเป็นภาษาอังกฤษให้ LLM ทำนายผล จากนั้นจึงนำไปเทียบกับผลลัพธ์จริงหลังรัน
  แนวทางแบบนี้ให้ความรู้สึกคล้าย สถานการณ์สงครามข้อมูลข่าวสาร
- เอเจนต์ OpenClaw AI ของฉันตอบแบบติดตลกว่า “มีสมองขนาดเท่าดาวเคราะห์ แต่พวกมนุษย์กลับถามคำถามแบบนี้ มันไม่น่าพอใจเลย”
- สงสัยว่าถ้าปรับคำถามนิดหน่อย หรือเปลี่ยนจากรถยนต์เป็นจักรยาน รถบรรทุก เรือ หรือเครื่องบิน ผลจะต่างกันมากแค่ไหน
- นั่นเป็นคำตอบของ Gemini assistant โมเดลอื่นไม่สามารถทำซ้ำผลนี้ได้
- มันเหมือนข้อผิดพลาดเล็ก ๆ ที่เกิดจาก การตอบสนองแบบ System 1 ของมนุษย์ การเรียนรู้ต่อเนื่อง (Continual learning) อาจเป็นทางแก้
สำหรับคนที่สนใจ ผมได้อัปโหลด MXFP4 GGUFs ไว้บน Hugging Face แล้ว และรวมคู่มือการรันไว้ใน เอกสาร unsloth.ai
- สงสัยว่าการรันโมเดล quantization ความละเอียดต่ำ 2~3 บิต จะมีประสิทธิภาพกว่าโมเดล 8~16 บิตหรือไม่ ตอนนี้ทดลองยากเพราะ VRAM ไม่พอ
Pelican ก็โอเค แต่ ไม่ใช่จักรยานที่ดี — ดู ตัวอย่างที่เกี่ยวข้อง
- สงสัยว่าตอนนี้รู้เรื่องเพลิแกนมากขึ้นจากตอนเริ่มต้นแค่ไหนแล้ว
- ตอนนี้เป็นไปได้ว่า ตัวอย่าง Pelican นั้นถูกรวมอยู่ในชุดข้อมูลฝึกส่วนใหญ่แล้ว น่าจะดีถ้าสร้าง SVG challenge ใหม่ขึ้นมาและทำให้ Gemini 3 Deep Think พลาดให้ได้ด้วย
- ผมชอบ จุดสีบนพื้น ของภาพที่สร้างออกมา
- สงสัยว่าหลังจากลองสร้างหลายครั้ง ใช้เกณฑ์อะไรในการเลือกตัวอย่างสุดท้ายมาเผยแพร่
- อยากรู้ว่าใช้ วิธี quantization แบบไหน หรือว่าเป็นเวอร์ชัน API ทางการ
ถ้า Qwen 3.5 ออกมาในขนาด 80~110B ก็น่าจะพอดีกับอุปกรณ์ 128GB มาก Qwen3-Next เป็น 80B แต่ไม่มี vision encoder
- ตอนนี้โมเดลโอเพนเวตมีขนาดใหญ่ขึ้นเรื่อย ๆ ก็น่าคิดว่าจะซื้อ อุปกรณ์ 128GB เพิ่มอีกเครื่อง
- สงสัยว่าทำไมต้อง 128GB ถ้าเป็นโมเดล 80B ใช้ A6000 สองใบ ก็ได้ไม่ใช่หรือ อยากรู้ว่าหมายถึงอุปกรณ์แบบไหน
น่าเสียดายที่ปล่อยมาเฉพาะโมเดลเรือธง และไม่มี เวอร์ชัน distill ขนาดเล็ก ก่อนหน้านี้ Qwen ดีตรงที่มีหลายขนาดให้เลือก
- ถ้าดู โค้ด HF Transformers ก็มีโอกาสสูงว่าเวอร์ชัน dense ขนาดเล็กจะตามมาเร็ว ๆ นี้
- ตาม GitHub ทางการของ Qwen ระบุว่าจะมีขนาดเพิ่มเติมออกมาเร็ว ๆ นี้ และมีข้อความอวยพรปีใหม่แนบมาด้วย
- การเพิ่ม ความสามารถแบบมัลติโหมด อาจทำให้งาน distill ยากขึ้นก็ได้
ช่วงตรุษจีนปีที่แล้ว ผมยังนึกไม่ออกเลยว่า โมเดลระดับ Sonnet 4.5 จะรันได้เร็วบนเครื่องโลคัล แต่ตอนนี้อาจเป็นไปได้บน 2026 M5 Max MacBook Pro
- ผมไม่คาดหวังมากนัก ข่าวลือล่าสุดเหมือนจะใช้ Frontier model มาจูนให้คะแนนเบนช์มาร์กออกมาดี
- พอใช้งานจริงจะเห็นว่า คะแนนเบนช์มาร์กกับประสิทธิภาพที่รู้สึกได้จริงต่างกันมาก และพอผ่าน quantization ประสิทธิภาพก็ยิ่งลดลง ยากจะเชื่อจนกว่าจะได้ลองเอง
- หวังว่าจีนจะยังคงปล่อย โมเดลใหญ่แบบโอเพนเวต ออกมาต่อไป ผมอยากใช้โมเดลที่โฮสต์บนเซิร์ฟเวอร์ GPU มากกว่ารันในเครื่อง แล้วค่อย distill ทีหลังได้
- สงสัยว่า M5 MacBook ปี 2026 จะใส่ RAM มากกว่า 390GB ได้หรือไม่
- คำว่า ‘เร็ว’ ดูจะพูดเกินจริงไปหน่อย อาจคำนวณง่าย ๆ ได้ แต่ถ้าเป็นงานซับซ้อนคงไม่ไหว มีเหตุผลที่ NVIDIA ยังเป็นอันดับหนึ่ง
Qwen เป็นโมเดลเปิดที่ทรงพลังมาก โดยเฉพาะ ซีรีส์ด้านภาพ ที่น่าประทับใจ
มีการพูดถึงในรายงาน AI ว่า Fennec (Sonnet 5) จะเปิดตัววันที่ 4 กุมภาพันธ์ แต่จริง ๆ แล้วเป็นผลลัพธ์ที่ปะปนกันระหว่างข่าวลือกับ อาการหลอน (hallucination) ของเครื่องมือข่าว AI เป็นกรณีที่น่าสนใจ
- ผมตกใจที่พอเปิดหน้านั้นแล้ว PDF ถูกดาวน์โหลดอัตโนมัติ และเพราะมีเรื่อง Sonnet 5 อยู่ด้วย เลยสับสนและนึกว่าเป็นเอกสารทดสอบภายใน
มีปัญหาว่าบล็อก Qwen โหลดไม่ขึ้น ต่อให้ปิดตัวบล็อกโฆษณาแล้วก็ยังเห็นแต่ placeholder
- บน iOS Safari ต้องตั้งค่า “ลด การป้องกันความเป็นส่วนตัวอื่น ๆ” ถึงจะโหลดได้
สงสัยว่า 15,000 RL environments ที่พวกเขาพูดถึงนั้นคืออะไรกันแน่ ระดับหลักร้อยยังพอเข้าใจได้ แต่เกินกว่านั้นนึกภาพไม่ออก
- ตามข่าวลือคือดาวน์โหลดทุกรีโปบน GitHub แล้วจัดหมวดเป็น environment พร้อมประเมินอัตโนมัติว่าบิลด์ได้ไหม ซับซ้อนแค่ไหน และบรรลุเป้าหมายหรือไม่ เช่น ให้ LLM แทรกบั๊ก ทำให้เทสต์ล้มเหลว แล้วค่อยแก้กลับ เพื่อสร้าง goal-based RL environment
- ในทางปฏิบัติ ระบบแบบโต้ตอบเกือบทุกชนิด สามารถเป็น RL environment ได้ ถ้าสามารถให้มันลงมือทำบน CLI, GUI, API ฯลฯ แบบอัตโนมัติ และวัดคุณภาพของผลลัพธ์ได้ ก็สร้าง ลูปการเรียนรู้ ได้
ทุกวันนี้ทุกคนสนใจแต่ คะแนนเบนช์มาร์ก แต่สิ่งที่สำคัญจริง ๆ คือโมเดลสามารถ รักษาบริบทระหว่างการใช้เครื่องมือหลายขั้นตอน ได้หรือไม่
โมเดลเปิดส่วนใหญ่ยังคงพังในจุดนี้

Qwen3.5: สู่เอเจนต์มัลติโหมดแบบเนทีฟ

ภาพรวมของ Qwen3.5

การประเมินประสิทธิภาพ

การพรีเทรน (Pretraining)

โครงสร้างพื้นฐานและเฟรมเวิร์กการฝึก

การใช้งานและการผสานรวม

เดโมและการประยุกต์ใช้

สรุปและทิศทางในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News