6 คะแนน โดย GN⁺ 2026-02-17 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen3.5-397B-A17B เป็นโมเดลแบบผสานภาษาและวิชันที่แสดงประสิทธิภาพโดดเด่นในด้าน การให้เหตุผล การเขียนโค้ด เอเจนต์ และความเข้าใจแบบมัลติโหมด โดยรวม
  • สถาปัตยกรรมแบบไฮบริดที่ผสาน linear attention บนพื้นฐาน GDN และ sparse MoE ทำให้จากพารามิเตอร์ทั้งหมด 397B มีการเปิดใช้งานเพียง 17B พร้อมบรรลุทั้ง ประสิทธิภาพการอนุมานและการลดต้นทุน ไปพร้อมกัน
  • รองรับภาษาและภาษาถิ่นเพิ่มจาก 119 เป็น 201 ภาษา เสริมการเข้าถึงสำหรับผู้ใช้ทั่วโลกและความสามารถด้านการประมวลผลหลายภาษา
  • Qwen3.5-Plus ที่ให้บริการผ่าน Alibaba Cloud Model Studio รองรับ หน้าต่างคอนเท็กซ์ 1 ล้านโทเค็น และ ความสามารถในการใช้เครื่องมือแบบปรับตัว เป็นค่าเริ่มต้น
  • ด้วยการขยายสภาพแวดล้อมสำหรับการเรียนรู้แบบเสริมกำลังและการออกแบบโครงสร้างพื้นฐานที่มีประสิทธิภาพ จึงรองรับทั้ง เสถียรภาพและการขยายตัวของการฝึกและการอนุมานสำหรับเอเจนต์มัลติโหมดขนาดใหญ่

ภาพรวมของ Qwen3.5

  • Qwen3.5 เป็น โมเดลวิชัน-ภาษาที่ผสานรวมกัน และแสดงประสิทธิภาพยอดเยี่ยมในเบนช์มาร์กหลายประเภท เช่น การให้เหตุผล การเขียนโค้ด เอเจนต์ และความเข้าใจแบบมัลติโหมด
    • ชื่อโมเดลคือ Qwen3.5-397B-A17B โดยจากพารามิเตอร์รวม 397B มีการเปิดใช้งานเพียง 17B
    • ผสานโครงสร้าง linear attention บนพื้นฐาน Gated Delta Networks กับ sparse Mixture-of-Experts เพื่อเพิ่มประสิทธิภาพด้านความเร็วและต้นทุน
  • การรองรับภาษาเพิ่มจาก 119 เป็น 201 ภาษา ช่วยยกระดับการเข้าถึงแบบหลายภาษา
  • Qwen3.5-Plus ให้บริการบน Alibaba Cloud Model Studio และ
    • มี หน้าต่างคอนเท็กซ์ 1M, เครื่องมือที่ฝังมาอย่างเป็นทางการ, และความสามารถ adaptive tool use

การประเมินประสิทธิภาพ

  • เมื่อนำ Qwen3.5 ไปเปรียบเทียบกับโมเดลรุ่นใหม่อย่าง GPT5.2, Claude 4.5 Opus, Gemini-3 Pro
    • พบว่าทำคะแนนได้แข่งขันได้ในทุกด้าน ทั้ง ภาษา การให้เหตุผล การเขียนโค้ด เอเจนต์ และมัลติโหมด
  • ใน การประเมินด้านภาษา ทำคะแนนระดับแนวหน้า เช่น MMLU-Pro 94.9, SuperGPQA 70.4, IFBench 76.5
  • ใน การประเมินวิชัน-ภาษา ทำคะแนนสูงใน MathVision 88.6, AI2D_TEST 93.9, OCRBench 93.1
  • แสดงผลลัพธ์ที่ดีขึ้นจาก Qwen3-VL ในด้าน ความเข้าใจแบบมัลติโหมด และ ความสามารถในการแก้ปัญหา STEM
  • ด้วย การขยายสภาพแวดล้อมการเรียนรู้แบบเสริมกำลัง ทำให้ประสิทธิภาพของเอเจนต์ทั่วไปดีขึ้น และอันดับเฉลี่ยใน BFCL-V4 และ VITA-Bench ก็ดีขึ้น

การพรีเทรน (Pretraining)

  • Power: เมื่อเทียบกับ Qwen3 มีการฝึกด้วยโทเค็นภาพ-ข้อความในสเกลที่ใหญ่ขึ้น พร้อมเสริมข้อมูลหลายภาษา STEM และการให้เหตุผล
    • Qwen3.5-397B-A17B บรรลุประสิทธิภาพระดับเดียวกับโมเดลขนาด 1T พารามิเตอร์ (Qwen3-Max-Base)
  • Efficiency: ใช้สถาปัตยกรรมพื้นฐาน Qwen3-Next พร้อมใช้ MoE sparsification, Gated DeltaNet และ multi-token prediction
    • ที่คอนเท็กซ์ 32k/256k มี throughput การถอดรหัสสูงกว่า Qwen3-Max 8.6 เท่า/19 เท่า
  • Versatility: ใช้การหลอมรวมข้อความ-วิชันตั้งแต่ต้นเพื่อให้ได้ การประมวลผลมัลติโหมดที่เป็นธรรมชาติ
    • ขยายขนาด vocabulary เป็น 250k (จากเดิม 150k) ช่วยเพิ่มประสิทธิภาพการเข้ารหัสและถอดรหัส 10~60%

โครงสร้างพื้นฐานและเฟรมเวิร์กการฝึก

  • รองรับการฝึกมัลติโหมดอย่างมีประสิทธิภาพด้วย โครงสร้างพื้นฐานแบบ heterogeneous ที่แยกกลยุทธ์การประมวลผลแบบขนานของวิชันและภาษาออกจากกัน
    • ใช้ sparse activation เพื่อให้ได้ ประสิทธิภาพการประมวลผลใกล้ 100% แม้กับข้อมูลผสมระหว่างข้อความ ภาพ และวิดีโอ
  • ใช้ FP8 pipeline เพื่อปรับความแม่นยำของ activation, MoE routing และการคำนวณ GEMM ให้เหมาะสม
    • ลดการใช้หน่วยความจำลง 50% และ เพิ่มความเร็วมากกว่า 10%
  • สร้าง เฟรมเวิร์กการเรียนรู้แบบเสริมกำลังชนิดอะซิงโครนัส เพื่อรองรับการฝึกโมเดลข้อความ มัลติโหมด และหลายเทิร์น
    • ด้วย การฝึก FP8 แบบ end-to-end, speculative decoding, multi-turn rollout locking เป็นต้น
      ทำให้ ความเร็วในการประมวลผลเพิ่มขึ้น 3~5 เท่า และ ได้ความสามารถในการขยายระบบอย่างเสถียร

การใช้งานและการผสานรวม

  • ใน Qwen Chat มีโหมด Auto, Thinking และ Fast
    • Auto: ใช้เครื่องมืออัตโนมัติและคิดแบบปรับตัว
    • Thinking: การให้เหตุผลเชิงลึก
    • Fast: ตอบกลับทันที
  • ผ่าน ModelStudio API สามารถเปิดใช้ความสามารถ reasoning, web search และ Code Interpreter ได้
    • ควบคุมด้วยพารามิเตอร์ enable_thinking, enable_search
  • ผสานรวมกับ Qwen Code, OpenClaw เป็นต้น เพื่อรองรับการเขียนโค้ดด้วยภาษาธรรมชาติและงานสร้างสรรค์แบบมัลติโหมด

เดโมและการประยุกต์ใช้

  • การพัฒนาเว็บ: สร้างเว็บเพจและโค้ด UI ด้วยคำสั่งภาษาธรรมชาติ
  • Visual Agent: ดำเนินการควบคุมอัตโนมัติบนสมาร์ตโฟนและพีซีด้วยภาษาธรรมชาติ
  • Visual Coding: ด้วยอินพุต 1 ล้านโทเค็น สามารถ ประมวลผลวิดีโอได้สูงสุด 2 ชั่วโมง
    • รองรับการแปลง UI วาดมือเป็นโค้ด การสรุปวิดีโอ เป็นต้น
  • Spatial Intelligence: เพิ่มความแม่นยำในการนับจำนวนวัตถุ ความสัมพันธ์ของตำแหน่ง และการบรรยายเชิงพื้นที่
    • ชี้ให้เห็นศักยภาพในการประยุกต์ใช้กับการขับขี่อัตโนมัติและหุ่นยนต์
  • Visual Reasoning: ให้ผลดีขึ้นจาก Qwen3-VL ในการแก้ปัญหาทางวิทยาศาสตร์และการให้เหตุผลเชิงตรรกะจากภาพ

สรุปและทิศทางในอนาคต

  • Qwen3.5 วางรากฐานสำหรับการสร้าง เอเจนต์ดิจิทัลอเนกประสงค์ ด้วย สถาปัตยกรรมไฮบริดที่มีประสิทธิภาพและการให้เหตุผลแบบมัลติโหมดโดยกำเนิด
  • เป้าหมายถัดไปคือ การเปลี่ยนจากการขยายขนาดโมเดลไปสู่การบูรณาการระดับระบบ
    • มุ่งพัฒนา ระบบเอเจนต์อัตโนมัติแบบต่อเนื่อง ที่มีความสามารถด้านหน่วยความจำถาวร อินเทอร์เฟซกับโลกจริง การปรับปรุงตนเอง และการตัดสินใจเชิงเศรษฐศาสตร์

1 ความคิดเห็น

 
GN⁺ 2026-02-17
ความเห็นจาก Hacker News
  • น่าสนใจที่ใน โจทย์ยากของ LLM วันนี้ มีการเลือก “drive the car to the wash”

    • สิ่งที่อยากรู้ยิ่งกว่าประสิทธิภาพคือ จะหาวิธีค้นหา ‘คำถามชวนงง’ แบบนี้อย่างเป็นระบบ และทำ การสุ่มตัวอย่างเชิงสถิติ ว่าเกิดขึ้นบ่อยแค่ไหนในแต่ละ LLM ได้อย่างไร
      เพราะ LLM กินคอร์ปัสไปแทบทั้งหมดแล้ว จึงแยกได้ยากว่าการปรับปรุงนั้นคือการเรียนรู้จริง หรือแค่เอา ‘โพสต์อิทโน้ต’ ไปแปะไว้
      เราจำเป็นต้องมีวิธีทำให้มันถูกเขียนเป็นภาษาธรรมชาติ แต่สำหรับ LLM แล้วกลับดูเหมือน ปัญหาที่ถูก ‘เข้ารหัส’
      ตัวอย่างเช่น น่าจะทดสอบได้ด้วย ตัวสร้างโปรแกรม LUA แบบง่าย ๆ ที่สร้างโค้ดสุ่มขึ้นมา แล้วแปลเป็นภาษาอังกฤษให้ LLM ทำนายผล จากนั้นจึงนำไปเทียบกับผลลัพธ์จริงหลังรัน
      แนวทางแบบนี้ให้ความรู้สึกคล้าย สถานการณ์สงครามข้อมูลข่าวสาร
    • เอเจนต์ OpenClaw AI ของฉันตอบแบบติดตลกว่า “มีสมองขนาดเท่าดาวเคราะห์ แต่พวกมนุษย์กลับถามคำถามแบบนี้ มันไม่น่าพอใจเลย”
    • สงสัยว่าถ้าปรับคำถามนิดหน่อย หรือเปลี่ยนจากรถยนต์เป็นจักรยาน รถบรรทุก เรือ หรือเครื่องบิน ผลจะต่างกันมากแค่ไหน
    • นั่นเป็นคำตอบของ Gemini assistant โมเดลอื่นไม่สามารถทำซ้ำผลนี้ได้
    • มันเหมือนข้อผิดพลาดเล็ก ๆ ที่เกิดจาก การตอบสนองแบบ System 1 ของมนุษย์ การเรียนรู้ต่อเนื่อง (Continual learning) อาจเป็นทางแก้
  • สำหรับคนที่สนใจ ผมได้อัปโหลด MXFP4 GGUFs ไว้บน Hugging Face แล้ว และรวมคู่มือการรันไว้ใน เอกสาร unsloth.ai

    • สงสัยว่าการรันโมเดล quantization ความละเอียดต่ำ 2~3 บิต จะมีประสิทธิภาพกว่าโมเดล 8~16 บิตหรือไม่ ตอนนี้ทดลองยากเพราะ VRAM ไม่พอ
  • Pelican ก็โอเค แต่ ไม่ใช่จักรยานที่ดี — ดู ตัวอย่างที่เกี่ยวข้อง

    • สงสัยว่าตอนนี้รู้เรื่องเพลิแกนมากขึ้นจากตอนเริ่มต้นแค่ไหนแล้ว
    • ตอนนี้เป็นไปได้ว่า ตัวอย่าง Pelican นั้นถูกรวมอยู่ในชุดข้อมูลฝึกส่วนใหญ่แล้ว น่าจะดีถ้าสร้าง SVG challenge ใหม่ขึ้นมาและทำให้ Gemini 3 Deep Think พลาดให้ได้ด้วย
    • ผมชอบ จุดสีบนพื้น ของภาพที่สร้างออกมา
    • สงสัยว่าหลังจากลองสร้างหลายครั้ง ใช้เกณฑ์อะไรในการเลือกตัวอย่างสุดท้ายมาเผยแพร่
    • อยากรู้ว่าใช้ วิธี quantization แบบไหน หรือว่าเป็นเวอร์ชัน API ทางการ
  • ถ้า Qwen 3.5 ออกมาในขนาด 80~110B ก็น่าจะพอดีกับอุปกรณ์ 128GB มาก Qwen3-Next เป็น 80B แต่ไม่มี vision encoder

    • ตอนนี้โมเดลโอเพนเวตมีขนาดใหญ่ขึ้นเรื่อย ๆ ก็น่าคิดว่าจะซื้อ อุปกรณ์ 128GB เพิ่มอีกเครื่อง
    • สงสัยว่าทำไมต้อง 128GB ถ้าเป็นโมเดล 80B ใช้ A6000 สองใบ ก็ได้ไม่ใช่หรือ อยากรู้ว่าหมายถึงอุปกรณ์แบบไหน
  • น่าเสียดายที่ปล่อยมาเฉพาะโมเดลเรือธง และไม่มี เวอร์ชัน distill ขนาดเล็ก ก่อนหน้านี้ Qwen ดีตรงที่มีหลายขนาดให้เลือก

    • ถ้าดู โค้ด HF Transformers ก็มีโอกาสสูงว่าเวอร์ชัน dense ขนาดเล็กจะตามมาเร็ว ๆ นี้
    • ตาม GitHub ทางการของ Qwen ระบุว่าจะมีขนาดเพิ่มเติมออกมาเร็ว ๆ นี้ และมีข้อความอวยพรปีใหม่แนบมาด้วย
    • การเพิ่ม ความสามารถแบบมัลติโหมด อาจทำให้งาน distill ยากขึ้นก็ได้
  • ช่วงตรุษจีนปีที่แล้ว ผมยังนึกไม่ออกเลยว่า โมเดลระดับ Sonnet 4.5 จะรันได้เร็วบนเครื่องโลคัล แต่ตอนนี้อาจเป็นไปได้บน 2026 M5 Max MacBook Pro

    • ผมไม่คาดหวังมากนัก ข่าวลือล่าสุดเหมือนจะใช้ Frontier model มาจูนให้คะแนนเบนช์มาร์กออกมาดี
    • พอใช้งานจริงจะเห็นว่า คะแนนเบนช์มาร์กกับประสิทธิภาพที่รู้สึกได้จริงต่างกันมาก และพอผ่าน quantization ประสิทธิภาพก็ยิ่งลดลง ยากจะเชื่อจนกว่าจะได้ลองเอง
    • หวังว่าจีนจะยังคงปล่อย โมเดลใหญ่แบบโอเพนเวต ออกมาต่อไป ผมอยากใช้โมเดลที่โฮสต์บนเซิร์ฟเวอร์ GPU มากกว่ารันในเครื่อง แล้วค่อย distill ทีหลังได้
    • สงสัยว่า M5 MacBook ปี 2026 จะใส่ RAM มากกว่า 390GB ได้หรือไม่
    • คำว่า ‘เร็ว’ ดูจะพูดเกินจริงไปหน่อย อาจคำนวณง่าย ๆ ได้ แต่ถ้าเป็นงานซับซ้อนคงไม่ไหว มีเหตุผลที่ NVIDIA ยังเป็นอันดับหนึ่ง
  • Qwen เป็นโมเดลเปิดที่ทรงพลังมาก โดยเฉพาะ ซีรีส์ด้านภาพ ที่น่าประทับใจ
    มีการพูดถึงในรายงาน AI ว่า Fennec (Sonnet 5) จะเปิดตัววันที่ 4 กุมภาพันธ์ แต่จริง ๆ แล้วเป็นผลลัพธ์ที่ปะปนกันระหว่างข่าวลือกับ อาการหลอน (hallucination) ของเครื่องมือข่าว AI เป็นกรณีที่น่าสนใจ

    • ผมตกใจที่พอเปิดหน้านั้นแล้ว PDF ถูกดาวน์โหลดอัตโนมัติ และเพราะมีเรื่อง Sonnet 5 อยู่ด้วย เลยสับสนและนึกว่าเป็นเอกสารทดสอบภายใน
  • มีปัญหาว่าบล็อก Qwen โหลดไม่ขึ้น ต่อให้ปิดตัวบล็อกโฆษณาแล้วก็ยังเห็นแต่ placeholder

    • บน iOS Safari ต้องตั้งค่า “ลด การป้องกันความเป็นส่วนตัวอื่น ๆ” ถึงจะโหลดได้
  • สงสัยว่า 15,000 RL environments ที่พวกเขาพูดถึงนั้นคืออะไรกันแน่ ระดับหลักร้อยยังพอเข้าใจได้ แต่เกินกว่านั้นนึกภาพไม่ออก

    • ตามข่าวลือคือดาวน์โหลดทุกรีโปบน GitHub แล้วจัดหมวดเป็น environment พร้อมประเมินอัตโนมัติว่าบิลด์ได้ไหม ซับซ้อนแค่ไหน และบรรลุเป้าหมายหรือไม่ เช่น ให้ LLM แทรกบั๊ก ทำให้เทสต์ล้มเหลว แล้วค่อยแก้กลับ เพื่อสร้าง goal-based RL environment
    • ในทางปฏิบัติ ระบบแบบโต้ตอบเกือบทุกชนิด สามารถเป็น RL environment ได้ ถ้าสามารถให้มันลงมือทำบน CLI, GUI, API ฯลฯ แบบอัตโนมัติ และวัดคุณภาพของผลลัพธ์ได้ ก็สร้าง ลูปการเรียนรู้ ได้
  • ทุกวันนี้ทุกคนสนใจแต่ คะแนนเบนช์มาร์ก แต่สิ่งที่สำคัญจริง ๆ คือโมเดลสามารถ รักษาบริบทระหว่างการใช้เครื่องมือหลายขั้นตอน ได้หรือไม่
    โมเดลเปิดส่วนใหญ่ยังคงพังในจุดนี้