25 คะแนน โดย ragingwind 13 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นโมเดลภาษาขนาดใหญ่ที่ทีม Qwen ของ Alibaba เปิดซอร์สในเดือนเมษายน 2026 และใช้สถาปัตยกรรม MoE (Mixture-of-Experts) โดย MoE คือแนวทางที่ภายในโมเดลมี "เครือข่ายผู้เชี่ยวชาญ" หลายชุด และในแต่ละครั้งที่มีอินพุตเข้ามา จะเลือกเปิดใช้งานเพียงบางส่วนเท่านั้น แม้จะมีพารามิเตอร์รวม 35 พันล้านตัว แต่ระหว่างการอนุมานจริงจะใช้เพียง 3 พันล้านตัว จึงทำงานด้วยทรัพยากรเพียงราว 8.6% ของขนาดทั้งหมด โมเดลนี้เป็นแบบมัลติโหมดัลที่เข้าใจได้ทั้งข้อความ ภาพ และวิดีโอ และรองรับทั้งโหมด Thinking ที่แสดงกระบวนการคิด และโหมด Non-thinking ที่ตอบได้ทันที

ประเด็นสำคัญ

  • เมื่อเทียบกับรุ่นก่อนหน้า Qwen3.5-35B-A3B ประสิทธิภาพด้านการเขียนโค้ดแบบ Agentic (แนวทางเขียนโค้ดอัตโนมัติที่ AI สำรวจไฟล์เอง รันเทอร์มินัลเอง และวินิจฉัย-แก้บั๊กเอง) ดีขึ้นอย่างมาก
  • ได้ 73.4 คะแนนใน SWE-bench Verified (การประเมินการแก้บั๊กซอฟต์แวร์จริง) และ 51.5 คะแนนใน Terminal-Bench 2.0 เหนือกว่า Qwen3.5-27B ซึ่งเป็น Dense model (โครงสร้างดั้งเดิมที่ใช้พารามิเตอร์ทั้งหมดทุกตัว) ที่มีพารามิเตอร์มากกว่ามากในหลายรายการ
  • ได้ 92.7 คะแนนในการแข่งขันคณิตศาสตร์ (AIME 2026) และ 80.4 คะแนนในงานเขียนโค้ดแบบเรียลไทม์ (LiveCodeBench v6) อยู่ในระดับเทียบเท่า Dense model ขนาด 27B
  • ในด้านมัลติโหมดัล ได้ 81.7 คะแนนใน MMMU และ 85.3 คะแนนใน RealWorldQA แซงหน้า Claude Sonnet 4.5 (โมเดลเชิงพาณิชย์แบบเสียเงิน) และแข็งแกร่งเป็นพิเศษด้าน spatial intelligence เช่น การระบุตำแหน่งวัตถุในภาพ (RefCOCO 92.0)
  • สามารถเชื่อมต่อกับเครื่องมือเขียนโค้ดของบุคคลที่สามอย่าง OpenClaw, Claude Code และ Qwen Code ได้ทันที และยังเข้ากันได้กับโปรโตคอล Anthropic API

ข้อดี

  • ใช้ active parameters เพียง 3B แต่ให้ประสิทธิภาพระดับใกล้เคียง Dense model 27~31B จึงใช้หน่วยความจำ GPU และพลังงานน้อยกว่า และนำไปรันในสภาพแวดล้อมขนาดเล็กได้
  • อยู่ในระดับแนวหน้าของคลาสเดียวกันในเบนช์มาร์กการเขียนโค้ดแบบ Agentic โดยรวม
  • จัดการข้อความ ภาพ วิดีโอ และเอกสารได้ทั้งหมดในโมเดลเดียว
  • เป็นโอเพนซอร์สเต็มรูปแบบ ทุกคนสามารถดาวน์โหลด ฝึกต่อ และปรับแต่งได้

ข้อเสีย

  • ในงานเอเจนต์ทั่วไป (VITA-Bench 35.6 คะแนน) ยังได้ต่ำกว่ารุ่น Dense 27B รุ่นก่อนหน้า (41.8 คะแนน) จึงยังมีช่องให้ปรับปรุง
  • ในการให้เหตุผลเชิงวิชาการระดับยากที่สุด (HLE 21.4 คะแนน) ก็ยังตามหลัง Dense model ขนาดใหญ่ (24.3 คะแนน)
  • ตามหลังเล็กน้อยใน knowledge benchmark (MMLU-Pro)
  • API ยังอยู่ในสถานะ "coming soon" ทำให้ยังนำไปใช้กับบริการขนาดใหญ่ได้ยากในทันที

จุดแตกต่าง

  • เหนือกว่า Google Gemma4-26B-A4B ซึ่งใช้โครงสร้าง MoE คล้ายกันอย่างชัดเจนในแทบทุกเบนช์มาร์ก
  • มีฟีเจอร์ preserve_thinking ที่ช่วยเก็บเนื้อหาการคิดจากเทิร์นสนทนาก่อนหน้าไว้ระหว่างงานแบบเอเจนต์ จึงเหมาะกับการรักษาบริบทยาวต่อเนื่อง
  • รองรับโปรโตคอล Anthropic API ด้วย ทำให้เข้าสู่ ecosystem ของ Claude Code ได้ทันที

นัยสำคัญ

  • ผลลัพธ์ที่ใช้ active parameters เพียง 3B แต่ให้ผลงานเทียบชั้นโมเดล 27B แสดงให้เห็นว่าสถาปัตยกรรม MoE กำลังกลายเป็นมาตรฐานใหม่ของประสิทธิภาพ AI
  • เมื่อโมเดลโอเพนซอร์สสามารถเอาชนะโมเดลเสียเงินอย่าง Claude Sonnet 4.5 ได้ในหลายรายการ ก็ยิ่งเพิ่มแรงจูงใจให้องค์กรเปลี่ยนจาก API ราคาแพงไปสู่การโฮสต์เอง
  • การที่องค์ประกอบของเบนช์มาร์กให้น้ำหนักกับการเขียนโค้ดแบบ Agentic สูงมาก บ่งชี้ว่าอุตสาหกรรมกำลังมองความสามารถด้านการพัฒนาซอฟต์แวร์อัตโนมัติของ AI เป็นเกณฑ์ประเมินที่สำคัญที่สุด

2 ความคิดเห็น

 
jeeeyul 11 일 전

จากผลการทดลองของห้องวิจัยเรา นี่คือโมเดลที่เหมือนทีม Qwen ที่ไร้ทีม Qwen รีบปล่อยออกมาอย่างลนลานเพื่อจัดการความกังวลของตลาดโดยปรับให้เข้ากับเบนช์มาร์กเท่านั้น มีอาการยึดติดกับการใช้เครื่องมือหนักมาก ผมมองว่าเป็นการถอยหลังเมื่อเทียบกับ 3.5

 
woung717 12 일 전

ผมกำลังลองรันเวอร์ชัน Q3.5 บน Mac อยู่ และต้องบอกเลยว่าการพัฒนาด้านความฉลาดเมื่อเทียบกับรุ่นก่อน ๆ น่าประทับใจจริง ๆ ครับ ตามทัน Oss 120b ได้แล้ว ก็ไม่ต้องพูดอะไรมากเลยครับ