โมเดลโอเพนซอร์ส Qwen3.5-Medium ของ Alibaba มอบประสิทธิภาพระดับ Sonnet 4.5 บนเครื่องโลคัล

(venturebeat.com)

22 คะแนน โดย GN⁺ 2026-03-02 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

ซีรีส์ Qwen3.5 ประกอบด้วยโมเดลภาษาขนาดใหญ่ 4 รุ่น ได้แก่ 35B, 122B, 27B และรุ่นอื่น ๆ โดย 3 รุ่นเปิดเผยภายใต้ ไลเซนส์โอเพนซอร์ส Apache 2.0
ทำผลงานบนเบนช์มาร์กได้เหนือกว่า OpenAI GPT-5-mini และ Anthropic Claude Sonnet 4.5 พร้อมทั้ง รันประสิทธิภาพสูงได้แม้ในสภาพแวดล้อม GPU แบบโลคัล
รองรับ บริบทมากกว่า 1 ล้านโทเค็น ด้วย การควอนไทซ์ 4 บิต (quantization) โดยยังคงความแม่นยำไว้เกือบครบ ทำให้เดสก์ท็อป GPU ก็สามารถประมวลผลข้อมูลขนาดใหญ่ได้
เพิ่มประสิทธิภาพด้วยการผสานโครงสร้าง Gated Delta Networks และ Mixture-of-Experts(MoE) พร้อมสร้างคำตอบหลังผ่านกระบวนการให้เหตุผลภายในด้วย ‘Thinking Mode’
องค์กรสามารถใช้สิ่งนี้เพื่อ สร้าง AI แบบ on-premises ที่คำนึงถึงความเป็นส่วนตัว และพัฒนา เอเจนต์อัตโนมัติ ได้โดยไม่ต้องพึ่งคลาวด์ต้นทุนสูง

ภาพรวมโมเดล Qwen3.5-Medium

ซีรีส์ Qwen3.5-Medium ที่ทีม Qwen AI ของ Alibaba เปิดตัว ประกอบด้วย LLM 4 รุ่นที่รองรับ agentic tool calling
- โมเดลแบบเปิด: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- โมเดลแบบปิด: Qwen3.5-Flash (สำหรับ Alibaba Cloud Model Studio API เท่านั้น)
โมเดลโอเพนซอร์ส 3 รุ่นสามารถดาวน์โหลดได้จาก Hugging Face และ ModelScope
Qwen3.5-Flash ให้บริการในรูปแบบ API เชิงพาณิชย์ และมี ต้นทุนการใช้งานต่ำกว่า โมเดลจากฝั่งตะวันตก

ประสิทธิภาพและโครงสร้างทางเทคนิค

โมเดล Qwen3.5 ทำผลงานเหนือกว่า OpenAI GPT-5-mini และ Claude Sonnet 4.5 บนเบนช์มาร์ก
แม้หลัง การควอนไทซ์ (quantization) ก็ยังคงความแม่นยำสูง และรองรับ บริบทมากกว่า 1 ล้านโทเค็น บนสภาพแวดล้อม GPU โลคัล (VRAM 32GB)
ใช้ การควอนไทซ์น้ำหนักและ KV cache แบบ 4 บิต เพื่อให้ได้ความแม่นยำแบบแทบไม่สูญเสียและรองรับการประมวลผลข้อมูลขนาดใหญ่
สถาปัตยกรรมไฮบริด: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- จากพารามิเตอร์รวม 35 พันล้านตัว มีเพียง 300 ล้านตัวเท่านั้นที่ถูกเปิดใช้งาน
- ชั้น MoE ประกอบด้วย ผู้เชี่ยวชาญ 256 ตัว (routing 8 + shared 1)
- ยังคงความแม่นยำได้แม้บีบอัดแบบ 4 บิต และช่วยประหยัดหน่วยความจำเมื่อดีพลอยบนเครื่องโลคัล
มีการเปิดเผยโมเดล Qwen3.5-35B-A3B-Base เพิ่มเติมเพื่อสนับสนุนงานวิจัย

องค์ประกอบผลิตภัณฑ์และความสามารถ

Thinking Mode: โมเดลจะสร้างกระบวนการให้เหตุผลภายในด้วยแท็ก `` ก่อนตอบ
จุดเด่นของแต่ละโมเดล
- Qwen3.5-27B: เน้นประสิทธิภาพ รองรับบริบทมากกว่า 800,000 โทเค็น
- Qwen3.5-Flash: บริบทเริ่มต้น 1 ล้านโทเค็น พร้อมเครื่องมือทางการในตัว
- Qwen3.5-122B-A10B: สำหรับ GPU ระดับเซิร์ฟเวอร์ (VRAM 80GB) รองรับบริบท 1 ล้าน+
ผลเบนช์มาร์ก: Qwen3.5-35B-A3B ทำได้ดีกว่า Qwen3-235B, GPT-5-mini และ Sonnet 4.5 ในหมวด ความรู้ (MMMLU) และ การให้เหตุผลเชิงภาพ (MMMU-Pro)

ราคาและการผสาน API

ค่าบริการ API ของ Qwen3.5-Flash
- อินพุต: $0.1 / 1 ล้านโทเค็น
- เอาต์พุต: $0.4 / 1 ล้านโทเค็น
- การสร้างแคช: $0.125 / 1 ล้านโทเค็น
- การอ่านแคช: $0.01 / 1 ล้านโทเค็น
แพ็กเกจค่าบริการเรียกใช้เครื่องมือ: Web Search $10/1,000 ครั้ง, Code Interpreter ฟรี (ชั่วคราว)
เมื่อนำไปเทียบกับ LLM หลัก ๆ แล้ว ถือเป็น หนึ่งใน API ที่ถูกที่สุด
- ตัวอย่าง: Claude Sonnet 4.5 รวม $18/1 ล้านโทเค็น, GPT-5.2 อยู่ที่ $15.75, ส่วน Qwen3.5-Flash อยู่ที่ $0.5

การใช้งานในองค์กรและความหมาย

การเปิดตัว Qwen3.5-Medium ทำให้ การฟाइनจูนและดีพลอยโมเดลระดับที่เคยมีเฉพาะสถาบันวิจัยขนาดใหญ่ กลายเป็นสิ่งที่บริษัททั่วไปเข้าถึงได้
สามารถ วิเคราะห์เอกสารและวิดีโอขนาดใหญ่ในสภาพแวดล้อม on-premises ได้ พร้อม ยกระดับความเป็นส่วนตัวของข้อมูล
รัน โครงสร้าง Mixture-of-Experts ภายในไฟร์วอลล์องค์กรเพื่อ คงอธิปไตยของข้อมูล
ใช้ความสามารถ Thinking Mode และ Tool Calling เพื่อ สร้าง AI agent อัตโนมัติ ได้
ผู้ใช้กลุ่มแรกให้ความเห็นว่า “ช่องว่างกับโมเดลปิดขนาดใหญ่แคบลงแล้ว”
ด้วย การออกแบบที่เน้นประสิทธิภาพ องค์กรจึงสามารถ ลดต้นทุน เสริมความปลอดภัย และเพิ่มความคล่องตัวในการดำเนินงาน ของการผสาน AI ได้

4 ความคิดเห็น

chcv0313 2026-03-02

ผมมี RTX Pro 6000 (96GB, ใช้งานได้จริง 94GB) อยู่ แต่รันโมเดล 122B บน ollama ไม่ขึ้นครับ น่าจะเป็นเพราะเป็นโมเดล vision เลยมีส่วนที่เป็น vision transformer รวมอยู่ด้วยละมั้งครับ แต่โมเดล GPT OSS 120b กลับรันขึ้นได้แบบเหลือ ๆ

ng0301 2026-03-02

ใช่เลย.. พอใช้ vision encoder แม้แต่โมเดล 1B ก็ยังกิน VRAM 9G เลยครับ

kensin2 2026-03-02

ต้องรันด้วยเซิร์ฟเวอร์ llama.cpp ที่อิงกับ CUDA ถึงจะได้ประสิทธิภาพออกมา

GN⁺ 2026-03-02

ความคิดเห็นจาก Hacker News

โมเดลโอเพนซอร์สส่วนใหญ่กำลังเล่นเกม ปรับแต่งเพื่อเบนช์มาร์ก
โมเดลใหม่แต่ละตัวมักโฆษณาว่าอยู่ระดับ SOTA เมื่อไม่กี่เดือนก่อน แต่พอลองใช้จริงก็มักน่าผิดหวัง
ผมลองใช้ทั้ง Qwen3-Coder-Next และ Qwen3.5 แล้ว และยังไม่ถึงระดับ Sonnet 4.5
แต่ถ้ากำหนดเป้าหมายให้ชัดและวางข้อจำกัดผ่านการทดสอบ มันก็จะพยายามอย่างดื้อดึงและสุดท้ายแก้ปัญหาได้
ถึงอย่างนั้นก็ยังน่าประทับใจสำหรับโมเดลโอเพนซอร์ส และการที่ทำได้ขนาดนี้ในสภาพแวดล้อมแบบ self-hosted ก็ถือว่าน่าทึ่ง
แต่ไม่ควรเชื่อคำโฆษณาเกินจริงว่าระดับ Sonnet 4.5
- จากประสบการณ์ของผม โมเดลโอเพนซอร์สบางตัว ทรงพลังและใช้งานได้จริง มาก
  โดยเฉพาะ StepFun-3.5-flash ที่ทำงานได้ยอดเยี่ยมแม้กับโค้ดเบส Rust ที่ซับซ้อน
  ผมไม่ได้เกี่ยวข้องอะไรกับ StepFun แต่ขอชื่นชมทีมที่รีดประสิทธิภาพระดับนี้ออกมาจากสถาปัตยกรรม 196B/11B
- โมเดล “รุ่นก่อน” ยังดีกว่าโอเพนซอร์สอยู่ก็จริง แต่โมเดลอย่าง GLM-5 ดูเหมือนจะจับความสามารถด้าน pattern matching ได้ดี
  เบนช์มาร์กของ GertLabs ค่อนข้างน่าเชื่อถือเพราะปั่นแต่งได้ยาก
- จริง ๆ แล้วการปรับแต่งเพื่อเบนช์มาร์กแบบนี้เป็นสิ่งที่ ทุกโมเดล ทำ
  โมเดลคลาวด์อาจหนักกว่าด้วยซ้ำ เพราะสามารถปรับได้ถึงระดับรันไทม์
- ผมรัน Qwen 3.5 27B บน 4090 อยู่ และนี่เป็นครั้งแรกที่เห็น ความสามารถด้านการเขียนโค้ด ของโมเดลโลคัลดีขนาดนี้
  ก่อนหน้านี้แทบใช้งานไม่ได้เลย แต่รอบนี้น่าทึ่งจริง ๆ
- ผมสงสัยว่ามี เบนช์มาร์กการเขียนโค้ดแบบออฟไลน์/ส่วนตัว ที่ใหม่กว่านี้ไหม แล้ว Apex Testing ก็ดูใช้ได้ทีเดียว
  ถ้าเป็นการทดสอบที่ต่างจากโจทย์มาตรฐาน ก็น่าจะทนต่อการโอเวอร์ฟิตได้ดี
ผมกำลังลองรันโมเดลโลคัลบน MBP M3 Max 128G เพื่อเทียบประสิทธิภาพ
Opus 4.6 กับ Gemini Pro เร็วและแม่นยำ แต่ qwen3.5:35b-a3b ใช้เวลารัน 45 นาทีแล้วให้คำตอบที่ไม่แม่น
เสียงพัดลมดังมากจนเหมือนเครื่องบินกำลังจะขึ้น
เลยสงสัยว่ามันจะใช้จัดการ โค้ดเบสขนาดใหญ่ ด้วยโมเดลที่ช้าแบบนี้ได้จริงหรือ
- จริง ๆ แล้วการรันโอเพนโมเดลระดับ 100B พารามิเตอร์บนโน้ตบุ๊กก็มีข้อจำกัดอยู่แล้ว
  เพราะโมเดลคลาวด์ทำงานบนพารามิเตอร์ระดับ 1T ขึ้นไป และใช้ GPU ราคาหลายล้านดอลลาร์
  การเขียนโค้ดแบบโลคัลในโลกจริงอาจเหมาะแค่ “สร้าง boilerplate ของแอป Android” ประมาณนั้น
- Opus กับ Gemini รันอยู่บน GPU ระดับ H200 ที่มูลค่าหลายล้านดอลลาร์
  โมเดลโลคัลยังอยู่ที่ระดับ ประสิทธิภาพล้าหลังราวสองเจเนอเรชัน และถ้าจะอ้างว่าระดับ Sonnet 4.5 ก็ยังห่างจาก Opus 4.6 มาก
- วงการนี้กำลังติดกับ ตรรกะผิดพลาด ว่า “โมเดลใหญ่ย่อมดีกว่าเสมอ”
  จริง ๆ แล้วโมเดลเล็กที่จูนมาสำหรับปัญหาเฉพาะทางอาจทำงานได้ดีกว่า
  ทีมเรากำลังรันโมเดลขนาดเล็กที่โฟกัสเรื่องโค้ดล้วน ๆ บน M2 16GB และคิดว่ามันดีกว่า Sonnet 4.5
  เราจะเปิด rig.ai เบต้าในเร็ว ๆ นี้
- MacBook มี ข้อจำกัดด้านความร้อน สูง จึงไม่ค่อยเหมาะกับงานต่อเนื่องยาว ๆ
  แม้แต่บนเซิร์ฟเวอร์ ถ้าล็อกความเร็วพัดลมไว้ที่ 100% ก็ทำให้ประสิทธิภาพ GPU ดีขึ้นได้ 30%
  โมเดลโลคัลเหมาะกับงานเบา ๆ และงานหนักควรปล่อยให้คลาวด์ทำจะคุ้มกว่า
- qwen3.5-35b-a3b มีแนวโน้มใช้เวลาไปกับการอนุมานมากเมื่อ คอนเท็กซ์สั้น
  มีรายงานว่าถ้าให้ system prompt ยาว ๆ หรือใส่เนื้อหาไฟล์เข้าไป จะมีประสิทธิภาพดีกว่ามาก
ผมเขียนไกด์สำหรับตั้งค่า llama.cpp, OpenCode และ Qwen3-Coder-30B-A3B-Instruct (GGUF, ควอนไทซ์แบบ Q4_K_M) บน M1 MacBook Pro
ติดตั้งค่อนข้างยาก แต่ใช้กับโมเดลใหม่ ๆ ได้เหมือนกัน
ลิงก์คู่มือติดตั้ง
- ถ้าใช้ LM Studio จะติดตั้งได้ด้วย การค้นหาและคลิกครั้งเดียว และมันจะถูกเปิดให้ใช้ผ่าน API ที่เข้ากันได้กับ OpenAI
- ผมทำเซ็ตอัปเดียวกันบนเดสก์ท็อป Ryzen 32GB ด้วย และ Qwen น่าประทับใจที่สุด
  ด้วยโครงสร้าง MoE มันเลยอนุมานได้เร็วด้วย
  ผมเลือกควอนไทซ์แบบ Q4_K_M แต่อยากรู้ว่านี่เป็นตัวเลือกที่ดีที่สุดไหม
- กำลังรอให้มีโมเดลโลคัลที่ใช้งานได้ดีบนแรม 16GB
- อยากรู้ว่า ความเร็วในการรัน บน M1 ได้ประมาณไหน
ผมเพิ่งเริ่มศึกษาภายในของ LLM และได้ตระหนักว่า float32 มี ความละเอียดที่เผื่อเฟือ มากเกินไป
ผมเรียนเรื่องควอนไทเซชันผ่านบล็อก แล้วให้ Claude วิเคราะห์ความแม่นยำของควอนไทเซชัน 1~8 บิต
4 บิตดูเหมือนเป็น sweet spot เพราะให้ความใกล้เคียง 99% แทบไม่เสียคุณภาพ แต่มีขนาดแค่ครึ่งเดียวของ 8 บิต
พอเห็นว่าผู้เชี่ยวชาญจริง ๆ ก็ใช้ 4 บิตกันก็ยิ่งน่าสนใจ
- ฮาร์ดแวร์ NVIDIA รุ่นใหม่รองรับ การเทรนแบบ 4 บิต แล้ว
  โมเดล GPT-OSS ถูกฝึกด้วยฟอร์แมต MXFP4
  เอกสารมาตรฐาน OCP, สเปกฟอร์แมต MX
- งานวิจัยเรื่อง โมเดล ternary ก็น่าสนใจ
  เพราะคำนวณได้เร็วมากและใช้แคชได้อย่างมีประสิทธิภาพ จึงคุ้มค่าที่จะสำรวจ
- ผมอยากศึกษาเรื่องนี้ต่อ เลยสงสัยว่ามีแหล่งข้อมูลแนะนำไหม
- ผมนึกภาพไม่ออกว่าความต่างของความแม่นยำ 1% จะก่อให้เกิด ผลเชิงการรับรู้ แบบไหนในทางปฏิบัติ
  ระบบมันเป็นกล่องดำมากจนจับสัญชาตญาณได้ยาก
ผมลองรัน Qwen3.5 122B ด้วย LM Studio และ Opencode แล้วค่อนข้างน่าประทับใจ
แม้บนเครื่อง M4 Max/128GB ก็ไม่ได้ช้ามาก และแสดง ความสามารถวิเคราะห์โค้ดระดับ Claude Code
น่าทึ่งที่ทางเลือกแบบโลคัลเต็มรูปแบบพัฒนาไปได้ไกลขนาดนี้
โอเพนโมเดลดีขึ้นเรื่อย ๆ แต่ยังไม่ถึงระดับ Sonnet 4.5
ใน โดเมนแคบ ๆ มันยอดเยี่ยม แต่ยังอ่อนกับการแก้ปัญหาที่กำกวม
Qwen 3.5 เป็น OSS ที่ดีที่สุดเท่าที่ผมเคยใช้มา และเริ่มแสดงความฉลาดจริง ๆ มากขึ้นเรื่อย ๆ
ผมรันมันฟรีบน RTX 6000 Pro แต่ก็ยังใช้ Composer 1.5 บ่อยกว่า
ถึงอย่างนั้นก็หวังว่าภายในปีนี้จะมีโมเดลโลคัลระดับ GPT 5.2 ออกมา
มีคำกล่าวอ้างเกินจริงเยอะมาก
คนที่ลองใช้จริงมีไม่มาก และหลายครั้งก็ขาด เกณฑ์ที่สมจริง
เมื่อก่อนมักจะมีหมายเหตุแปะไว้เสมอว่า “ใช้เกินไม่กี่ K tokens ไม่ได้”
- ผมสร้าง เว็บแอปเครื่องคิดเลข RPN ด้วย Qwen 3.5 122B/a10B (q3, unsloth dynamic quant) และมันเป็นโมเดลโลคัลตัวแรกที่ทำงานได้สมบูรณ์จริง
  โมเดลอื่นมักเขียนสแตกผิดหรือทำ UI ออกมาเละ
  Claude Sonnet 4.6 ก็แก้โจทย์นี้ได้ถูกต้องเหมือนกัน แต่นอกนั้นแทบล้มเหลวทั้งหมด
- Qwen3-Coder-30B-A3B-Instruct ดีสำหรับการผสานเข้ากับ IDE หรือทำงานระดับฟังก์ชันเล็ก ๆ แต่ยังมีข้อจำกัดเมื่อเจองาน พัฒนาฟีเจอร์ขนาดใหญ่
- ผมใช้โมเดล 35B ทำ การติดตั้งใช้งาน PCA ที่อิง Polars เสร็จภายใน 10 นาที
  เมื่อก่อนโมเดลพวกนี้มักหลอนไปเขียนโค้ด pandas ตลอด แต่นี่ถือเป็นความก้าวหน้าครั้งใหญ่
สะดุดตาที่กราฟ SWE ไม่มี Claude อยู่ด้วย
มันให้ความรู้สึกเหมือน จงใจบิดข้อมูล
แค่ท่าทีแบบนี้ก็ทำให้หมดความน่าเชื่อถือแล้ว
รอวันที่จะได้ลองรันเองบนเครื่องโลคัล
อยากลดการพึ่งพาบริการจากสหรัฐฯ
สงสัยว่ามีบริการในยุโรปที่ให้ทดสอบโอเพนโมเดลได้ไหม
- Koyeb หลังถูก Mistral ซื้อกิจการแล้ว สามารถ เช่า GPU แบบคิดเป็นรายนาที ได้ และยังดีพลอยโมเดลได้ด้วยคลิกเดียว