- ซีรีส์ Qwen3.5 ประกอบด้วยโมเดลภาษาขนาดใหญ่ 4 รุ่น ได้แก่ 35B, 122B, 27B และรุ่นอื่น ๆ โดย 3 รุ่นเปิดเผยภายใต้ ไลเซนส์โอเพนซอร์ส Apache 2.0
- ทำผลงานบนเบนช์มาร์กได้เหนือกว่า OpenAI GPT-5-mini และ Anthropic Claude Sonnet 4.5 พร้อมทั้ง รันประสิทธิภาพสูงได้แม้ในสภาพแวดล้อม GPU แบบโลคัล
- รองรับ บริบทมากกว่า 1 ล้านโทเค็น ด้วย การควอนไทซ์ 4 บิต (quantization) โดยยังคงความแม่นยำไว้เกือบครบ ทำให้เดสก์ท็อป GPU ก็สามารถประมวลผลข้อมูลขนาดใหญ่ได้
- เพิ่มประสิทธิภาพด้วยการผสานโครงสร้าง Gated Delta Networks และ Mixture-of-Experts(MoE) พร้อมสร้างคำตอบหลังผ่านกระบวนการให้เหตุผลภายในด้วย ‘Thinking Mode’
- องค์กรสามารถใช้สิ่งนี้เพื่อ สร้าง AI แบบ on-premises ที่คำนึงถึงความเป็นส่วนตัว และพัฒนา เอเจนต์อัตโนมัติ ได้โดยไม่ต้องพึ่งคลาวด์ต้นทุนสูง
ภาพรวมโมเดล Qwen3.5-Medium
- ซีรีส์ Qwen3.5-Medium ที่ทีม Qwen AI ของ Alibaba เปิดตัว ประกอบด้วย LLM 4 รุ่นที่รองรับ agentic tool calling
- โมเดลแบบเปิด: Qwen3.5-35B-A3B, Qwen3.5-122B-A10B, Qwen3.5-27B
- โมเดลแบบปิด: Qwen3.5-Flash (สำหรับ Alibaba Cloud Model Studio API เท่านั้น)
- โมเดลโอเพนซอร์ส 3 รุ่นสามารถดาวน์โหลดได้จาก Hugging Face และ ModelScope
- Qwen3.5-Flash ให้บริการในรูปแบบ API เชิงพาณิชย์ และมี ต้นทุนการใช้งานต่ำกว่า โมเดลจากฝั่งตะวันตก
ประสิทธิภาพและโครงสร้างทางเทคนิค
- โมเดล Qwen3.5 ทำผลงานเหนือกว่า OpenAI GPT-5-mini และ Claude Sonnet 4.5 บนเบนช์มาร์ก
- แม้หลัง การควอนไทซ์ (quantization) ก็ยังคงความแม่นยำสูง และรองรับ บริบทมากกว่า 1 ล้านโทเค็น บนสภาพแวดล้อม GPU โลคัล (VRAM 32GB)
- ใช้ การควอนไทซ์น้ำหนักและ KV cache แบบ 4 บิต เพื่อให้ได้ความแม่นยำแบบแทบไม่สูญเสียและรองรับการประมวลผลข้อมูลขนาดใหญ่
- สถาปัตยกรรมไฮบริด: Gated Delta Networks + Sparse Mixture-of-Experts(MoE)
- จากพารามิเตอร์รวม 35 พันล้านตัว มีเพียง 300 ล้านตัวเท่านั้นที่ถูกเปิดใช้งาน
- ชั้น MoE ประกอบด้วย ผู้เชี่ยวชาญ 256 ตัว (routing 8 + shared 1)
- ยังคงความแม่นยำได้แม้บีบอัดแบบ 4 บิต และช่วยประหยัดหน่วยความจำเมื่อดีพลอยบนเครื่องโลคัล
- มีการเปิดเผยโมเดล Qwen3.5-35B-A3B-Base เพิ่มเติมเพื่อสนับสนุนงานวิจัย
องค์ประกอบผลิตภัณฑ์และความสามารถ
- Thinking Mode: โมเดลจะสร้างกระบวนการให้เหตุผลภายในด้วยแท็ก `` ก่อนตอบ
- จุดเด่นของแต่ละโมเดล
- Qwen3.5-27B: เน้นประสิทธิภาพ รองรับบริบทมากกว่า 800,000 โทเค็น
- Qwen3.5-Flash: บริบทเริ่มต้น 1 ล้านโทเค็น พร้อมเครื่องมือทางการในตัว
- Qwen3.5-122B-A10B: สำหรับ GPU ระดับเซิร์ฟเวอร์ (VRAM 80GB) รองรับบริบท 1 ล้าน+
- ผลเบนช์มาร์ก: Qwen3.5-35B-A3B ทำได้ดีกว่า Qwen3-235B, GPT-5-mini และ Sonnet 4.5 ในหมวด ความรู้ (MMMLU) และ การให้เหตุผลเชิงภาพ (MMMU-Pro)
ราคาและการผสาน API
- ค่าบริการ API ของ Qwen3.5-Flash
- อินพุต: $0.1 / 1 ล้านโทเค็น
- เอาต์พุต: $0.4 / 1 ล้านโทเค็น
- การสร้างแคช: $0.125 / 1 ล้านโทเค็น
- การอ่านแคช: $0.01 / 1 ล้านโทเค็น
- แพ็กเกจค่าบริการเรียกใช้เครื่องมือ: Web Search $10/1,000 ครั้ง, Code Interpreter ฟรี (ชั่วคราว)
- เมื่อนำไปเทียบกับ LLM หลัก ๆ แล้ว ถือเป็น หนึ่งใน API ที่ถูกที่สุด
- ตัวอย่าง: Claude Sonnet 4.5 รวม $18/1 ล้านโทเค็น, GPT-5.2 อยู่ที่ $15.75, ส่วน Qwen3.5-Flash อยู่ที่ $0.5
การใช้งานในองค์กรและความหมาย
- การเปิดตัว Qwen3.5-Medium ทำให้ การฟाइनจูนและดีพลอยโมเดลระดับที่เคยมีเฉพาะสถาบันวิจัยขนาดใหญ่ กลายเป็นสิ่งที่บริษัททั่วไปเข้าถึงได้
- สามารถ วิเคราะห์เอกสารและวิดีโอขนาดใหญ่ในสภาพแวดล้อม on-premises ได้ พร้อม ยกระดับความเป็นส่วนตัวของข้อมูล
- รัน โครงสร้าง Mixture-of-Experts ภายในไฟร์วอลล์องค์กรเพื่อ คงอธิปไตยของข้อมูล
- ใช้ความสามารถ Thinking Mode และ Tool Calling เพื่อ สร้าง AI agent อัตโนมัติ ได้
- ผู้ใช้กลุ่มแรกให้ความเห็นว่า “ช่องว่างกับโมเดลปิดขนาดใหญ่แคบลงแล้ว”
- ด้วย การออกแบบที่เน้นประสิทธิภาพ องค์กรจึงสามารถ ลดต้นทุน เสริมความปลอดภัย และเพิ่มความคล่องตัวในการดำเนินงาน ของการผสาน AI ได้
4 ความคิดเห็น
ผมมี RTX Pro 6000 (96GB, ใช้งานได้จริง 94GB) อยู่ แต่รันโมเดล 122B บน ollama ไม่ขึ้นครับ น่าจะเป็นเพราะเป็นโมเดล vision เลยมีส่วนที่เป็น vision transformer รวมอยู่ด้วยละมั้งครับ แต่โมเดล GPT OSS 120b กลับรันขึ้นได้แบบเหลือ ๆ
ใช่เลย.. พอใช้ vision encoder แม้แต่โมเดล 1B ก็ยังกิน VRAM 9G เลยครับ
ต้องรันด้วยเซิร์ฟเวอร์
llama.cppที่อิงกับ CUDA ถึงจะได้ประสิทธิภาพออกมาความคิดเห็นจาก Hacker News
โมเดลโอเพนซอร์สส่วนใหญ่กำลังเล่นเกม ปรับแต่งเพื่อเบนช์มาร์ก
โมเดลใหม่แต่ละตัวมักโฆษณาว่าอยู่ระดับ SOTA เมื่อไม่กี่เดือนก่อน แต่พอลองใช้จริงก็มักน่าผิดหวัง
ผมลองใช้ทั้ง Qwen3-Coder-Next และ Qwen3.5 แล้ว และยังไม่ถึงระดับ Sonnet 4.5
แต่ถ้ากำหนดเป้าหมายให้ชัดและวางข้อจำกัดผ่านการทดสอบ มันก็จะพยายามอย่างดื้อดึงและสุดท้ายแก้ปัญหาได้
ถึงอย่างนั้นก็ยังน่าประทับใจสำหรับโมเดลโอเพนซอร์ส และการที่ทำได้ขนาดนี้ในสภาพแวดล้อมแบบ self-hosted ก็ถือว่าน่าทึ่ง
แต่ไม่ควรเชื่อคำโฆษณาเกินจริงว่าระดับ Sonnet 4.5
โดยเฉพาะ StepFun-3.5-flash ที่ทำงานได้ยอดเยี่ยมแม้กับโค้ดเบส Rust ที่ซับซ้อน
ผมไม่ได้เกี่ยวข้องอะไรกับ StepFun แต่ขอชื่นชมทีมที่รีดประสิทธิภาพระดับนี้ออกมาจากสถาปัตยกรรม 196B/11B
เบนช์มาร์กของ GertLabs ค่อนข้างน่าเชื่อถือเพราะปั่นแต่งได้ยาก
โมเดลคลาวด์อาจหนักกว่าด้วยซ้ำ เพราะสามารถปรับได้ถึงระดับรันไทม์
ก่อนหน้านี้แทบใช้งานไม่ได้เลย แต่รอบนี้น่าทึ่งจริง ๆ
ถ้าเป็นการทดสอบที่ต่างจากโจทย์มาตรฐาน ก็น่าจะทนต่อการโอเวอร์ฟิตได้ดี
ผมกำลังลองรันโมเดลโลคัลบน MBP M3 Max 128G เพื่อเทียบประสิทธิภาพ
Opus 4.6 กับ Gemini Pro เร็วและแม่นยำ แต่ qwen3.5:35b-a3b ใช้เวลารัน 45 นาทีแล้วให้คำตอบที่ไม่แม่น
เสียงพัดลมดังมากจนเหมือนเครื่องบินกำลังจะขึ้น
เลยสงสัยว่ามันจะใช้จัดการ โค้ดเบสขนาดใหญ่ ด้วยโมเดลที่ช้าแบบนี้ได้จริงหรือ
เพราะโมเดลคลาวด์ทำงานบนพารามิเตอร์ระดับ 1T ขึ้นไป และใช้ GPU ราคาหลายล้านดอลลาร์
การเขียนโค้ดแบบโลคัลในโลกจริงอาจเหมาะแค่ “สร้าง boilerplate ของแอป Android” ประมาณนั้น
โมเดลโลคัลยังอยู่ที่ระดับ ประสิทธิภาพล้าหลังราวสองเจเนอเรชัน และถ้าจะอ้างว่าระดับ Sonnet 4.5 ก็ยังห่างจาก Opus 4.6 มาก
จริง ๆ แล้วโมเดลเล็กที่จูนมาสำหรับปัญหาเฉพาะทางอาจทำงานได้ดีกว่า
ทีมเรากำลังรันโมเดลขนาดเล็กที่โฟกัสเรื่องโค้ดล้วน ๆ บน M2 16GB และคิดว่ามันดีกว่า Sonnet 4.5
เราจะเปิด rig.ai เบต้าในเร็ว ๆ นี้
แม้แต่บนเซิร์ฟเวอร์ ถ้าล็อกความเร็วพัดลมไว้ที่ 100% ก็ทำให้ประสิทธิภาพ GPU ดีขึ้นได้ 30%
โมเดลโลคัลเหมาะกับงานเบา ๆ และงานหนักควรปล่อยให้คลาวด์ทำจะคุ้มกว่า
มีรายงานว่าถ้าให้ system prompt ยาว ๆ หรือใส่เนื้อหาไฟล์เข้าไป จะมีประสิทธิภาพดีกว่ามาก
ผมเขียนไกด์สำหรับตั้งค่า llama.cpp, OpenCode และ Qwen3-Coder-30B-A3B-Instruct (GGUF, ควอนไทซ์แบบ Q4_K_M) บน M1 MacBook Pro
ติดตั้งค่อนข้างยาก แต่ใช้กับโมเดลใหม่ ๆ ได้เหมือนกัน
ลิงก์คู่มือติดตั้ง
ด้วยโครงสร้าง MoE มันเลยอนุมานได้เร็วด้วย
ผมเลือกควอนไทซ์แบบ Q4_K_M แต่อยากรู้ว่านี่เป็นตัวเลือกที่ดีที่สุดไหม
ผมเพิ่งเริ่มศึกษาภายในของ LLM และได้ตระหนักว่า float32 มี ความละเอียดที่เผื่อเฟือ มากเกินไป
ผมเรียนเรื่องควอนไทเซชันผ่านบล็อก แล้วให้ Claude วิเคราะห์ความแม่นยำของควอนไทเซชัน 1~8 บิต
4 บิตดูเหมือนเป็น sweet spot เพราะให้ความใกล้เคียง 99% แทบไม่เสียคุณภาพ แต่มีขนาดแค่ครึ่งเดียวของ 8 บิต
พอเห็นว่าผู้เชี่ยวชาญจริง ๆ ก็ใช้ 4 บิตกันก็ยิ่งน่าสนใจ
โมเดล GPT-OSS ถูกฝึกด้วยฟอร์แมต MXFP4
เอกสารมาตรฐาน OCP, สเปกฟอร์แมต MX
เพราะคำนวณได้เร็วมากและใช้แคชได้อย่างมีประสิทธิภาพ จึงคุ้มค่าที่จะสำรวจ
ระบบมันเป็นกล่องดำมากจนจับสัญชาตญาณได้ยาก
ผมลองรัน Qwen3.5 122B ด้วย LM Studio และ Opencode แล้วค่อนข้างน่าประทับใจ
แม้บนเครื่อง M4 Max/128GB ก็ไม่ได้ช้ามาก และแสดง ความสามารถวิเคราะห์โค้ดระดับ Claude Code
น่าทึ่งที่ทางเลือกแบบโลคัลเต็มรูปแบบพัฒนาไปได้ไกลขนาดนี้
โอเพนโมเดลดีขึ้นเรื่อย ๆ แต่ยังไม่ถึงระดับ Sonnet 4.5
ใน โดเมนแคบ ๆ มันยอดเยี่ยม แต่ยังอ่อนกับการแก้ปัญหาที่กำกวม
Qwen 3.5 เป็น OSS ที่ดีที่สุดเท่าที่ผมเคยใช้มา และเริ่มแสดงความฉลาดจริง ๆ มากขึ้นเรื่อย ๆ
ผมรันมันฟรีบน RTX 6000 Pro แต่ก็ยังใช้ Composer 1.5 บ่อยกว่า
ถึงอย่างนั้นก็หวังว่าภายในปีนี้จะมีโมเดลโลคัลระดับ GPT 5.2 ออกมา
มีคำกล่าวอ้างเกินจริงเยอะมาก
คนที่ลองใช้จริงมีไม่มาก และหลายครั้งก็ขาด เกณฑ์ที่สมจริง
เมื่อก่อนมักจะมีหมายเหตุแปะไว้เสมอว่า “ใช้เกินไม่กี่ K tokens ไม่ได้”
โมเดลอื่นมักเขียนสแตกผิดหรือทำ UI ออกมาเละ
Claude Sonnet 4.6 ก็แก้โจทย์นี้ได้ถูกต้องเหมือนกัน แต่นอกนั้นแทบล้มเหลวทั้งหมด
เมื่อก่อนโมเดลพวกนี้มักหลอนไปเขียนโค้ด pandas ตลอด แต่นี่ถือเป็นความก้าวหน้าครั้งใหญ่
สะดุดตาที่กราฟ SWE ไม่มี Claude อยู่ด้วย
มันให้ความรู้สึกเหมือน จงใจบิดข้อมูล
แค่ท่าทีแบบนี้ก็ทำให้หมดความน่าเชื่อถือแล้ว
รอวันที่จะได้ลองรันเองบนเครื่องโลคัล
อยากลดการพึ่งพาบริการจากสหรัฐฯ
สงสัยว่ามีบริการในยุโรปที่ให้ทดสอบโอเพนโมเดลได้ไหม