- ซีรีส์โมเดล Qwen3.5 ของ Alibaba มีหลายขนาดตั้งแต่ 0.8B ถึง 397B และรองรับ การให้เหตุผลแบบไฮบริดหลายโมดัล พร้อม คอนเท็กซ์ 256K
- Unsloth เผยแพร่โมเดล Qwen3.5 ทั้งหมดในรูปแบบ Dynamic 2.0 GGUF quantization และสามารถรันบนเครื่องโลคัลผ่าน llama.cpp หรือ LM Studio ได้
- สามารถสลับระหว่างโหมด thinking และ non-thinking ได้ โดยโมเดลขนาดเล็ก (0.8B~9B) จะถูกตั้งค่าเป็นโหมด non-thinking ตามค่าเริ่มต้น
- มีการระบุ ปริมาณ RAM/VRAM ที่ต้องใช้ และ ค่าตั้งแนะนำ (temperature, top_p ฯลฯ) สำหรับแต่ละโมเดลอย่างชัดเจน และสามารถรันโมเดล 27B และ 35B ได้แม้ในสภาพแวดล้อม Mac 22GB
- Unsloth GGUF ปรับปรุงประสิทธิภาพด้วย อัลกอริทึม quantization ที่ปรับปรุงแล้ว และ ข้อมูล imatrix แต่ ไม่รองรับกับ Ollama
ภาพรวมของ Qwen3.5
- Qwen3.5 เป็น ซีรีส์ LLM ใหม่ ที่ Alibaba เปิดตัว ครอบคลุมตั้งแต่ 0.8B·2B·4B·9B (ขนาดเล็ก) ไปจนถึง 27B·35B·122B·397B (ขนาดใหญ่)
- รองรับ การให้เหตุผลแบบไฮบริดหลายโมดัล และประมวลผลได้ถึง 201 ภาษา กับ ความยาวคอนเท็กซ์ 256K
- ให้ประสิทธิภาพสูงในงาน agent coding, vision, conversation และงานบริบทระยะยาว
- โมเดล 35B และ 27B สามารถรันได้แม้บน Mac ที่มี RAM 22GB
- ไฟล์ GGUF ทั้งหมดใช้ อัลกอริทึม quantization ที่ปรับปรุงแล้ว และ ข้อมูล imatrix แบบใหม่
- ปรับปรุงประสิทธิภาพในงานแชต โค้ดดิ้ง บริบทยาว และการเรียกใช้เครื่องมือ (tool-calling)
- เลเยอร์ MXFP4 ถูกนำออกจาก GGUF บางรุ่น (Q2_K_XL, Q3_K_XL, Q4_K_XL)
ข้อกำหนดด้านฮาร์ดแวร์
- ตามตาราง มีการระบุความต้องการหน่วยความจำขั้นต่ำตามขนาดโมเดลไว้อย่างชัดเจน
- ตัวอย่าง: โมเดล 0.8B~2B ต้องใช้ 3GB, 9B ต้องใช้ 5.5GB (เกณฑ์ 3-bit), และ 35B-A3B ต้องใช้ 17GB
- 397B-A17B ต้องใช้ 180GB ที่ 3-bit และ 214GB ที่ 4-bit
- หน่วยความจำรวม (RAM+VRAM) ควรมากกว่าขนาดไฟล์โมเดลเพื่อให้ได้ประสิทธิภาพที่ดีที่สุด
- หากไม่พอ ยังสามารถรันได้ด้วยการ offload ไปยัง SSD/HDD แต่ความเร็วจะลดลง
- 27B เหมาะสำหรับผู้ที่เน้นความแม่นยำ ส่วน 35B-A3B เหมาะสำหรับผู้ที่เน้นความเร็ว
ค่าตั้งแนะนำ
- หน้าต่างคอนเท็กซ์สูงสุด: 262,144 (ขยายได้ถึง 1M ด้วย YaRN)
- presence_penalty: 0.0~2.0 (ใช้ลดการซ้ำ แต่หากตั้งสูงอาจทำให้ประสิทธิภาพลดลงเล็กน้อย)
- ความยาวเอาต์พุต: แนะนำ 32,768 โทเค็น
- ค่าตั้งจะแตกต่างกันตามโหมด Thinking และ Non-thinking
- โหมด Thinking: งานทั่วไปใช้ temperature=1.0, งานโค้ดดิ้งใช้ 0.6
- โหมด Non-thinking: งานทั่วไปใช้ temperature=0.7, งานให้เหตุผลใช้ 1.0
- โมเดลขนาดเล็ก (0.8B~9B) จะปิด reasoning ไว้ตามค่าเริ่มต้น
- หากต้องการเปิดใช้ ให้ใช้
--chat-template-kwargs '{"enable_thinking":true}'
ทิวทอเรียลการรันและการอนุมาน
- ทุกโมเดลมีเวอร์ชัน Dynamic 4-bit MXFP4_MOE GGUF ให้ใช้งาน
- ขั้นตอนการอนุมานบนเครื่องโลคัลด้วย llama.cpp
- ติดตั้งเวอร์ชันล่าสุดจาก GitHub แล้วเลือก GPU/CPU ด้วยตัวเลือก
-DGGML_CUDA
- ดาวน์โหลดโมเดลจาก Hugging Face (
hf download unsloth/Qwen3.5-XXB-GGUF)
- รันด้วยคำสั่ง
llama-cli หรือ llama-server
- สามารถรันบน LM Studio ได้เช่นกัน
- ค้นหาโมเดลแล้วดาวน์โหลด GGUF จากนั้นเปิดใช้งาน Thinking toggle ด้วยไฟล์ YAML
- หลังรีสตาร์ตจะสามารถใช้ฟังก์ชัน toggle ได้
สรุปการรันแยกตามโมเดล
- Qwen3.5-35B-A3B: รันแบบ Dynamic 4-bit ได้เร็วบน Mac/เครื่องที่มี RAM 24GB
- Qwen3.5-27B: รันได้บน Mac/เครื่องที่มี RAM 18GB
- Qwen3.5-122B-A10B: ทำงานได้ในสภาพแวดล้อม Mac/เครื่องที่มี RAM 70GB
- Qwen3.5-397B-A17B:
- 3-bit: ต้องใช้ RAM 192GB, 4-bit: ต้องใช้ RAM 256GB
- เมื่อใช้ร่วมกับ GPU 24GB + RAM 256GB สามารถสร้างได้มากกว่า 25 โทเค็นต่อวินาที
- อยู่ในระดับประสิทธิภาพใกล้เคียง Gemini 3 Pro, Claude Opus 4.5 และ GPT-5.2
เซิร์ฟเวอร์อนุมานและการเชื่อมต่อ API
- สามารถดีพลอยผ่าน
llama-server ในรูปแบบ OpenAI-compatible API ได้
- รองรับฟังก์ชัน Tool Calling
- เรียกใช้ฟังก์ชันอย่างการรันโค้ด Python, คำสั่งเทอร์มินัล, การคำนวณทางคณิตศาสตร์ ฯลฯ ได้
- มีตัวอย่างโค้ด
unsloth_inference() ให้
ผลลัพธ์เบนช์มาร์ก
- เบนช์มาร์ก Unsloth GGUF
- Qwen3.5-35B Dynamic quant ให้ ประสิทธิภาพระดับ SOTA ในช่วงบิตส่วนใหญ่
- มีการทดสอบ KL Divergence มากกว่า 150 ครั้ง และใช้ข้อมูล GGUF รวม 9TB
- ที่ 99.9% KLD ให้ประสิทธิภาพสูงสุดบน Pareto Frontier
- Qwen3.5-397B-A17B
- ในการทดสอบภายนอกโดย Benjamin Marie
- ต้นฉบับ 81.3%, UD-Q4_K_XL 80.5%, UD-Q3_K_XL 80.7%
- ความแม่นยำลดลงไม่ถึง 1 จุด แต่ประหยัดหน่วยความจำได้ราว 500GB
- Q3 ถูกเสนอเป็นตัวเลือกประหยัดหน่วยความจำ ส่วน Q4 เป็นตัวเลือกที่เสถียรกว่า
ฟีเจอร์อื่น ๆ
- มีคำสั่งสำหรับเปิด/ปิด Reasoning (
--chat-template-kwargs)
- เชื่อมต่อกับ Claude Code / OpenAI Codex ได้
- สามารถตั้งค่าการเรียกใช้เครื่องมือของ LLM บนเครื่องโลคัลผ่าน Tool Calling Guide ได้
- ไม่รองรับ Ollama รองรับเฉพาะแบ็กเอนด์ที่อิงกับ llama.cpp
2 ความคิดเห็น
ผมใช้ 27b บน hx370 อยู่ ผลลัพธ์ถือว่าใช้ได้เลย
ความคิดเห็นจาก Hacker News
ลองรัน Qwen3.5 9B บน ASUS 5070ti 16G ด้วย lm studio แล้วได้ประมาณ 100 tok/s ทำงานได้เสถียรมาก
เร็วกว่าบริการ LLM ออนไลน์ส่วนใหญ่ และคุณภาพเอาต์พุตก็สอดคล้องกับระดับในเบนช์มาร์ก
นี่เป็นครั้งแรกที่ได้รัน โมเดลที่ใช้งานจริงได้ บนฮาร์ดแวร์ฝั่งผู้บริโภคแบบนี้
คิดว่าคงไม่ได้หมายถึง การเปรียบเทียบการใช้งานจริง กับโมเดลระดับบนอย่าง Sonnet หรือ Opus
งานเขียนโค้ดต้องการอย่างน้อย 100k context
ของฉันมันติดลูปไม่รู้จบจนต้องปิดไป และต่อให้เปลี่ยนพารามิเตอร์หลายอย่างก็ยังไม่หาย
คุณภาพอยู่ระดับ Sonnet 4.0 ช่วงฤดูร้อนปี 2025 และใน ik_llama.cpp ความเร็วก็ถือว่าดีมาก
ดูเหมือนว่า orchestration จะสำคัญพอสมควร
มีข้อความว่า “All uploads use Unsloth Dynamic 2.0” แต่ในตัวเลือกจริงกลับมีทั้ง IQ4_XS, Q4_K_S, Q4_K_M และอื่น ๆ
เลยสับสนเพราะไม่มี คำอธิบาย trade-off ของแต่ละแบบ
ปกติฉันใช้ Qwen3-4B-Instruct-2507-Q4_K_M บน Mac mini M4 16GB เป็นหลัก แต่ Qwen3.5-4B-UD-Q4_K_XL ช่างพูดกว่ามาก
แม้ว่าความต้องการของแต่ละคนจะต่างกัน แต่ถ้ามี ตารางสรุปการตั้งค่าตามโมเดล/ฮาร์ดแวร์และการใช้หน่วยความจำ ก็คงดีมาก
ใน Reddit เองก็แทบไม่มีตัวอย่างการตั้งค่าที่เจาะจง
ฉันตามประเด็นนี้มาตลอด 3 เดือนล่าสุด แต่ยิ่งเจอความสับสนมากกว่าข้อมูลที่ชัดเจน
ตอนนี้เลยใช้ coder-model ของ qwen CLI บนคลาวด์ไปก่อน และกำลังรอ โมเดลโลคัลกินไฟต่ำ ออกมา
มีการเปรียบเทียบ KL Divergence ต่อพื้นที่ดิสก์ ของ Q4_K_XL กับ Q4_K_M
Q4_0 กับ Q4_1 เร็วก็จริงแต่ความแม่นยำตก เลยไม่ค่อยแนะนำแล้ว
Q4_K_M กับ UD-Q4_K_XL แทบจะเหมือนกัน โดย _XL จะใหญ่กว่านิดหน่อย
แต่ตอนนี้ยังไม่มีข้อมูลที่เกี่ยวกับ Qwen3.5
อาจเป็นเพราะต้องจัดการกับโค้ด Rust
ตอนรัน qwen3.5-35b-a3b แบบ quantized 6bit บน 4090 กลับได้ผลค่อนข้างดี
ตอนนี้ใช้ qwen3.5-27b แบบ 8bit เป็นเอนจินหลักอยู่และค่อนข้างพอใจ
ทุกครั้งที่มีโอเพนโมเดลใหม่ออกมา ฉันจะทดสอบความเร็ว PP (prompt processing) และ TG (token generation) ด้วย llama-cpp/server
ทดลองบน M1 Max 64GB MacBook ในสภาพแวดล้อม Claude Code (context 15~30K)
Qwen3.5-30B-A3B มีความเร็ว TG แค่ประมาณครึ่งเดียวของ Qwen3-30B-A3B
Qwen3.5 ใช้ RAM น้อยเพราะมี sliding window attention และคุณภาพคำตอบก็ดี แต่ที่ context 33k ความเร็วจะช้า
รายละเอียดการตั้งค่าถูกรวบรวมไว้ในเอกสารนี้
ในเบนช์มาร์กส่วนตัว ใช้ Claude Opus เป็นผู้ประเมินโดยอ้างอิงจาก DeepSeek API
Qwen3.5 35B A3B(q8_0, thinking) ได้ 92.5% และ Q4_K_M(thinking) อยู่ที่ประมาณ 90%
แปลกใจเหมือนกัน เพราะคิดว่าโมเดล dense 27B น่าจะได้สูงกว่า
แต่ตัวเลขนี้เป็นการประเมิน คำตอบแบบ one-shot เลยยังไม่สะท้อนสถานการณ์ที่มีการวนลูปแบบเอเจนต์
เป็นไปได้ว่า ความไม่สอดคล้องเชิงตรรกะ ในพรอมป์ต์ไปรบกวนการให้เหตุผลของ 27B
ถ้าดู thinking trace ก็น่าจะช่วย debug สาเหตุได้
ฉันลองใช้ Qwen3.5 9B บน CPU สำหรับงาน OCR และจัดระเบียบข้อความ แล้วพบว่าใช้ได้ค่อนข้างดี
แต่ GPU offloading ทำงานไม่ถูกต้อง ทำให้บน 1650 Ti ที่มี VRAM 4GB เกิดหน่วยความจำล้น
ใช้คำสั่ง
sudo apt install nvidia-driver-570ได้เลยโมเดล 35B ทำงานด้วยความเร็วใกล้กับโมเดล 4B แต่ทรงพลังกว่ามาก
เพียงแต่ qwen3.5 มี ความเร็วแค่ครึ่งเดียว ของ qwen3
ถึงอย่างนั้นโดยรวมก็ยังพอใจ
ฉันกำลังรัน Qwen3.5:0.8b บน Orangepi Zero 2w โดยใช้ CPU อย่างเดียวได้ดี
ถ้าอยากใช้ Vulkan GPU ก็จะรัน qwen3.5:2b บน Meta Quest 3 ผ่าน zeroclaw
ทำให้ประหยัดเงินไปได้หลายร้อยดอลลาร์ในสภาพแวดล้อมพลังงานต่ำ
แนะนำให้ลองรันโมเดลโลคัลบน มือถือ Android มือสอง
อยากรู้ว่ามีที่ไหน ให้บริการโฮสต์ โมเดล 9B บ้างไหม
ในสภาพแวดล้อมธุรกิจที่เช่า GPU ยาก OpenRouter เลยไม่มีโมเดลเล็ก
ถ้ามีเทมเพลต runpod serverless ก็น่าจะดี
และก็อยากรู้ว่าโมเดล 9B บน 4090 จะรันแบบ 8bit หรือ 6bit ด้วย latency ต่ำ ได้ไหม
ฉันลองรัน Qwen3.5 35B-A3B บน RTX 3050 8GB แล้วพบว่าตอบสนองค่อนข้างดีและจัดการงานเขียนโค้ดได้ด้วย
เวอร์ชันก่อนหน้านี้มีปัญหาติดลูประหว่างใช้ทูล แต่ดูเหมือนเวอร์ชันใหม่จะแก้แล้ว
อยากรู้ค่า tok/s ด้วย
บนโน้ตบุ๊ก RTX 3060 ก็น่าจะใช้เป็นเซิร์ฟเวอร์โลคัลได้ดีเหมือนกัน
ไม่คิดว่าโมเดลโลคัลจะทำได้ดีขนาดนั้น
อยากรู้ว่าโมเดล 397B-A17B เทียบกับ Frontier เป็นอย่างไร
คิดว่าคงต้องใช้ฮาร์ดแวร์หนักมากจนคนส่วนใหญ่รันไม่ได้
สำหรับฉัน โมเดล 122B ก็ น่าพอใจเพียงพอในแง่ความเป็นส่วนตัวและการประหยัดค่าใช้จ่าย
อยากรู้ว่าโมเดลนี้จะรันได้ไหมบนเซิร์ฟเวอร์ 4xV100 Tesla รุ่นเก่า
การตั้งค่าที่เกี่ยวกับ fp ค่อนข้างซับซ้อนจนสำหรับมือใหม่แล้วเข้าใจยาก