- Qwen 3.6 27B ดูเป็นตัวเลือกที่มีความหมายสำหรับงานทั่วไป แม้กับผู้ใช้ที่เดิมเคยสงสัยในโมเดลแบบโลคัล โดยเป็น dense model ที่แม้จะช้ากว่า 35B A3B แต่ทรงพลังกว่าและน่าแนะนำ
- ในการทดสอบงานสร้างสรรค์และงานโค้ด จุดแข็งที่เห็นได้ชัดคือ การทำตามข้อจำกัดที่กำหนด โดยใน OpenCode มันสร้างเกม Minesweeper แบบหกเหลี่ยมที่ใช้
pnpmออกมาเป็นแพ็กเกจ Node ได้จากพรอมป์เดียว - เมื่อนำ
llama.cppมาจับคู่กับโมเดล quantized แบบ GGUF 8-bit จาก Hugging Face ก็สามารถรันแบบโลคัลได้ และยังจัดสภาพแวดล้อมสำหรับ agent coding ได้ด้วยการตั้งค่า MTP, การโหลดเลเยอร์ขึ้น GPU, flash attention และคอนเท็กซ์ 64k - ในการทดสอบบน Macbook Max M5 128GB, Qwen3.6-27B 8-bit ทำได้ 32 tok/s ด้วย
llama.cpp + MTPและใช้ RAM ราว 42GB โดยแม้ 35B A3B จะเร็วกว่า แต่คุณภาพโค้ดดีกว่าจึงทำให้ 27B เป็นตัวเลือกที่ชอบมากกว่า - ตามเกณฑ์ของ Artificial Analysis, Qwen3.6-27B ได้ 37 คะแนน อยู่ในระดับกลางปี 2025 เทียบกับ GPT-5 / Claude Sonnet 4.5 และเหมาะใช้งานจริงกับข้อมูลอ่อนไหว งานออฟไลน์ และการดูแลโมเดลของตนเองที่ไม่สามารถถูกเรียกคืนได้
เหตุผลที่แนะนำ Qwen 3.6 27B
- Qwen 3.6 มีให้เลือกสองเวอร์ชัน
- Qwen 3.6 35B A3B: โมเดล mixture-of-experts
- Qwen 3.6 27B: dense model ที่ช้ากว่าแต่เป็นตัวเลือกที่ทรงพลังกว่า
- Qwen 3.6 27B ได้รับเสียงตอบรับมากว่า “ประสิทธิภาพเกินขนาดโมเดล” และมีตัวอย่างที่เกี่ยวข้องคือ Will it Mythos?
- ระหว่างรันแบบโลคัล เครื่องอาจร้อนขึ้นได้ แต่ประสิทธิภาพก็คุ้มค่าพอให้ยอมรับได้
การทดสอบง่าย ๆ และผลลัพธ์จากงานจริง
- สำหรับ smoke test แบบง่าย ผู้เขียนเลือกใช้ การเขียนตามข้อจำกัด แทน “penguins on a bicycle” ของ Simon Willison
- เมื่อขอให้แต่งบทกวี 8 บรรทัดในหัวข้อการเต้น Zouk และฟิสิกส์ควอนตัม ลำดับความคิดในการจัดการคำศัพท์ควอนตัมและสัมผัสดูไหลลื่นเป็นธรรมชาติ
- บทสนทนาที่เกี่ยวข้องดูได้ที่ transcript
- เมื่อขอให้มันสร้าง Minesweeper แบบหกเหลี่ยม ใน OpenCode โดยใช้
pnpmมันสามารถสร้างแพ็กเกจ Node ที่ใช้งานได้ถูกต้องจากพรอมป์เดียว - Qwen 3.6 35B A3B เร็วกว่า แต่ไม่ทำตามคำสั่งที่ให้สร้างเป็นแพ็กเกจ และทำออกมาเป็น
index.htmlเดี่ยวแทน - แม้ในงานลักษณะงานทั่วไป มันก็สร้างผลงานที่ใช้งานได้จากพรอมป์สั้น ๆ และมีการตอบสนองกับค่าตั้งต้นที่ค่อนข้างดี
- เมื่อเทียบกับ frontier model อาจไม่โดดเด่นเป็นพิเศษ แต่สำหรับโมเดลโลคัลถือว่าไปถึงระดับใช้งานจริงแล้ว
การรันแบบโลคัลด้วย llama.cpp
-
การรันโมเดลแบบโลคัลทำได้ด้วย CLI ไม่กี่บรรทัด และเครื่องมือที่แนะนำคือ llama.cpp
-
ใช้งานโดยดาวน์โหลด โมเดล quantized ที่ลดขนาดแล้วจาก Hugging Face
- แหล่งยอดนิยมสำหรับโมเดล quantized ได้แก่ unsloth และ bartowski
- โมเดลตั้งต้นมักใช้ความแม่นยำแบบ
BF16 - การ quantize แบบ 8-bit แทบไม่ทำให้คุณภาพลดลง แต่ลดพื้นที่ลงได้ครึ่งหนึ่ง
- การ quantize บิตต่ำกว่านี้จะทำให้โมเดลเล็กลงและอาจเร็วขึ้น แต่ต้องแลกด้วยคุณภาพ
- การเปรียบเทียบ 27B ดูได้ที่ Reddit benchmark, ส่วน 35B A3B ดูได้ที่ Hugging Face discussion
-
ตัวอย่างการรันเซิร์ฟเวอร์
llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080-hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: ดึงโมเดลจาก Hugging Face และจะนำกลับมาใช้ซ้ำในการรันครั้งถัดไป-m ~/models/Qwen3.6-27B-Q8_0.gguf: หากมีไฟล์โมเดลอยู่แล้วก็ใช้แทนได้draft-mtp: ใช้ multi-token prediction ที่ให้โมเดลที่เร็วกว่าเดาโทเคนถัดไปเพื่อเพิ่มความเร็ว-ngl 999: โหลดทุกเลเยอร์ขึ้น GPU-fa on: เปิด flash attention-c 65536: ตั้งขนาดคอนเท็กซ์เป็น 64k โทเคน- คอนเท็กซ์แบบ native ของ Qwen 3.6 27B คือ 256k
--port 8080: กำหนดพอร์ตคงที่เพื่อให้ใช้งานกับการตั้งค่าอื่นได้- เปิด
http://127.0.0.1:8080เพื่อแชตได้โดยตรง
-
การตั้งค่า OpenCode
- สามารถใช้เซิร์ฟเวอร์เดียวกันนี้กับ vibe coding ได้เช่นกัน
- ใน OpenCode ให้เพิ่มการตั้งค่าต่อไปนี้ใน
~/.config/opencode/opencode.jsonc
{ "$schema": "https://opencode.ai/config.json", "provider": { "llama": { "name": "llama.cpp (local)", "npm": "@ai-sdk/openai-compatible", "options": { "baseURL": "http://127.0.0.1:8080/v1", "apiKey": "local" }, "models": { "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" } } } }, "model": "llama/qwen3.6-27b" } -
การรันสำหรับแชตในเทอร์มินัล
- หากต้องการแชตอย่างเดียวในเทอร์มินัล สามารถใช้
llama-cliแทนllama-serverได้
llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \ -ngl 999 -fa on -c 65536 - หากต้องการแชตอย่างเดียวในเทอร์มินัล สามารถใช้
การวัดประสิทธิภาพบน Apple Silicon
- ผลการทดสอบถูกรวบรวมไว้ที่ benching-local-llms-on-apple-silicon และรันบน Macbook Max M5 128GB
- Qwen3.6-35B-A3B · 8-bit
- MLX: 85 tok/s, RAM 37GB
- llama.cpp: 93 tok/s, RAM 44GB
- llama.cpp + MTP: 105 tok/s, RAM 45GB
- Qwen3.6-27B · 8-bit
- MLX: 17 tok/s, RAM 28GB
- llama.cpp: 18 tok/s, RAM 41GB
- llama.cpp + MTP: 32 tok/s, RAM 42GB
- DeepSeek-V4-Flash · Q2–Q4
- llama.cpp: 33 tok/s, RAM 103GB
- ความเร็ว 30 tok/s ถือว่าไม่เลว และอยู่ในช่วงเดียวกับ API ของ frontier model ทั่วไป
- mlx-lm ถูกออกแบบมาสำหรับ Apple Silicon แต่ในการทดสอบนี้ llama.cpp เร็วกว่า
- ระหว่างรัน การใช้งาน GPU อยู่ที่ 95% แสดงว่ามีการใช้ทรัพยากรที่มีได้อย่างมีประสิทธิภาพ
- Qwen 3.6 ทั้งสองเวอร์ชันสามารถรันได้ภายใน RAM แบบแชร์ 48GB ของ Apple Silicon
- บนการ์ด Nvidia RTX สำหรับผู้บริโภค อาจต้องใช้การ quantize ที่ดุดันกว่านี้ แต่การอนุมานจะรันได้เร็วกว่า
- gfosco บน Hacker News ระบุว่า บน 5090 พร้อมการ quantize แบบ Q6_K และ Q4_0 KV ที่คอนเท็กซ์ 123k สามารถทำได้คงที่ที่ 50 tok/s และใช้ VRAM ราว 28/32GB ผ่าน LM Studio
- 35B A3B เร็วกว่า 3 เท่า แต่ถึงจะสร้างโค้ดได้เพียงหนึ่งในสาม ก็ยังอาจคุ้มที่จะเลือก 27B หากคุณภาพสูงกว่า
การเปรียบเทียบกับโมเดลล้ำสมัยรุ่นก่อนหน้า
- ในการเปรียบเทียบคะแนนของ Artificial Analysis, Qwen3.6-27B ได้ 37 คะแนน
- รายการสำคัญในตารางเปรียบเทียบมีดังนี้
- Gemma 4 31B: 29 คะแนน, ระดับปลายปี 2024, o1 / Claude 3.5 Sonnet
- Qwen3.6-35B-A3B: 32 คะแนน, ระดับต้นปี 2025, o3 / Claude 4 Sonnet
- Qwen3.6-27B: 37 คะแนน, ระดับกลางปี 2025, GPT-5 / Claude Sonnet 4.5
- DeepSeek-V4-Flash: 40 คะแนน, ระดับปลายปี 2025, GPT-5.2 / Claude Opus 4.5
- benchmark เพิ่มเติมดูได้ใน notes และแนวโน้มโดยรวมก็คล้ายกัน
- Gemma 4 31B ถูกใส่เข้ามาในการเปรียบเทียบเพราะมีคนจำนวนมากใช้เป็นค่าเริ่มต้นสำหรับงานโค้ดแบบโลคัล
- ทั้ง benchmark และเสียงตอบรับออนไลน์ต่างชอบ Qwen 3.6 27B มากกว่า Gemma 4 31B อย่างชัดเจน
- อย่างไรก็ตาม ต้องระวังเรื่อง เงื่อนไขการ quantize
- การ quantize แบบ 8-bit อาจแทบไม่ส่งผลต่อผลลัพธ์มากนัก
- DwarfStar4 ใช้การ quantize ที่ดุดันกว่ามากระดับ 2–4bit กับ DeepSeek V4 Flash จึงแย่กว่าตัวโมเดลเต็มอย่างชัดเจน
- ภายใต้เงื่อนไขนี้ Qwen 3.6 27B ให้ความรู้สึกว่าเทียบเท่าหรือดีกว่า DwarfStar4 เล็กน้อย
- ในโปรเจ็กต์ที่ใช้คอนเท็กซ์ยาวกว่า DS4 อาจมีข้อได้เปรียบ
ก้าวถัดไปของการใช้งานโมเดลแบบโลคัล
- การรันโมเดลด้วยตนเองกำลังกลายเป็นทางเลือกที่สมจริงมากขึ้นเรื่อย ๆ
- สถานะของ frontier model แบบปิดอาจยิ่งผลักดันแนวโน้มนี้
- Claude Fable 5 กำลังถอยลง
- frontier model อื่น ๆ ทำงานอยู่บนโครงสร้างการอุดหนุนขนาดใหญ่ ซึ่งการจ่ายเดือนละ 100 ดอลลาร์กลับใช้งานโทเคนได้มูลค่าหลายพันดอลลาร์
- โมเดลโลคัลที่ตั้งค่าเองสามารถ fine-tune ให้ตรงความต้องการได้ และไม่สามารถถูกเรียกคืนจากภายนอกได้
- องค์กรสามารถใช้โมเดลโลคัลกับข้อมูลเฉพาะทางและข้อมูลอ่อนไหวได้
- ผู้ใช้ทั่วไปสามารถใช้โมเดลโลคัลกับโปรเจ็กต์ออฟไลน์ หรือในสถานการณ์ที่ไม่ต้องการแชร์ความลับสำคัญหรือข้อมูลทางการแพทย์กับสหรัฐฯ หรือจีน
- การเปิดตัว frontier-level open-weight GLM 5.2 ยิ่งเร่งกระแสโมเดลโลคัลให้เร็วขึ้น
- Qwen 3.6 เป็นเหมือนหินก้าวข้าม และ GLM 5.2 ก็รันแบบโลคัลได้เช่นกัน
- GLM 5.2 ไม่สามารถรันได้บน Macbook หรือ RTX 5090 เพียงใบเดียว แต่ยังอยู่ในระดับที่งบประมาณบริษัทพอรับได้
- อาจมีโมเดลที่ฉลาดกว่าระดับล้ำสมัยในปัจจุบัน แต่รันได้บนอุปกรณ์โลคัล หรือแม้แต่บนสมาร์ตโฟนในอนาคต
- ปัจจุบันโมเดลยังผูกความฉลาดเชิงดิบและความรู้ข้อเท็จจริงไว้ในน้ำหนักเดียวกัน แต่โมเดลในอนาคตมีแนวโน้มจะแยกสองสิ่งนี้ออกจากกัน โดยส่งผ่านความรู้ไปยัง tool calling แทน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ชอบ MacBook Pro M5 RAM 128GB กับ qwen3.6 นะ แต่ถ้าคิดจะเขียนโค้ดจริงจังด้วย LLM แบบโลคัล ก็ไม่ควรซื้อ MacBook เครื่องนี้
เหตุผลง่ายมาก: นิ้วจะร้อน และเสียงพัดลมจะทำให้รู้สึกเหมือนหัวจะระเบิด
การรันงานซับซ้อนบนโน้ตบุ๊กที่ใช้งานจริงนั้นไม่ค่อยสมเหตุสมผล และแม้จะทำได้ในโหมด clamshell แต่ระหว่างงาน AI coding หรือ agent ก็แทบจับเครื่องไม่ได้
ถ้าอยากรัน Qwen3.6 27B/35B ให้ดี ควรซื้อ MacMini M4 64GB แล้ววางไว้ในชั้นใต้ดินหรืออย่างน้อยห่างออกไปหลายเมตร จากนั้นเชื่อมต่อผ่าน LAN หรือ Tailscale จะดีกว่า และราคาก็เกือบแค่ 1/3 ของ MacBook Pro
รู้ดีว่าการรันแค่โมเดลที่ค่อนข้างเล็กอย่าง Qwen 27B หรือ Gemma 4 31B บน GPU เดสก์ท็อปนั้นเสียงดังและร้อนแค่ไหน
Strix Halo มีพัดลมใหญ่ตัวเดียวจึงไม่ค่อยดัง แต่ก็ร้อน และพัดลมเล็ก ๆ ในโน้ตบุ๊กก็ไม่มีทางเลือกนอกจากต้องแผดเสียงเพื่อระบายความร้อนนั้นออก
แนวคิดเรื่องโน้ตบุ๊กที่รันโมเดลได้ทุกที่นั้นดี แต่ควรให้โมเดลบนคลาวด์รับหน้าที่นั้นมากกว่า และเพราะข้อมูลไม่ได้ไหลเข้าออกมากนัก จึงไม่ใช่ปัญหาใหญ่
งานที่ต้องการความเป็นส่วนตัวก็เอาโมเดล self-hosted ไปรันบนเครื่องแรง ๆ ที่บ้าน แล้วเชื่อมต่อผ่าน VPN ได้
อย่างไรก็ตาม โมเดลที่รันได้ดีแม้บนอุปกรณ์ 16GB หรือแท็บเล็ต เช่น Gemma 4 12B QAT 4-bit นั้นดีมากสำหรับงานบางประเภท และในบรรดาที่ทดสอบมา ถือว่าเป็นโมเดล vision แบบ self-hosted ที่ดีที่สุดสำหรับงานอย่างการจัดประเภท การระบุ และการติดป้ายกำกับ
งานเขียนร้อยแก้วก็พอใช้ได้ และการใช้เครื่องมือก็ทำได้ค่อนข้างดี แต่ความรู้เกี่ยวกับโลกในขนาด 7GB ใส่ได้ไม่มากนัก ดังนั้นงานค้นคว้ายังต้องใช้การค้นหา และสำหรับการเขียนโค้ดที่เกินกว่าระดับง่ายมาก ๆ ก็ไม่อยากใช้
--powerใน DwarfStar 4 ได้: https://github.com/antirez/ds4#reducing-heat-power-usage-and...ตลอดครึ่งปีที่ผ่านมา รัน coding agent บนโน้ตบุ๊กในโหมด YOLO และแม้ส่วนใหญ่จะไม่ใช่โลคัล แต่วิธีใช้แบบไม่ต้องกลัวคือสร้างผู้ใช้ Linux แยกสำหรับเอเจนต์โดยเฉพาะชื่อ
agentเอเจนต์จะลบโฮมไดเรกทอรี
/agentทิ้งก็ได้ แต่แตะหรือแม้แต่อ่านโฮมไดเรกทอรีของฉันไม่ได้ทุกครั้งต้องใช้
sudoเข้าไปเป็นผู้ใช้นั้น เลยทำ alias ไว้ และถ้ามีปัญหาเรื่อง permission/ownership ก็จัดการด้วยฟังก์ชันที่แก้วันละครั้งถึงอย่างนั้นก็ยังยุ่งยากอยู่ดี ถ้ามีเครื่องเฉพาะก็คงให้ root ไปเลย และเคยลองเล่น ๆ ให้ Claude ใช้ root ของ VPS ราคา $3 ซึ่งก็ทำงานได้ดี
หลังลองผิดลองถูกอยู่หลายเดือน สุดท้ายก็เหมือนกลับไปคิดค้นใหม่ตั้งแต่ต้นว่า “ซื้อ Mac mini ไปเถอะ”
แม้อยู่ห่างออกไปไม่กี่นิ้วก็ยังรู้สึกรังสีความร้อน และรู้สึกว่าร้อนกว่า Intel MacBook ที่เคยใช้ด้วยซ้ำ เลยหยุด
เพราะปัญหาซัพพลายและราคาที่ขึ้น อาจต้องใช้โน้ตบุ๊กไปอีก 10 ปี จึงไม่อยากทำให้มันพัง
หูไม่ได้ดีมากนัก แต่คิดว่าถ้ามีเสียงพัดลมน่าจะได้ยิน ทว่าไม่เคยได้ยินเลยสักครั้ง จนต้องไปค้นดูว่าจริง ๆ แล้วมันมีพัดลมหรือเปล่า
บทความนี้อ้างอิงจากการรัน Qwen 3.6 บน MacBook Pro 128GB
สำหรับข้อมูลเพิ่มเติม MBP 128GB ปัจจุบันเริ่มต้นที่ $6699 [0]
อาจมีคนที่ยอมจ่ายพรีเมียมนี้เพื่อความเป็นส่วนตัว แต่ด้วยค่าใช้จ่ายราว 10 เท่าของ MacBook Neo ก็สามารถซื้อเครดิต OpenRouter หรือเครดิต API ของแล็บวิจัยแนวหน้าได้ค่อนข้างมาก
[0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...
การมีเครื่องที่รัน LLM โลคัลขนาดพอเหมาะอย่าง Gemma 4 12B ได้นั้นมีคุณค่าจริง ๆ
ไม่รู้ว่าจะได้ทำโค้ดดิ้งแบบเอเจนต์ไร้คนดูแลอย่างจริงจังบน MacBook เครื่องเดียวมากแค่ไหน แต่ถ้าไม่ได้ลองจับโมเดลโลคัล, llama.cpp, LM Studio ฯลฯ ด้วยตัวเอง ก็คงไม่เข้าใจวงการนี้แบบนี้
วงการนี้ใหญ่เกินไป เหนื่อยล้า และเต็มไปด้วยศัพท์เฉพาะ และสำหรับคนอายุเกิน 50 ก็ถูกครอบงำได้ง่าย
พอได้ลองตั้งค่าบนเครื่องมือสองด้วยตัวเอง ดู API call และทำความเข้าใจศัพท์ต่าง ๆ ถึงเริ่มจับต้องมันได้
Neo เล็กเกินไปที่จะทำให้โอกาสแบบนี้รู้สึกได้จริงและเข้าใจได้
ผมคิดว่าถ้าใช้ quantization ที่ดุดันกว่านี้ อาจลดลงได้อีก
ในเชิงเศรษฐศาสตร์ การรันโมเดลบนแล็ปท็อปไม่ได้มีความหมายมากนัก และถ้าดูเฉพาะค่าไฟล้วน ๆ ก็อาจเอาชนะราคาของโทเคนที่สร้างในสเกลใหญ่ได้ยาก
แต่ถึงอย่างนั้น นี่คือ จุดทะลุทะลวง ที่จะเปลี่ยนเกม
เมื่อก่อน vibe coding แบบนี้บนอุปกรณ์ผู้บริโภคไม่ใช่แค่ทำได้ยากหรือแพง แต่เป็นไปไม่ได้เลย
Asus Ascent GX10 ก็ราคา $3999 จากผู้ขายหลายราย
ในทางทฤษฎีอาจใช้ 3090 สองใบเพื่อให้ได้ VRAM 48GB ได้เช่นกัน แต่เมื่อเทียบกับ MacBook Pro หรือ GB10 แล้วกินพื้นที่มากและปล่อยความร้อนเยอะ
[1] https://x.com/MiaAI_lab/status/2070859135399182444
[2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
ดังนั้น 128GB ไม่ได้จำเป็นในกรณีนี้
บน MacBook เครื่องเดียวกันยังรันโมเดลอื่นได้ด้วย
ถ้าดูเงินที่คนเอาไปเผากับ SaaS ทุกเดือน บางกรณีใช้เงินก้อนนั้น 5 เดือนก็คืนทุน MacBook ได้แล้ว
และนี่ไม่ใช่แค่ประเด็น “ความเป็นส่วนตัวของข้อมูล”
ถ้าใช้ Claude ก็เท่ากับส่งทุกอย่างไปให้ Anthropic ซึ่งเป็นเรื่องที่ค่อนข้างบ้าบอมาก
คงบอกได้ยากว่าตัวอย่างเหล่านี้สะท้อน “งานจริง”
อย่างน้อยก็ไม่ใช่สิ่งที่ผมถือว่าเป็นงานจริง
การทำ โปรเจกต์ใหม่แบบ zero-shot ให้ถูกนั้นค่อนข้างง่ายแม้แต่กับโมเดลขนาดเล็ก
เพราะไม่มีบริบทให้ต้องสะสมมากนัก และสามารถย้อนกลับไปหา例ตัวอย่างคล้าย ๆ ในข้อมูลฝึกได้ง่าย
ตราบใดที่ไม่ได้สั่งให้ประดิษฐ์สิ่งใหม่ทั้งหมดขึ้นมา ก็มีโอกาสสูงที่จะทำได้พอใช้
บททดสอบจริงคือมันทำงานบน codebase ที่มีอยู่แล้วได้หรือไม่
จากการทดลองแบบจำกัด Qwen 3.5 ใช้ได้ดีในแอป Rust+React แต่ไม่ค่อยดีใน monolith ภาษา C#
ไม่ถึงกับใช้ไม่ได้ แต่แย่พอที่ 20 นาทีก็กลับไปใช้ Claude และถ้าสูญเสียการเข้าถึงโมเดลคลาวด์จนต้องใช้แต่ Qwen ก็คงเศร้าพอสมควร
Qwen3.6 ให้ผลลัพธ์ที่น่าทึ่งสำหรับโมเดลเล็กกับแอปง่าย ๆ ที่มีอยู่ทั่วไป
ถ้าสั่งให้ทำแอป boilerplate เล็ก ๆ ด้วยเครื่องมือยอดนิยมอย่าง React TODO app หรือ shadcn ก็ให้ผลลัพธ์ที่ค่อนข้างดูดี
แต่พอออกจากงานทั่วไปและเข้าไปสู่งานเฉพาะทางของผมมากขึ้น มันวนอยู่หลายชั่วโมงแล้วสุดท้ายก็ให้ผลลัพธ์ที่ใช้ไม่ได้จนต้องถอนหายใจ
ถ้าใช้ให้พิมพ์แทนในงานเล็ก ๆ อย่างการ refactor ง่าย ๆ หรือคำสั่งที่ชัดเจนมาก ๆ ก็ทำได้ค่อนข้างดี
แต่พอเป็นเซสชันบริบทยาว ๆ หรือหัวข้อที่ไม่ใช่กระแสหลัก จุดอ่อนก็ชัดมาก
quantization ที่นิยมใช้เพื่อให้พอดีกับฮาร์ดแวร์ขนาดเล็กก็ทำให้ปัญหาแย่ลง
บนออนไลน์มีบรรยากาศว่า 4-bit quantization แทบไม่สูญเสียคุณภาพ และ quantization ของ key-value cache แบบ
q8_0/q8_0ก็แทบไม่มีผลเสียจริง แต่ในโปรเจกต์จริง quantization เหล่านี้ทำให้ประสิทธิภาพกับบริบทยาวลดลงอย่างมากไม่สมบูรณ์แบบ แต่เพียงพอที่จะเร่ง workflow การพัฒนาปกติของผม และใช้เป็นหลักกับการเขียน Go กับ C#
เช่น ออกแบบโปรเจกต์ใหญ่ที่ประกอบด้วยไลบรารีขนาดเล็กหลายตัวเพื่อให้แต่ละส่วนโค้ดและทดสอบแยกกันได้, จัดระเบียบโปรเจกต์โค้ดเก่า, เพิ่ม README, ใส่คอมเมนต์ในโค้ด, แสดงตัวอย่างการใช้ API ใหม่และอัปเดตจุดที่เรียกใช้ API
ทั้งหมดเป็นงานขนาดเล็ก
สำหรับโปรเจกต์บูรณาการขนาดใหญ่ API เชิงพาณิชย์ของ DeepSeek v4 Pro ราคาถูกมากและช่วยให้ได้ผลลัพธ์ที่ดี
มีการตัดสินใจที่ต้องทำมากเกินไป และมันทำเรื่องนั้นได้ไม่ดี
ถ้าไม่ได้คาดหวังให้มันทำอย่างชาญฉลาด การแก้โค้ดเดิมนั้นง่ายกว่ามาก
แทนที่จะบอกว่า “เพิ่มฟีเจอร์ X” แล้วปล่อยให้มันสำรวจ codebase ควรระบุไฟล์ที่เกี่ยวข้อง แล้วบอกว่า “เป้าหมายคือเพิ่มฟีเจอร์ X ลงในโค้ดนี้ และให้ทำตามแนวทาง Y” จะดีกว่า
ถ้ามนุษย์จัดการส่วนการตัดสินใจที่ยากที่สุดให้แล้ว โมเดลก็แค่ทำตามคำสั่งและระบายสีให้อยู่ในเส้นก็พอ
ถ้ารันโมเดลนี้แบบออฟไลน์บน MacBook Pro หน่วยความจำ 48GB มันก็ทำงานได้ แต่แน่นอนว่าช้ากว่า Claude หรือ Codex
เห็นคนซื้อ 128GB MBP ราคาหลายพันดอลลาร์เพื่อรันโมเดลที่โดยวัตถุวิสัยแล้วด้อยกว่าระดับล้ำหน้ามาก ๆ แล้วรู้สึกเหมือนสติจะหลุด
เงินที่ใช้กับ 128GB M5 MAX ที่นี่ซื้อรถใหม่ได้เลย
ไม่รู้ว่าผมพลาดอะไรไปหรือเปล่า และสงสัยว่านักพัฒนาประเทศอื่นอยู่กันคนละโลกจริง ๆ หรือ
ผมรู้ว่าที่ผมอยู่ ราคาสัมบูรณ์ยังแพงกว่าสหรัฐฯ ด้วย จึงยิ่งรู้สึกแบบนั้น
ถ้าคนสติปกติซื้อของแบบนี้จากประเทศอื่น ผมคิดว่าพอมาถึงที่นี่ก็คงขายต่อทันทีเพื่อประหยัดเงิน
ฤดูใบไม้ร่วงปีก่อนผมประกอบเวิร์กสเตชันด้วย 3090 มือสองสองใบ จ่ายใบละ 850 ดอลลาร์แคนาดา แต่ตอนนี้ราคาต่ำสุดอยู่ราว 1200
VRAM 48GB ถือว่าสมเหตุสมผลพอสมควร และผมใช้ Qwen 3.6 27B กับงานหลายอย่างในการสร้าง knowledge graph จากคลังข้อความและทำ reasoning
ลองเทียบกับสิ่งที่ทำได้บน OpenRouter แล้ว ที่ต้นทุนโทเคน $0 นั้น Qwen 27B แบบ local เอาชนะได้ยาก
มันช้ากว่าและทำให้ออฟฟิศอุ่นขึ้นอีกไม่กี่องศา แต่ไม่มีใครดึงปลั๊กได้ ไม่มีใครคอยมองข้ามไหล่มาสอดส่อง และผลลัพธ์ก็อยู่ในระดับใกล้เคียงกับโมเดลล้ำหน้าที่สุด
ผมตั้งตารอ Qwen 3.7 ขนาดใกล้เคียงกัน
เท่าที่เห็นจนถึงตอนนี้ มันเป็นก้าวกระโดดใหญ่จากเวอร์ชันก่อน
หรือว่าอยากอวดว่ามันพกพาได้
เป็นผ่อนรายเดือนของ Apple ดังนั้น $5k คือเดือนละ $416 เป็นเวลา 1 ปี และไม่มีดอกเบี้ย
รันโมเดลระดับ DS4 และโมเดลเปิดอื่น ๆ ได้โดยไม่ต้อง quantize บางครั้งยังรันหลายตัวพร้อมกันได้ด้วย
ลองจินตนาการมูลค่าของมันถ้าสถานการณ์มืดมนอย่างสงครามไต้หวัน/เขตจีน, การเชื่อมต่อทั่วโลก หรือความน่าเชื่อถือของโมเดลเชิงพาณิชย์เกิดขึ้นจริง
มันเป็นอุปกรณ์ที่สร้างได้ยากมากในช่วงเวลาอื่นของประวัติศาสตร์ และผมน่าจะซื้อเพิ่มมากกว่านี้
ผมเห็นสัญญาณ แนวโน้มราคา และของขาดตลาดแบบเรียลไทม์ และคนอื่นที่มีกำลังก็คงกักตุนไว้เช่นกัน
คนทางฝั่งคุณมีรายได้ต่ำกว่าคนอเมริกันมากกว่าหนึ่งหลัก
มีคนพูดกันมากว่าฮาร์ดแวร์สำหรับรันโมเดลโลคัลนั้นแพง แต่ถ้าไม่ได้สนใจอุปกรณ์ของ Apple ดูเหมือนว่า Intel Arc Pro B50/B60/B70 จะคุ้มค่าพอสมควร ทว่าแทบไม่ค่อยถูกพูดถึง
ล่าสุดซื้อรุ่น B70 32GB RAM มาในราคาประมาณ $1200 รวมภาษีขายและภาษีนำเข้า โดยอ้างอิงที่อยู่นอกสหรัฐฯ และในบางพื้นที่อาจถูกกว่านี้
แบนด์วิดท์หน่วยความจำอยู่ที่ 608GB/s
M5 Max GPU 32 คอร์อยู่ที่ 460GB/s, GPU 40 คอร์อยู่ที่ 614GB/s และ 3090 ยังเร็วกว่าอยู่ที่ประมาณ 900GB/s แต่ก็ได้ VRAM 32GB ในราคาถูกกว่าการ์ด Nvidia ระดับเดียวกันมาก
เรียกได้ว่าได้แบนด์วิดท์ประมาณ 1/3 ของ 5090 ในราคา 1/3 แต่มี VRAM 32GB เท่ากัน ดังนั้นถ้าอยากรันโมเดล quantized ที่ใหญ่ขึ้นและมี context พอสมควรด้วยงบต่ำ ก็เป็นจุดประนีประนอมที่น่าสนใจ
ตอนนี้ยังอยู่ระหว่างสำรวจโมเดลโลคัล เลยไม่อยากจ่าย $5000~$10000 เพื่อทดสอบ และถ้าทดลองได้ถูกลง ประสิทธิภาพที่ช้าลงเล็กน้อยก็รับได้
ตอนแรกซื้อ B50 16GB TDP 70W มาลองการ์ด Intel กับสแตกของตัวเอง ซึ่งทำงานบน Ubuntu และ Vulkan ได้ง่ายมาก
เห็นโพสต์จำนวนมากบอกว่ามันวุ่นวายและใช้ไม่ได้ แต่ส่วนใหญ่น่าจะเกี่ยวกับ SYCL และดูเหมือน SYCL ก็ไม่ได้มีประสิทธิภาพดีกว่า Vulkan จึงไม่เห็นเหตุผลว่าต้องใช้
B50 ราคา $370 รวมภาษีและภาษีนำเข้า และแค่
apt installไลบรารี Vulkan ก็ทำงานกับไดรเวอร์ xe พื้นฐานของ 26.04 และ Vulkan build ของ llama.cpp ได้เลยSR-IOV PF/VF ก็ทำงานกับ qemu/kvm ได้โดยไม่ต้องใช้ทริกพิเศษ และหลังซื้อมา fwupdmgr ก็อัปเดตเฟิร์มแวร์ให้สองครั้ง จึงดูเหมือนว่า Intel ตั้งใจจะซัพพอร์ตผลิตภัณฑ์เหล่านี้จริงๆ
ตอนนี้คิดว่าจุดคุ้มสุดคือการใช้ 3090 สองใบ ร่วมกับเมนบอร์ด PCIe 4 และ DDR4 RAM 64~128GB
ตอนนี้ประกอบได้ราว $3k และรัน Qwen 27B/35B แบบ int4 ได้เร็วมาก
สำหรับข้อมูลอ้างอิง ตอนนี้กำลังรัน gemma4 31B บน 5090 อยู่ และถือว่ายอดเยี่ยมทีเดียว
ใช้ QAT, MTP และบริบท 128k
Qwen 3.6 27B ก็ดีเช่นกัน แต่รู้สึกว่า Gemma4 ถูกประเมินต่ำไปเล็กน้อย
ผมรัน gemma4 31B บน 4090 ด้วย llm.cpp และโมเดลจาก unsloth อยู่
ใช้ Qwen 3.6 ควบคู่กันด้วย โดย Qwen เร็วกว่า จึงเหมาะกับการคิดและการวางแผน ส่วน Gemma4 ให้คุณภาพโค้ดที่สร้างในการลองครั้งแรกสูงกว่ามาก
สำหรับ Rust, C++ และ C# ต้องแก้ไขน้อยกว่าจนถึงระดับที่รู้สึกว่านำไป merge ได้
มันมักจะหยุดกะทันหันหรือสร้างการเรียกเครื่องมือที่ผิดพลาดเสมอ อาจเป็นเพราะผมตั้งค่า oMLX หรือ Opencode ผิดเอง
ผมสลับใช้ระหว่าง Qwen 3.5 9B Q6_M กับ Gemma4 12B Q4_K_M บน 4080 Super
ทั้งสองมีความเร็วใกล้เคียงกัน และสามารถให้ตรวจทานแผนหรือการเปลี่ยนแปลงของกันและกันได้
สำหรับโปรเจกต์เล็กๆ ถือว่ามีความสามารถพอสมควร และสำหรับงานที่ยากขึ้นเล็กน้อยก็สามารถขยับไปใช้ quantization ที่ดีกว่าได้
ก่อนจะไปซื้อ คอมพิวเตอร์หน่วยความจำรวม เช่น DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo ควรรู้ไว้ว่าโมเดล dense โดยทั่วไปจะช้าบนอุปกรณ์เหล่านี้
GPU แยกเฉพาะทางรันโมเดล dense ได้ดีกว่ามาก
ควรหา benchmark ของอุปกรณ์ที่จะซื้อดูก่อน และถ้าต้องการอุปกรณ์แบบนี้จริงๆ การรัน Qwen 3.6 35B หรือโมเดล sparse MoE อื่นๆ จะดีกว่า
ผมรัน qwen 3.6 35b a3b ด้วย opencode บน M3 Max 64GB RAM MacBook Pro 16 นิ้ว มาโดยตลอด และมันดีมากสำหรับการวางแผนและเขียนโค้ดแบบโลคัล
พูดตามตรง พอเห็นว่า 64GB ทรงพลังขนาดนี้ บางครั้งก็คิดว่าน่าจะซื้อ 128GB เพื่อเผื่ออนาคตไว้
ในทางกลับกัน ผมก็ยังไม่เคยชนข้อจำกัดเพราะโมเดลที่ใหญ่กว่า qwen เล็กน้อยเลย
มันไม่เร็ว ได้เพียงไม่กี่โทเคนต่อวินาที ช้ากว่าความเร็วในการอ่าน แต่สามารถสั่งงานทิ้งไว้แล้วค่อยกลับมาดูภายหลังได้
นี่เป็นแล็ปท็อป $600 ที่ซื้อจาก eBay เมื่อไม่กี่ปีก่อน ไม่ใช่เครื่องราคา $6000
ผมสงสัยว่า Mac หน่วยความจำรวมหรือ GPU เดสก์ท็อปขนาดใหญ่ 24GB เหล่านั้นให้ความเร็วระดับหลายสิบถึงหลายร้อยโทเคนต่อวินาทีสมกับค่าใช้จ่ายที่มากกว่า 10~20 เท่าหรือไม่
จากประสบการณ์ โมเดลขนาด 20~35GB และแค่ key-value cache ก็ใช้ RAM 64GB พื้นฐานไปมากแล้ว ดังนั้นถ้าต้องเปิดเบราว์เซอร์ ตัวแก้ไข และอย่างอื่นค้างไว้ตลอด RAM 128GB ทั้งหมดช่วยได้แน่นอน