5 คะแนน โดย GN⁺ 6 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Qwen 3.6 27B ดูเป็นตัวเลือกที่มีความหมายสำหรับงานทั่วไป แม้กับผู้ใช้ที่เดิมเคยสงสัยในโมเดลแบบโลคัล โดยเป็น dense model ที่แม้จะช้ากว่า 35B A3B แต่ทรงพลังกว่าและน่าแนะนำ
  • ในการทดสอบงานสร้างสรรค์และงานโค้ด จุดแข็งที่เห็นได้ชัดคือ การทำตามข้อจำกัดที่กำหนด โดยใน OpenCode มันสร้างเกม Minesweeper แบบหกเหลี่ยมที่ใช้ pnpm ออกมาเป็นแพ็กเกจ Node ได้จากพรอมป์เดียว
  • เมื่อนำ llama.cpp มาจับคู่กับโมเดล quantized แบบ GGUF 8-bit จาก Hugging Face ก็สามารถรันแบบโลคัลได้ และยังจัดสภาพแวดล้อมสำหรับ agent coding ได้ด้วยการตั้งค่า MTP, การโหลดเลเยอร์ขึ้น GPU, flash attention และคอนเท็กซ์ 64k
  • ในการทดสอบบน Macbook Max M5 128GB, Qwen3.6-27B 8-bit ทำได้ 32 tok/s ด้วย llama.cpp + MTP และใช้ RAM ราว 42GB โดยแม้ 35B A3B จะเร็วกว่า แต่คุณภาพโค้ดดีกว่าจึงทำให้ 27B เป็นตัวเลือกที่ชอบมากกว่า
  • ตามเกณฑ์ของ Artificial Analysis, Qwen3.6-27B ได้ 37 คะแนน อยู่ในระดับกลางปี 2025 เทียบกับ GPT-5 / Claude Sonnet 4.5 และเหมาะใช้งานจริงกับข้อมูลอ่อนไหว งานออฟไลน์ และการดูแลโมเดลของตนเองที่ไม่สามารถถูกเรียกคืนได้

เหตุผลที่แนะนำ Qwen 3.6 27B

  • Qwen 3.6 มีให้เลือกสองเวอร์ชัน
    • Qwen 3.6 35B A3B: โมเดล mixture-of-experts
    • Qwen 3.6 27B: dense model ที่ช้ากว่าแต่เป็นตัวเลือกที่ทรงพลังกว่า
  • Qwen 3.6 27B ได้รับเสียงตอบรับมากว่า “ประสิทธิภาพเกินขนาดโมเดล” และมีตัวอย่างที่เกี่ยวข้องคือ Will it Mythos?
  • ระหว่างรันแบบโลคัล เครื่องอาจร้อนขึ้นได้ แต่ประสิทธิภาพก็คุ้มค่าพอให้ยอมรับได้

การทดสอบง่าย ๆ และผลลัพธ์จากงานจริง

  • สำหรับ smoke test แบบง่าย ผู้เขียนเลือกใช้ การเขียนตามข้อจำกัด แทน “penguins on a bicycle” ของ Simon Willison
  • เมื่อขอให้แต่งบทกวี 8 บรรทัดในหัวข้อการเต้น Zouk และฟิสิกส์ควอนตัม ลำดับความคิดในการจัดการคำศัพท์ควอนตัมและสัมผัสดูไหลลื่นเป็นธรรมชาติ
    • บทสนทนาที่เกี่ยวข้องดูได้ที่ transcript
  • เมื่อขอให้มันสร้าง Minesweeper แบบหกเหลี่ยม ใน OpenCode โดยใช้ pnpm มันสามารถสร้างแพ็กเกจ Node ที่ใช้งานได้ถูกต้องจากพรอมป์เดียว
  • Qwen 3.6 35B A3B เร็วกว่า แต่ไม่ทำตามคำสั่งที่ให้สร้างเป็นแพ็กเกจ และทำออกมาเป็น index.html เดี่ยวแทน
  • แม้ในงานลักษณะงานทั่วไป มันก็สร้างผลงานที่ใช้งานได้จากพรอมป์สั้น ๆ และมีการตอบสนองกับค่าตั้งต้นที่ค่อนข้างดี
    • เมื่อเทียบกับ frontier model อาจไม่โดดเด่นเป็นพิเศษ แต่สำหรับโมเดลโลคัลถือว่าไปถึงระดับใช้งานจริงแล้ว

การรันแบบโลคัลด้วย llama.cpp

  • การรันโมเดลแบบโลคัลทำได้ด้วย CLI ไม่กี่บรรทัด และเครื่องมือที่แนะนำคือ llama.cpp

  • ใช้งานโดยดาวน์โหลด โมเดล quantized ที่ลดขนาดแล้วจาก Hugging Face

    • แหล่งยอดนิยมสำหรับโมเดล quantized ได้แก่ unsloth และ bartowski
    • โมเดลตั้งต้นมักใช้ความแม่นยำแบบ BF16
    • การ quantize แบบ 8-bit แทบไม่ทำให้คุณภาพลดลง แต่ลดพื้นที่ลงได้ครึ่งหนึ่ง
    • การ quantize บิตต่ำกว่านี้จะทำให้โมเดลเล็กลงและอาจเร็วขึ้น แต่ต้องแลกด้วยคุณภาพ
    • การเปรียบเทียบ 27B ดูได้ที่ Reddit benchmark, ส่วน 35B A3B ดูได้ที่ Hugging Face discussion
  • ตัวอย่างการรันเซิร์ฟเวอร์

    llama-server -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
        --spec-type draft-mtp -ngl 999 -fa on -c 65536 --port 8080
    
    • -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0: ดึงโมเดลจาก Hugging Face และจะนำกลับมาใช้ซ้ำในการรันครั้งถัดไป
    • -m ~/models/Qwen3.6-27B-Q8_0.gguf: หากมีไฟล์โมเดลอยู่แล้วก็ใช้แทนได้
    • draft-mtp: ใช้ multi-token prediction ที่ให้โมเดลที่เร็วกว่าเดาโทเคนถัดไปเพื่อเพิ่มความเร็ว
    • -ngl 999: โหลดทุกเลเยอร์ขึ้น GPU
    • -fa on: เปิด flash attention
    • -c 65536: ตั้งขนาดคอนเท็กซ์เป็น 64k โทเคน
    • คอนเท็กซ์แบบ native ของ Qwen 3.6 27B คือ 256k
    • --port 8080: กำหนดพอร์ตคงที่เพื่อให้ใช้งานกับการตั้งค่าอื่นได้
    • เปิด http://127.0.0.1:8080 เพื่อแชตได้โดยตรง
  • การตั้งค่า OpenCode

    • สามารถใช้เซิร์ฟเวอร์เดียวกันนี้กับ vibe coding ได้เช่นกัน
    • ใน OpenCode ให้เพิ่มการตั้งค่าต่อไปนี้ใน ~/.config/opencode/opencode.jsonc
    {
      "$schema": "https://opencode.ai/config.json";,
      "provider": {
        "llama": {
          "name": "llama.cpp (local)",
          "npm": "@ai-sdk/openai-compatible",
          "options": {
            "baseURL": "http://127.0.0.1:8080/v1";,
            "apiKey": "local"
          },
          "models": {
            "qwen3.6-27b": { "name": "Qwen3.6-27B Q8 +MTP" }
          }
        }
      },
      "model": "llama/qwen3.6-27b"
    }
    
  • การรันสำหรับแชตในเทอร์มินัล

    • หากต้องการแชตอย่างเดียวในเทอร์มินัล สามารถใช้ llama-cli แทน llama-server ได้
    llama-cli -hf unsloth/Qwen3.6-27B-MTP-GGUF:Q8_0 \
                    -ngl 999 -fa on -c 65536
    

การวัดประสิทธิภาพบน Apple Silicon

  • ผลการทดสอบถูกรวบรวมไว้ที่ benching-local-llms-on-apple-silicon และรันบน Macbook Max M5 128GB
  • Qwen3.6-35B-A3B · 8-bit
    • MLX: 85 tok/s, RAM 37GB
    • llama.cpp: 93 tok/s, RAM 44GB
    • llama.cpp + MTP: 105 tok/s, RAM 45GB
  • Qwen3.6-27B · 8-bit
    • MLX: 17 tok/s, RAM 28GB
    • llama.cpp: 18 tok/s, RAM 41GB
    • llama.cpp + MTP: 32 tok/s, RAM 42GB
  • DeepSeek-V4-Flash · Q2–Q4
    • llama.cpp: 33 tok/s, RAM 103GB
  • ความเร็ว 30 tok/s ถือว่าไม่เลว และอยู่ในช่วงเดียวกับ API ของ frontier model ทั่วไป
  • mlx-lm ถูกออกแบบมาสำหรับ Apple Silicon แต่ในการทดสอบนี้ llama.cpp เร็วกว่า
  • ระหว่างรัน การใช้งาน GPU อยู่ที่ 95% แสดงว่ามีการใช้ทรัพยากรที่มีได้อย่างมีประสิทธิภาพ
  • Qwen 3.6 ทั้งสองเวอร์ชันสามารถรันได้ภายใน RAM แบบแชร์ 48GB ของ Apple Silicon
  • บนการ์ด Nvidia RTX สำหรับผู้บริโภค อาจต้องใช้การ quantize ที่ดุดันกว่านี้ แต่การอนุมานจะรันได้เร็วกว่า
    • gfosco บน Hacker News ระบุว่า บน 5090 พร้อมการ quantize แบบ Q6_K และ Q4_0 KV ที่คอนเท็กซ์ 123k สามารถทำได้คงที่ที่ 50 tok/s และใช้ VRAM ราว 28/32GB ผ่าน LM Studio
  • 35B A3B เร็วกว่า 3 เท่า แต่ถึงจะสร้างโค้ดได้เพียงหนึ่งในสาม ก็ยังอาจคุ้มที่จะเลือก 27B หากคุณภาพสูงกว่า

การเปรียบเทียบกับโมเดลล้ำสมัยรุ่นก่อนหน้า

  • ในการเปรียบเทียบคะแนนของ Artificial Analysis, Qwen3.6-27B ได้ 37 คะแนน
  • รายการสำคัญในตารางเปรียบเทียบมีดังนี้
    • Gemma 4 31B: 29 คะแนน, ระดับปลายปี 2024, o1 / Claude 3.5 Sonnet
    • Qwen3.6-35B-A3B: 32 คะแนน, ระดับต้นปี 2025, o3 / Claude 4 Sonnet
    • Qwen3.6-27B: 37 คะแนน, ระดับกลางปี 2025, GPT-5 / Claude Sonnet 4.5
    • DeepSeek-V4-Flash: 40 คะแนน, ระดับปลายปี 2025, GPT-5.2 / Claude Opus 4.5
  • benchmark เพิ่มเติมดูได้ใน notes และแนวโน้มโดยรวมก็คล้ายกัน
  • Gemma 4 31B ถูกใส่เข้ามาในการเปรียบเทียบเพราะมีคนจำนวนมากใช้เป็นค่าเริ่มต้นสำหรับงานโค้ดแบบโลคัล
  • ทั้ง benchmark และเสียงตอบรับออนไลน์ต่างชอบ Qwen 3.6 27B มากกว่า Gemma 4 31B อย่างชัดเจน
  • อย่างไรก็ตาม ต้องระวังเรื่อง เงื่อนไขการ quantize
    • การ quantize แบบ 8-bit อาจแทบไม่ส่งผลต่อผลลัพธ์มากนัก
    • DwarfStar4 ใช้การ quantize ที่ดุดันกว่ามากระดับ 2–4bit กับ DeepSeek V4 Flash จึงแย่กว่าตัวโมเดลเต็มอย่างชัดเจน
    • ภายใต้เงื่อนไขนี้ Qwen 3.6 27B ให้ความรู้สึกว่าเทียบเท่าหรือดีกว่า DwarfStar4 เล็กน้อย
    • ในโปรเจ็กต์ที่ใช้คอนเท็กซ์ยาวกว่า DS4 อาจมีข้อได้เปรียบ

ก้าวถัดไปของการใช้งานโมเดลแบบโลคัล

  • การรันโมเดลด้วยตนเองกำลังกลายเป็นทางเลือกที่สมจริงมากขึ้นเรื่อย ๆ
  • สถานะของ frontier model แบบปิดอาจยิ่งผลักดันแนวโน้มนี้
    • Claude Fable 5 กำลังถอยลง
    • frontier model อื่น ๆ ทำงานอยู่บนโครงสร้างการอุดหนุนขนาดใหญ่ ซึ่งการจ่ายเดือนละ 100 ดอลลาร์กลับใช้งานโทเคนได้มูลค่าหลายพันดอลลาร์
  • โมเดลโลคัลที่ตั้งค่าเองสามารถ fine-tune ให้ตรงความต้องการได้ และไม่สามารถถูกเรียกคืนจากภายนอกได้
  • องค์กรสามารถใช้โมเดลโลคัลกับข้อมูลเฉพาะทางและข้อมูลอ่อนไหวได้
  • ผู้ใช้ทั่วไปสามารถใช้โมเดลโลคัลกับโปรเจ็กต์ออฟไลน์ หรือในสถานการณ์ที่ไม่ต้องการแชร์ความลับสำคัญหรือข้อมูลทางการแพทย์กับสหรัฐฯ หรือจีน
  • การเปิดตัว frontier-level open-weight GLM 5.2 ยิ่งเร่งกระแสโมเดลโลคัลให้เร็วขึ้น
    • Qwen 3.6 เป็นเหมือนหินก้าวข้าม และ GLM 5.2 ก็รันแบบโลคัลได้เช่นกัน
    • GLM 5.2 ไม่สามารถรันได้บน Macbook หรือ RTX 5090 เพียงใบเดียว แต่ยังอยู่ในระดับที่งบประมาณบริษัทพอรับได้
  • อาจมีโมเดลที่ฉลาดกว่าระดับล้ำสมัยในปัจจุบัน แต่รันได้บนอุปกรณ์โลคัล หรือแม้แต่บนสมาร์ตโฟนในอนาคต
  • ปัจจุบันโมเดลยังผูกความฉลาดเชิงดิบและความรู้ข้อเท็จจริงไว้ในน้ำหนักเดียวกัน แต่โมเดลในอนาคตมีแนวโน้มจะแยกสองสิ่งนี้ออกจากกัน โดยส่งผ่านความรู้ไปยัง tool calling แทน

1 ความคิดเห็น

 
GN⁺ 6 시간 전
ความคิดเห็นจาก Hacker News
  • ชอบ MacBook Pro M5 RAM 128GB กับ qwen3.6 นะ แต่ถ้าคิดจะเขียนโค้ดจริงจังด้วย LLM แบบโลคัล ก็ไม่ควรซื้อ MacBook เครื่องนี้
    เหตุผลง่ายมาก: นิ้วจะร้อน และเสียงพัดลมจะทำให้รู้สึกเหมือนหัวจะระเบิด
    การรันงานซับซ้อนบนโน้ตบุ๊กที่ใช้งานจริงนั้นไม่ค่อยสมเหตุสมผล และแม้จะทำได้ในโหมด clamshell แต่ระหว่างงาน AI coding หรือ agent ก็แทบจับเครื่องไม่ได้
    ถ้าอยากรัน Qwen3.6 27B/35B ให้ดี ควรซื้อ MacMini M4 64GB แล้ววางไว้ในชั้นใต้ดินหรืออย่างน้อยห่างออกไปหลายเมตร จากนั้นเชื่อมต่อผ่าน LAN หรือ Tailscale จะดีกว่า และราคาก็เกือบแค่ 1/3 ของ MacBook Pro

    • ด้วยเหตุผลเดียวกันเลยซื้อ โน้ตบุ๊ก 32GB ทั่วไปมา
      รู้ดีว่าการรันแค่โมเดลที่ค่อนข้างเล็กอย่าง Qwen 27B หรือ Gemma 4 31B บน GPU เดสก์ท็อปนั้นเสียงดังและร้อนแค่ไหน
      Strix Halo มีพัดลมใหญ่ตัวเดียวจึงไม่ค่อยดัง แต่ก็ร้อน และพัดลมเล็ก ๆ ในโน้ตบุ๊กก็ไม่มีทางเลือกนอกจากต้องแผดเสียงเพื่อระบายความร้อนนั้นออก
      แนวคิดเรื่องโน้ตบุ๊กที่รันโมเดลได้ทุกที่นั้นดี แต่ควรให้โมเดลบนคลาวด์รับหน้าที่นั้นมากกว่า และเพราะข้อมูลไม่ได้ไหลเข้าออกมากนัก จึงไม่ใช่ปัญหาใหญ่
      งานที่ต้องการความเป็นส่วนตัวก็เอาโมเดล self-hosted ไปรันบนเครื่องแรง ๆ ที่บ้าน แล้วเชื่อมต่อผ่าน VPN ได้
      อย่างไรก็ตาม โมเดลที่รันได้ดีแม้บนอุปกรณ์ 16GB หรือแท็บเล็ต เช่น Gemma 4 12B QAT 4-bit นั้นดีมากสำหรับงานบางประเภท และในบรรดาที่ทดสอบมา ถือว่าเป็นโมเดล vision แบบ self-hosted ที่ดีที่สุดสำหรับงานอย่างการจัดประเภท การระบุ และการติดป้ายกำกับ
      งานเขียนร้อยแก้วก็พอใช้ได้ และการใช้เครื่องมือก็ทำได้ค่อนข้างดี แต่ความรู้เกี่ยวกับโลกในขนาด 7GB ใส่ได้ไม่มากนัก ดังนั้นงานค้นคว้ายังต้องใช้การค้นหา และสำหรับการเขียนโค้ดที่เกินกว่าระดับง่ายมาก ๆ ก็ไม่อยากใช้
    • ลองใช้แฟล็ก --power ใน DwarfStar 4 ได้: https://github.com/antirez/ds4#reducing-heat-power-usage-and...
    • ถ้า “นิ้วไหม้และเสียงดังจนหัวจะระเบิด” ก็แค่ เอา Mac mini ไปไว้ห้องอื่น ไม่ใช่หรือ
      ตลอดครึ่งปีที่ผ่านมา รัน coding agent บนโน้ตบุ๊กในโหมด YOLO และแม้ส่วนใหญ่จะไม่ใช่โลคัล แต่วิธีใช้แบบไม่ต้องกลัวคือสร้างผู้ใช้ Linux แยกสำหรับเอเจนต์โดยเฉพาะชื่อ agent
      เอเจนต์จะลบโฮมไดเรกทอรี /agent ทิ้งก็ได้ แต่แตะหรือแม้แต่อ่านโฮมไดเรกทอรีของฉันไม่ได้
      ทุกครั้งต้องใช้ sudo เข้าไปเป็นผู้ใช้นั้น เลยทำ alias ไว้ และถ้ามีปัญหาเรื่อง permission/ownership ก็จัดการด้วยฟังก์ชันที่แก้วันละครั้ง
      ถึงอย่างนั้นก็ยังยุ่งยากอยู่ดี ถ้ามีเครื่องเฉพาะก็คงให้ root ไปเลย และเคยลองเล่น ๆ ให้ Claude ใช้ root ของ VPS ราคา $3 ซึ่งก็ทำงานได้ดี
      หลังลองผิดลองถูกอยู่หลายเดือน สุดท้ายก็เหมือนกลับไปคิดค้นใหม่ตั้งแต่ต้นว่า “ซื้อ Mac mini ไปเถอะ”
    • ตอนทดสอบงาน LLM แบบโลคัลบน M4 Max ด้วย pi รู้สึกว่ามันร้อนกว่า MacBook ทุกเครื่องที่เคยใช้มา
      แม้อยู่ห่างออกไปไม่กี่นิ้วก็ยังรู้สึกรังสีความร้อน และรู้สึกว่าร้อนกว่า Intel MacBook ที่เคยใช้ด้วยซ้ำ เลยหยุด
      เพราะปัญหาซัพพลายและราคาที่ขึ้น อาจต้องใช้โน้ตบุ๊กไปอีก 10 ปี จึงไม่อยากทำให้มันพัง
    • ใช้อยู่แบบนั้นเป๊ะ: Mini M4 Pro 64GB คู่กับ qwen3.6
      หูไม่ได้ดีมากนัก แต่คิดว่าถ้ามีเสียงพัดลมน่าจะได้ยิน ทว่าไม่เคยได้ยินเลยสักครั้ง จนต้องไปค้นดูว่าจริง ๆ แล้วมันมีพัดลมหรือเปล่า
  • บทความนี้อ้างอิงจากการรัน Qwen 3.6 บน MacBook Pro 128GB
    สำหรับข้อมูลเพิ่มเติม MBP 128GB ปัจจุบันเริ่มต้นที่ $6699 [0]
    อาจมีคนที่ยอมจ่ายพรีเมียมนี้เพื่อความเป็นส่วนตัว แต่ด้วยค่าใช้จ่ายราว 10 เท่าของ MacBook Neo ก็สามารถซื้อเครดิต OpenRouter หรือเครดิต API ของแล็บวิจัยแนวหน้าได้ค่อนข้างมาก
    [0]: https://www.apple.com/shop/buy-mac/macbook-pro/14-inch-space...

    • ตัวเลขคำนวณนั้นปฏิเสธได้ยาก แต่ถ้าเป็นผมคงไม่ขีดเส้นแบบนั้น
      การมีเครื่องที่รัน LLM โลคัลขนาดพอเหมาะอย่าง Gemma 4 12B ได้นั้นมีคุณค่าจริง ๆ
      ไม่รู้ว่าจะได้ทำโค้ดดิ้งแบบเอเจนต์ไร้คนดูแลอย่างจริงจังบน MacBook เครื่องเดียวมากแค่ไหน แต่ถ้าไม่ได้ลองจับโมเดลโลคัล, llama.cpp, LM Studio ฯลฯ ด้วยตัวเอง ก็คงไม่เข้าใจวงการนี้แบบนี้
      วงการนี้ใหญ่เกินไป เหนื่อยล้า และเต็มไปด้วยศัพท์เฉพาะ และสำหรับคนอายุเกิน 50 ก็ถูกครอบงำได้ง่าย
      พอได้ลองตั้งค่าบนเครื่องมือสองด้วยตัวเอง ดู API call และทำความเข้าใจศัพท์ต่าง ๆ ถึงเริ่มจับต้องมันได้
      Neo เล็กเกินไปที่จะทำให้โอกาสแบบนี้รู้สึกได้จริงและเข้าใจได้
    • การทดลอง Qwen 3.6 ทั้งหมดใช้แค่ Apple Silicon 48GB ก็เพียงพอแล้ว
      ผมคิดว่าถ้าใช้ quantization ที่ดุดันกว่านี้ อาจลดลงได้อีก
      ในเชิงเศรษฐศาสตร์ การรันโมเดลบนแล็ปท็อปไม่ได้มีความหมายมากนัก และถ้าดูเฉพาะค่าไฟล้วน ๆ ก็อาจเอาชนะราคาของโทเคนที่สร้างในสเกลใหญ่ได้ยาก
      แต่ถึงอย่างนั้น นี่คือ จุดทะลุทะลวง ที่จะเปลี่ยนเกม
      เมื่อก่อน vibe coding แบบนี้บนอุปกรณ์ผู้บริโภคไม่ใช่แค่ทำได้ยากหรือแพง แต่เป็นไปไม่ได้เลย
    • โมเดล dense Qwen 3.6 27B สามารถรันบน DGX Spark ได้ด้วยประสิทธิภาพใกล้เคียงกัน [1][2] และราคาประมาณ $4000
      Asus Ascent GX10 ก็ราคา $3999 จากผู้ขายหลายราย
      ในทางทฤษฎีอาจใช้ 3090 สองใบเพื่อให้ได้ VRAM 48GB ได้เช่นกัน แต่เมื่อเทียบกับ MacBook Pro หรือ GB10 แล้วกินพื้นที่มากและปล่อยความร้อนเยอะ
      [1] https://x.com/MiaAI_lab/status/2070859135399182444
      [2] https://github.com/MiaAI-Lab/Qwen3.6-27B-NVFP4-vLLM
    • โมเดลที่ถูกกล่าวถึงสามารถรันได้ง่ายถ้ามี VRAM 24GB ขึ้นไป และก็มีโมเดลใกล้เคียงที่รันได้ดีบน VRAM 16GB
      ดังนั้น 128GB ไม่ได้จำเป็นในกรณีนี้
    • โทเคนหรือเครดิตพอใช้แล้วก็หายไป แต่ MacBook ยังอยู่
      บน MacBook เครื่องเดียวกันยังรันโมเดลอื่นได้ด้วย
      ถ้าดูเงินที่คนเอาไปเผากับ SaaS ทุกเดือน บางกรณีใช้เงินก้อนนั้น 5 เดือนก็คืนทุน MacBook ได้แล้ว
      และนี่ไม่ใช่แค่ประเด็น “ความเป็นส่วนตัวของข้อมูล”
      ถ้าใช้ Claude ก็เท่ากับส่งทุกอย่างไปให้ Anthropic ซึ่งเป็นเรื่องที่ค่อนข้างบ้าบอมาก
  • คงบอกได้ยากว่าตัวอย่างเหล่านี้สะท้อน “งานจริง”
    อย่างน้อยก็ไม่ใช่สิ่งที่ผมถือว่าเป็นงานจริง
    การทำ โปรเจกต์ใหม่แบบ zero-shot ให้ถูกนั้นค่อนข้างง่ายแม้แต่กับโมเดลขนาดเล็ก
    เพราะไม่มีบริบทให้ต้องสะสมมากนัก และสามารถย้อนกลับไปหา例ตัวอย่างคล้าย ๆ ในข้อมูลฝึกได้ง่าย
    ตราบใดที่ไม่ได้สั่งให้ประดิษฐ์สิ่งใหม่ทั้งหมดขึ้นมา ก็มีโอกาสสูงที่จะทำได้พอใช้
    บททดสอบจริงคือมันทำงานบน codebase ที่มีอยู่แล้วได้หรือไม่
    จากการทดลองแบบจำกัด Qwen 3.5 ใช้ได้ดีในแอป Rust+React แต่ไม่ค่อยดีใน monolith ภาษา C#
    ไม่ถึงกับใช้ไม่ได้ แต่แย่พอที่ 20 นาทีก็กลับไปใช้ Claude และถ้าสูญเสียการเข้าถึงโมเดลคลาวด์จนต้องใช้แต่ Qwen ก็คงเศร้าพอสมควร

    • แม้จะไม่ได้เกี่ยวข้องโดยตรงกับประโยคที่ว่า “การทำโปรเจกต์ใหม่แบบ zero-shot ให้ถูกนั้นค่อนข้างง่ายแม้แต่กับโมเดลขนาดเล็ก” แต่เมื่อก่อนเคยมีช่วงที่ การทำ proof of concept สักชิ้นให้รันได้ต้องใช้เวลาหนึ่งสัปดาห์ และประโยคแบบนี้ฟังดูเหมือนนิยายวิทยาศาสตร์ล้วน ๆ
    • เวลาประเมินโมเดลขนาดเล็ก สิ่งที่มักถูกประเมินต่ำไปคือ ยิ่ง ออกห่างจากโค้ดตัวอย่างมาตรฐาน จุดอ่อนก็ยิ่งเผยชัด
      Qwen3.6 ให้ผลลัพธ์ที่น่าทึ่งสำหรับโมเดลเล็กกับแอปง่าย ๆ ที่มีอยู่ทั่วไป
      ถ้าสั่งให้ทำแอป boilerplate เล็ก ๆ ด้วยเครื่องมือยอดนิยมอย่าง React TODO app หรือ shadcn ก็ให้ผลลัพธ์ที่ค่อนข้างดูดี
      แต่พอออกจากงานทั่วไปและเข้าไปสู่งานเฉพาะทางของผมมากขึ้น มันวนอยู่หลายชั่วโมงแล้วสุดท้ายก็ให้ผลลัพธ์ที่ใช้ไม่ได้จนต้องถอนหายใจ
      ถ้าใช้ให้พิมพ์แทนในงานเล็ก ๆ อย่างการ refactor ง่าย ๆ หรือคำสั่งที่ชัดเจนมาก ๆ ก็ทำได้ค่อนข้างดี
      แต่พอเป็นเซสชันบริบทยาว ๆ หรือหัวข้อที่ไม่ใช่กระแสหลัก จุดอ่อนก็ชัดมาก
      quantization ที่นิยมใช้เพื่อให้พอดีกับฮาร์ดแวร์ขนาดเล็กก็ทำให้ปัญหาแย่ลง
      บนออนไลน์มีบรรยากาศว่า 4-bit quantization แทบไม่สูญเสียคุณภาพ และ quantization ของ key-value cache แบบ q8_0/q8_0 ก็แทบไม่มีผลเสียจริง แต่ในโปรเจกต์จริง quantization เหล่านี้ทำให้ประสิทธิภาพกับบริบทยาวลดลงอย่างมาก
    • ผมใช้ pi กับ codex cli รุ่นเก่าในการพัฒนางานร่วมกับ Qwen 3.6 27B บริบท 100k มา และประหลาดใจมากว่ามันทำงานได้ดีแค่ไหน
      ไม่สมบูรณ์แบบ แต่เพียงพอที่จะเร่ง workflow การพัฒนาปกติของผม และใช้เป็นหลักกับการเขียน Go กับ C#
    • มีงานบางอย่างที่ทำได้ดีด้วย โมเดลระดับ Gemma 4 12B
      เช่น ออกแบบโปรเจกต์ใหญ่ที่ประกอบด้วยไลบรารีขนาดเล็กหลายตัวเพื่อให้แต่ละส่วนโค้ดและทดสอบแยกกันได้, จัดระเบียบโปรเจกต์โค้ดเก่า, เพิ่ม README, ใส่คอมเมนต์ในโค้ด, แสดงตัวอย่างการใช้ API ใหม่และอัปเดตจุดที่เรียกใช้ API
      ทั้งหมดเป็นงานขนาดเล็ก
      สำหรับโปรเจกต์บูรณาการขนาดใหญ่ API เชิงพาณิชย์ของ DeepSeek v4 Pro ราคาถูกมากและช่วยให้ได้ผลลัพธ์ที่ดี
    • จากประสบการณ์ของผม โมเดลเล็ก ๆ มีปัญหาแม้แต่กับ การเริ่มโปรเจกต์ใหม่ ในแนวคิดพื้นฐานของโปรเจกต์
      มีการตัดสินใจที่ต้องทำมากเกินไป และมันทำเรื่องนั้นได้ไม่ดี
      ถ้าไม่ได้คาดหวังให้มันทำอย่างชาญฉลาด การแก้โค้ดเดิมนั้นง่ายกว่ามาก
      แทนที่จะบอกว่า “เพิ่มฟีเจอร์ X” แล้วปล่อยให้มันสำรวจ codebase ควรระบุไฟล์ที่เกี่ยวข้อง แล้วบอกว่า “เป้าหมายคือเพิ่มฟีเจอร์ X ลงในโค้ดนี้ และให้ทำตามแนวทาง Y” จะดีกว่า
      ถ้ามนุษย์จัดการส่วนการตัดสินใจที่ยากที่สุดให้แล้ว โมเดลก็แค่ทำตามคำสั่งและระบายสีให้อยู่ในเส้นก็พอ
  • ถ้ารันโมเดลนี้แบบออฟไลน์บน MacBook Pro หน่วยความจำ 48GB มันก็ทำงานได้ แต่แน่นอนว่าช้ากว่า Claude หรือ Codex

  • เห็นคนซื้อ 128GB MBP ราคาหลายพันดอลลาร์เพื่อรันโมเดลที่โดยวัตถุวิสัยแล้วด้อยกว่าระดับล้ำหน้ามาก ๆ แล้วรู้สึกเหมือนสติจะหลุด
    เงินที่ใช้กับ 128GB M5 MAX ที่นี่ซื้อรถใหม่ได้เลย
    ไม่รู้ว่าผมพลาดอะไรไปหรือเปล่า และสงสัยว่านักพัฒนาประเทศอื่นอยู่กันคนละโลกจริง ๆ หรือ
    ผมรู้ว่าที่ผมอยู่ ราคาสัมบูรณ์ยังแพงกว่าสหรัฐฯ ด้วย จึงยิ่งรู้สึกแบบนั้น
    ถ้าคนสติปกติซื้อของแบบนี้จากประเทศอื่น ผมคิดว่าพอมาถึงที่นี่ก็คงขายต่อทันทีเพื่อประหยัดเงิน

    • ผมมองว่าการไปใช้ฟอร์มแฟกเตอร์แล็ปท็อปเป็นเรื่องไม่ฉลาด
      ฤดูใบไม้ร่วงปีก่อนผมประกอบเวิร์กสเตชันด้วย 3090 มือสองสองใบ จ่ายใบละ 850 ดอลลาร์แคนาดา แต่ตอนนี้ราคาต่ำสุดอยู่ราว 1200
      VRAM 48GB ถือว่าสมเหตุสมผลพอสมควร และผมใช้ Qwen 3.6 27B กับงานหลายอย่างในการสร้าง knowledge graph จากคลังข้อความและทำ reasoning
      ลองเทียบกับสิ่งที่ทำได้บน OpenRouter แล้ว ที่ต้นทุนโทเคน $0 นั้น Qwen 27B แบบ local เอาชนะได้ยาก
      มันช้ากว่าและทำให้ออฟฟิศอุ่นขึ้นอีกไม่กี่องศา แต่ไม่มีใครดึงปลั๊กได้ ไม่มีใครคอยมองข้ามไหล่มาสอดส่อง และผลลัพธ์ก็อยู่ในระดับใกล้เคียงกับโมเดลล้ำหน้าที่สุด
      ผมตั้งตารอ Qwen 3.7 ขนาดใกล้เคียงกัน
      เท่าที่เห็นจนถึงตอนนี้ มันเป็นก้าวกระโดดใหญ่จากเวอร์ชันก่อน
    • ผมไม่เข้าใจว่าทำไมคนในช่วงราคานี้ถึงซื้อ แล็ปท็อป Mac แทนเดสก์ท็อปที่มี GPU
      หรือว่าอยากอวดว่ามันพกพาได้
    • ในบัญชีของผม มันเป็น สินทรัพย์ ที่มูลค่าขึ้นไปพอสมควรแล้ว และมีโอกาสสูงที่จะขายต่อได้ในราคาที่ซื้อมาในช่วง 7–10 ปีข้างหน้า
      เป็นผ่อนรายเดือนของ Apple ดังนั้น $5k คือเดือนละ $416 เป็นเวลา 1 ปี และไม่มีดอกเบี้ย
      รันโมเดลระดับ DS4 และโมเดลเปิดอื่น ๆ ได้โดยไม่ต้อง quantize บางครั้งยังรันหลายตัวพร้อมกันได้ด้วย
      ลองจินตนาการมูลค่าของมันถ้าสถานการณ์มืดมนอย่างสงครามไต้หวัน/เขตจีน, การเชื่อมต่อทั่วโลก หรือความน่าเชื่อถือของโมเดลเชิงพาณิชย์เกิดขึ้นจริง
      มันเป็นอุปกรณ์ที่สร้างได้ยากมากในช่วงเวลาอื่นของประวัติศาสตร์ และผมน่าจะซื้อเพิ่มมากกว่านี้
      ผมเห็นสัญญาณ แนวโน้มราคา และของขาดตลาดแบบเรียลไทม์ และคนอื่นที่มีกำลังก็คงกักตุนไว้เช่นกัน
    • ใช่ สำหรับหลายคน 6,000 ดอลลาร์ เป็นเงินเล็กน้อย
    • ถูกต้อง
      คนทางฝั่งคุณมีรายได้ต่ำกว่าคนอเมริกันมากกว่าหนึ่งหลัก
  • มีคนพูดกันมากว่าฮาร์ดแวร์สำหรับรันโมเดลโลคัลนั้นแพง แต่ถ้าไม่ได้สนใจอุปกรณ์ของ Apple ดูเหมือนว่า Intel Arc Pro B50/B60/B70 จะคุ้มค่าพอสมควร ทว่าแทบไม่ค่อยถูกพูดถึง
    ล่าสุดซื้อรุ่น B70 32GB RAM มาในราคาประมาณ $1200 รวมภาษีขายและภาษีนำเข้า โดยอ้างอิงที่อยู่นอกสหรัฐฯ และในบางพื้นที่อาจถูกกว่านี้
    แบนด์วิดท์หน่วยความจำอยู่ที่ 608GB/s
    M5 Max GPU 32 คอร์อยู่ที่ 460GB/s, GPU 40 คอร์อยู่ที่ 614GB/s และ 3090 ยังเร็วกว่าอยู่ที่ประมาณ 900GB/s แต่ก็ได้ VRAM 32GB ในราคาถูกกว่าการ์ด Nvidia ระดับเดียวกันมาก
    เรียกได้ว่าได้แบนด์วิดท์ประมาณ 1/3 ของ 5090 ในราคา 1/3 แต่มี VRAM 32GB เท่ากัน ดังนั้นถ้าอยากรันโมเดล quantized ที่ใหญ่ขึ้นและมี context พอสมควรด้วยงบต่ำ ก็เป็นจุดประนีประนอมที่น่าสนใจ
    ตอนนี้ยังอยู่ระหว่างสำรวจโมเดลโลคัล เลยไม่อยากจ่าย $5000~$10000 เพื่อทดสอบ และถ้าทดลองได้ถูกลง ประสิทธิภาพที่ช้าลงเล็กน้อยก็รับได้
    ตอนแรกซื้อ B50 16GB TDP 70W มาลองการ์ด Intel กับสแตกของตัวเอง ซึ่งทำงานบน Ubuntu และ Vulkan ได้ง่ายมาก
    เห็นโพสต์จำนวนมากบอกว่ามันวุ่นวายและใช้ไม่ได้ แต่ส่วนใหญ่น่าจะเกี่ยวกับ SYCL และดูเหมือน SYCL ก็ไม่ได้มีประสิทธิภาพดีกว่า Vulkan จึงไม่เห็นเหตุผลว่าต้องใช้
    B50 ราคา $370 รวมภาษีและภาษีนำเข้า และแค่ apt install ไลบรารี Vulkan ก็ทำงานกับไดรเวอร์ xe พื้นฐานของ 26.04 และ Vulkan build ของ llama.cpp ได้เลย
    SR-IOV PF/VF ก็ทำงานกับ qemu/kvm ได้โดยไม่ต้องใช้ทริกพิเศษ และหลังซื้อมา fwupdmgr ก็อัปเดตเฟิร์มแวร์ให้สองครั้ง จึงดูเหมือนว่า Intel ตั้งใจจะซัพพอร์ตผลิตภัณฑ์เหล่านี้จริงๆ

  • ตอนนี้คิดว่าจุดคุ้มสุดคือการใช้ 3090 สองใบ ร่วมกับเมนบอร์ด PCIe 4 และ DDR4 RAM 64~128GB
    ตอนนี้ประกอบได้ราว $3k และรัน Qwen 27B/35B แบบ int4 ได้เร็วมาก

  • สำหรับข้อมูลอ้างอิง ตอนนี้กำลังรัน gemma4 31B บน 5090 อยู่ และถือว่ายอดเยี่ยมทีเดียว
    ใช้ QAT, MTP และบริบท 128k
    Qwen 3.6 27B ก็ดีเช่นกัน แต่รู้สึกว่า Gemma4 ถูกประเมินต่ำไปเล็กน้อย

    • ประสบการณ์ของผมก็คล้ายกัน
      ผมรัน gemma4 31B บน 4090 ด้วย llm.cpp และโมเดลจาก unsloth อยู่
      ใช้ Qwen 3.6 ควบคู่กันด้วย โดย Qwen เร็วกว่า จึงเหมาะกับการคิดและการวางแผน ส่วน Gemma4 ให้คุณภาพโค้ดที่สร้างในการลองครั้งแรกสูงกว่ามาก
      สำหรับ Rust, C++ และ C# ต้องแก้ไขน้อยกว่าจนถึงระดับที่รู้สึกว่านำไป merge ได้
    • ผมยังทำให้ Gemma4 จบเทิร์นได้อย่างถูกต้องไม่ได้
      มันมักจะหยุดกะทันหันหรือสร้างการเรียกเครื่องมือที่ผิดพลาดเสมอ อาจเป็นเพราะผมตั้งค่า oMLX หรือ Opencode ผิดเอง
    • ดี
      ผมสลับใช้ระหว่าง Qwen 3.5 9B Q6_M กับ Gemma4 12B Q4_K_M บน 4080 Super
      ทั้งสองมีความเร็วใกล้เคียงกัน และสามารถให้ตรวจทานแผนหรือการเปลี่ยนแปลงของกันและกันได้
      สำหรับโปรเจกต์เล็กๆ ถือว่ามีความสามารถพอสมควร และสำหรับงานที่ยากขึ้นเล็กน้อยก็สามารถขยับไปใช้ quantization ที่ดีกว่าได้
  • ก่อนจะไปซื้อ คอมพิวเตอร์หน่วยความจำรวม เช่น DGX Spark, Mac, Ryzen AI Max 395 / Strix Halo ควรรู้ไว้ว่าโมเดล dense โดยทั่วไปจะช้าบนอุปกรณ์เหล่านี้
    GPU แยกเฉพาะทางรันโมเดล dense ได้ดีกว่ามาก
    ควรหา benchmark ของอุปกรณ์ที่จะซื้อดูก่อน และถ้าต้องการอุปกรณ์แบบนี้จริงๆ การรัน Qwen 3.6 35B หรือโมเดล sparse MoE อื่นๆ จะดีกว่า

  • ผมรัน qwen 3.6 35b a3b ด้วย opencode บน M3 Max 64GB RAM MacBook Pro 16 นิ้ว มาโดยตลอด และมันดีมากสำหรับการวางแผนและเขียนโค้ดแบบโลคัล
    พูดตามตรง พอเห็นว่า 64GB ทรงพลังขนาดนี้ บางครั้งก็คิดว่าน่าจะซื้อ 128GB เพื่อเผื่ออนาคตไว้
    ในทางกลับกัน ผมก็ยังไม่เคยชนข้อจำกัดเพราะโมเดลที่ใหญ่กว่า qwen เล็กน้อยเลย

    • ผมรัน Qwen 3.6 35B A3b บนแล็ปท็อป Windows อยู่เหมือนกัน และด้วย RAM 64GB กับ GPU 4GB ก็อย่างน้อยยังพอทนได้
      มันไม่เร็ว ได้เพียงไม่กี่โทเคนต่อวินาที ช้ากว่าความเร็วในการอ่าน แต่สามารถสั่งงานทิ้งไว้แล้วค่อยกลับมาดูภายหลังได้
      นี่เป็นแล็ปท็อป $600 ที่ซื้อจาก eBay เมื่อไม่กี่ปีก่อน ไม่ใช่เครื่องราคา $6000
      ผมสงสัยว่า Mac หน่วยความจำรวมหรือ GPU เดสก์ท็อปขนาดใหญ่ 24GB เหล่านั้นให้ความเร็วระดับหลายสิบถึงหลายร้อยโทเคนต่อวินาทีสมกับค่าใช้จ่ายที่มากกว่า 10~20 เท่าหรือไม่
    • อยากรู้ว่าความเร็วตอบสนองอยู่ประมาณไหนในหน่วยโทเคนต่อวินาที
      จากประสบการณ์ โมเดลขนาด 20~35GB และแค่ key-value cache ก็ใช้ RAM 64GB พื้นฐานไปมากแล้ว ดังนั้นถ้าต้องเปิดเบราว์เซอร์ ตัวแก้ไข และอย่างอื่นค้างไว้ตลอด RAM 128GB ทั้งหมดช่วยได้แน่นอน