31 คะแนน โดย xguru 2026-05-12 | 6 ความคิดเห็น | แชร์ทาง WhatsApp
  • เอนจินอนุมานสำหรับ รันโมเดล AI ภายในเครื่อง บน Mac ที่ใช้ Apple Silicon โดยใช้เนทีฟ Metal compute kernel บนพื้นฐานของ เฟรมเวิร์ก MLX ของ Apple
  • ความเร็วในการอนุมานสูงสุด เร็วกว่า Ollama 4.2 เท่า - อ้างอิงจาก Phi-4 Mini 14B ที่ 180 tok/s (เทียบกับ Ollama 56 tok/s เร็วกว่า 3.2 เท่า), และ Qwen3.5-9B ที่ 108 tok/s (เทียบกับ Ollama 41 tok/s เร็วกว่า 2.6 เท่า)
  • เมื่อมีแคชอยู่แล้ว TTFT 0.08 วินาที (อ้างอิงจาก Kimi-Linear-48B) และอยู่ในช่วง 0.1~0.3 วินาทีสำหรับโมเดลส่วนใหญ่
  • มี parser สำหรับการเรียกใช้เครื่องมือ 17 แบบ ในตัว และตรวจจับอัตโนมัติตามชื่อโมเดล — แม้โมเดล quantized 4bit จะพิมพ์การเรียกใช้เครื่องมือที่เสียหายออกมาเป็นข้อความ ก็สามารถกู้คืนเป็นรูปแบบเชิงโครงสร้างได้อัตโนมัติ
  • มี การแมปโมเดลที่เหมาะสมที่สุดตาม RAM ตั้งแต่ 16GB MacBook Air (Qwen3.5-4B, 160 tok/s) ไปจนถึง 256GB Mac Studio Ultra (DeepSeek V4 Flash 158B, 31 tok/s, 1M context)
    • 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → ใช้ RAM 2.4GB, 160 tok/s, ใช้แชต, เขียนโค้ด, และเรียกใช้เครื่องมือได้
    • 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, โมเดลอเนกประสงค์
    • 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, รองรับการเรียกใช้เครื่องมือ 100%), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 MoE expert, 262K context)
    • 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, สมดุลที่ดีที่สุดระหว่างความฉลาดและความเร็ว
    • 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, ความสามารถระดับ frontier
    • 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, frontier MoE ตั้งแต่ day-0
    • 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) หรือ DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, 1M context)
    • 4bit เน้นประหยัดหน่วยความจำ (แนะนำสำหรับกรณีส่วนใหญ่), 8bit สำหรับการอนุมานคุณภาพสูง, mxfp4 คือฟอร์แมต 4bit คุณภาพสูง
  • ฟีเจอร์ แยก reasoning ที่แยกกระบวนการอนุมานของโมเดล chain-of-thought ออกเป็นฟิลด์ reasoning_content ต่างหาก - รองรับฟอร์แมตของ Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
  • ปรับปรุง TTFT ของบทสนทนาแบบหลายเทิร์นได้ 2~5 เท่าด้วย KV cache trimming สำหรับ standard transformer และ DeltaNet state snapshot สำหรับสถาปัตยกรรมไฮบริดของ Qwen3.5 (กู้คืนได้ใน ~0.1ms) โดยเปิดใช้งานตลอดเวลาโดยไม่ต้องใช้แฟลกเพิ่มเติม
  • รองรับ smart cloud routing ที่สลับคำขอ context ขนาดใหญ่ซึ่ง local prefill ช้า ไปยัง cloud LLM อย่าง GPT-5, Claude โดยอัตโนมัติ
  • เป็น ตัวแทน OpenAI API แบบ drop-in — หากเป็นแอปที่รองรับ OpenAI เช่น Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI ก็เชื่อมต่อได้ทันทีผ่าน localhost:8000/v1
  • รองรับ การขยายแบบมัลติโหมดและตัวเลือกเพิ่มเติม เช่น Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, การสร้าง JSON แบบ schema-constrained
  • มี เทคนิคการปรับแต่งประสิทธิภาพหลากหลายรูปแบบ ในตัว เช่น TurboQuant V-cache (ลดการใช้หน่วยความจำ 86%), KV cache quantization, prefill chunking, tool logits bias
  • มี MHI (Model-Harness Index) สำหรับวัดความเข้ากันได้ระหว่างโมเดลกับ agent harness — Qwopus 27B ได้คะแนนสูงสุดที่ MHI 92
  • เทคนิคเร่งความเร็วเพิ่มเติม อย่าง Speculative Decode (1.5~2.3 เท่า), EAGLE-3 (3~6.5 เท่า), ReDrafter (1.4~1.5 เท่า) รวมอยู่ในโรดแมป
  • ไลเซนส์ Apache 2.0

6 ความคิดเห็น

 
hulryung 29 일 전

จะมีคนที่ใช้อันนั้นบน MBP 128GB จริง ๆ ไหมครับ? (อยากฟังความเห็น)
เห็นว่าราคาประมาณ 8 ล้านวอน เลยแอบคิดว่า ถ้าผ่านไปสัก 1 ปี มันจะคุ้มทุนไหม..
แต่อีกมุมหนึ่ง ต่อให้ใช้ local AI ก็คงยังใช้แพ็กเกจสมัครสมาชิกควบคู่กันไปอยู่ดี ฮ่า

 
emptybynature 27 일 전

ผมใช้ M5 Max 128GB อยู่ ตอนนี้ก็สมัครทั้ง codex, deepseek, kimi และจ่ายเงินใช้ API อยู่ด้วยครับ 555 แต่ถ้าจะให้โมเดลโลคัลใช้งานได้จริง แม้กระทั่งบน MacBook 128GB ก็แทบจะมีแค่ Qwen 3.6 27B เท่านั้นที่พอใช้ได้ โมเดลอื่นที่พารามิเตอร์ใกล้เคียงกันประสิทธิภาพก็ตกกว่า ส่วนโมเดลอย่าง 122B นี่เปิดขึ้นมาได้ก็จริง แต่ยังรันได้ไม่ถึงระดับที่เอาไปใช้งานจริงได้ครับ

 
mrdoosun 2026-05-13

แม้ตัวเลขด้านความเร็วจะน่าประทับใจ แต่ส่วนตัวผมกลับสะดุดตากับความเข้ากันได้กับ OpenAI API, ตัวแยกวิเคราะห์การเรียกใช้เครื่องมือ, และการแยก reasoning มากกว่า

พอลองนำโมเดลแบบโลคัลไปเชื่อมกับเครื่องมือพัฒนาหรือโฟลว์เอเจนต์ฝั่งแบ็กเอนด์ สิ่งที่มีผลต่อการใช้งานจริงอย่างมากก็ไม่ได้มีแค่ความเร็วในการอนุมานล้วน ๆ เท่านั้น แต่ยังรวมถึงความต่างของรูปแบบคำตอบในแต่ละโมเดล, การกู้คืน tool call ที่เสียหาย, และ TTFT ในคอนเท็กซ์ยาว ๆ ด้วย ในแง่นี้มันจึงดูใกล้เคียงกับ “เอนจินโลคัลที่เชื่อมเข้ากับ agent harness ได้อย่างเสถียร” มากกว่า “เอนจินอนุมานแบบโลคัลที่รวดเร็ว”

ส่วนเบนช์มาร์กคงต้องลองทำซ้ำภายใต้เงื่อนไขเดียวกัน แต่ถ้าบน Apple Silicon สามารถทำ local development loop ได้ระดับนี้ ต้นทุนในการทดลองทำต้นแบบหรือเครื่องมือภายในก็น่าจะลดลงได้มากทีเดียว แนวทางอย่าง MHI ที่พยายามดูความเข้ากันได้ระหว่างโมเดลกับฮาร์เนสแยกต่างหากก็น่าสนใจครับ

 
parkindani 2026-05-12

เมื่อเทียบกับ omlx แล้ว ประสิทธิภาพจะเป็นอย่างไรบ้างก็น่าสงสัยเหมือนกัน

 
xguru 2026-05-12

ส่วนตัวผมกำลังลองรัน deepseek4 ด้วย antirez/ds4 อยู่ แล้วดูเหมือนว่าฝั่ง ds4 จะเร็วกว่านิดหน่อยนะครับ

ds4 ใช้ได้เฉพาะกับ 128GB เลยค่อนข้างก้ำกึ่งหน่อย แต่กับโมเดลอื่นน่าจะดีครับ

ช่วงนี้มีทวีตของ CEO ของ HuggingFace ที่บอกว่าลองเขียนโค้ดบนเครื่องบินด้วย Qwen3.6 27B แล้วรู้สึกว่าระดับพอๆ กับ Opus ซึ่งค่อนข้างเป็นที่นิยมอยู่เหมือนกัน อันนี้ก็คงต้องลองลง 3.6 27B ดูบ้างแล้ว
https://x.com/julien_c/status/2047647522173104145

 
yangeok 2026-05-12

สงสัยเหมือนกันว่าประสิทธิภาพภาษาเกาหลีจะเป็นยังไง.. ตอนนี้ใช้อยู่รุ่น 96GB แต่ก็คงสู้ LLM แบบเสียเงินไม่ได้ใช่ไหมครับ..?

ถ้าได้ระดับประมาณ gemini cli ก็น่าจะดีเลย 555