Rapid-MLX - เอนจิน AI ภายในเครื่องความเร็วสูงพิเศษสำหรับ Apple Silicon โดยเฉพาะ

xguru · 2026-05-12T09:46:02+09:00

เอนจินอนุมานสำหรับ รันโมเดล AI ภายในเครื่อง บน Mac ที่ใช้ Apple Silicon โดยใช้เนทีฟ Metal compute kernel บนพื้นฐานของ เฟรมเวิร์ก MLX ของ Apple ความเร็วในการอนุมานสูงสุด เร็วกว่า Ollama 4.2 เท่า - อ้างอิงจาก Phi-4 Mini 14B ที่ 180 tok/s (เทียบกับ Ollama 56 tok/s เร็วกว่า 3.2 เท่า), และ Qwen3.5-9B ที่ 108 tok/s (เทียบกับ Ollama 41 tok/s เร็วกว่า 2.6 เท่า) เมื่อมีแคชอยู่แล้ว TTFT 0.08 วินาที (อ้างอิงจาก Kimi-Linear-48B) และอยู่ในช่วง 0.1~0.3 วินาทีสำหรับโมเดลส่วนใหญ่ มี parser สำหรับการเรียกใช้เครื่องมือ 17 แบบ ในตัว และตรวจจับอัตโนมัติตามชื่อโมเดล — แม้โมเดล quantized 4bit จะพิมพ์การเรียกใช้เครื่องมือที่เสียหายออกมาเป็นข้อความ ก็สามารถกู้คืนเป็นรูปแบบเชิงโครงสร้างได้อัตโนมัติ มี การแมปโมเดลที่เหมาะสมที่สุดตาม RAM ตั้งแต่ 16GB MacBook Air (Qwen3.5-4B, 160 tok/s) ไปจนถึง 256GB Mac Studio Ultra (DeepSeek V4 Flash 158B, 31 tok/s, 1M context) 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → ใช้ RAM 2.4GB, 160 tok/s, ใช้แชต, เขียนโค้ด, และเรียกใช้เครื่องมือได้ 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, โมเดลอเนกประสงค์ 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, รองรับการเรียกใช้เครื่องมือ 100%), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 MoE expert, 262K context) 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, สมดุลที่ดีที่สุดระหว่างความฉลาดและความเร็ว 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, ความสามารถระดับ frontier 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, frontier MoE ตั้งแต่ day-0 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) หรือ DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, 1M context) 4bit เน้นประหยัดหน่วยความจำ (แนะนำสำหรับกรณีส่วนใหญ่), 8bit สำหรับการอนุมานคุณภาพสูง, mxfp4 คือฟอร์แมต 4bit คุณภาพสูง ฟีเจอร์ แยก reasoning ที่แยกกระบวนการอนุมานของโมเดล chain-of-thought ออกเป็นฟิลด์ reasoning_content ต่างหาก - รองรับฟอร์แมตของ Qwen3, DeepSeek-R1, MiniMax, GPT-OSS ปรับปรุง TTFT ของบทสนทนาแบบหลายเทิร์นได้ 2~5 เท่าด้วย KV cache trimming สำหรับ standard transformer และ DeltaNet state snapshot สำหรับสถาปัตยกรรมไฮบริดของ Qwen3.5 (กู้คืนได้ใน ~0.1ms) โดยเปิดใช้งานตลอดเวลาโดยไม่ต้องใช้แฟลกเพิ่มเติม รองรับ smart cloud routing ที่สลับคำขอ context ขนาดใหญ่ซึ่ง local prefill ช้า ไปยัง cloud LLM อย่าง GPT-5, Claude โดยอัตโนมัติ เป็น ตัวแทน OpenAI API แบบ drop-in — หากเป็นแอปที่รองรับ OpenAI เช่น Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI ก็เชื่อมต่อได้ทันทีผ่าน localhost:8000/v1 รองรับ การขยายแบบมัลติโหมดและตัวเลือกเพิ่มเติม เช่น Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, การสร้าง JSON แบบ schema-constrained มี เทคนิคการปรับแต่งประสิทธิภาพหลากหลายรูปแบบ ในตัว เช่น TurboQuant V-cache (ลดการใช้หน่วยความจำ 86%), KV cache quantization, prefill chunking, tool logits bias มี MHI (Model-Harness Index) สำหรับวัดความเข้ากันได้ระหว่างโมเดลกับ agent harness — Qwopus 27B ได้คะแนนสูงสุดที่ MHI 92 เทคนิคเร่งความเร็วเพิ่มเติม อย่าง Speculative Decode (1.5~2.3 เท่า), EAGLE-3 (3~6.5 เท่า), ReDrafter (1.4~1.5 เท่า) รวมอยู่ในโรดแมป ไลเซนส์ Apache 2.0

(github.com/raullenchai)

13 คะแนน โดย xguru 7 시간 전 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

เอนจินอนุมานสำหรับ รันโมเดล AI ภายในเครื่อง บน Mac ที่ใช้ Apple Silicon โดยใช้เนทีฟ Metal compute kernel บนพื้นฐานของ เฟรมเวิร์ก MLX ของ Apple
ความเร็วในการอนุมานสูงสุด เร็วกว่า Ollama 4.2 เท่า - อ้างอิงจาก Phi-4 Mini 14B ที่ 180 tok/s (เทียบกับ Ollama 56 tok/s เร็วกว่า 3.2 เท่า), และ Qwen3.5-9B ที่ 108 tok/s (เทียบกับ Ollama 41 tok/s เร็วกว่า 2.6 เท่า)
เมื่อมีแคชอยู่แล้ว TTFT 0.08 วินาที (อ้างอิงจาก Kimi-Linear-48B) และอยู่ในช่วง 0.1~0.3 วินาทีสำหรับโมเดลส่วนใหญ่
มี parser สำหรับการเรียกใช้เครื่องมือ 17 แบบ ในตัว และตรวจจับอัตโนมัติตามชื่อโมเดล — แม้โมเดล quantized 4bit จะพิมพ์การเรียกใช้เครื่องมือที่เสียหายออกมาเป็นข้อความ ก็สามารถกู้คืนเป็นรูปแบบเชิงโครงสร้างได้อัตโนมัติ
มี การแมปโมเดลที่เหมาะสมที่สุดตาม RAM ตั้งแต่ 16GB MacBook Air (Qwen3.5-4B, 160 tok/s) ไปจนถึง 256GB Mac Studio Ultra (DeepSeek V4 Flash 158B, 31 tok/s, 1M context)
- 16GB MacBook Air/Pro: Qwen3.5-4B 4bit → ใช้ RAM 2.4GB, 160 tok/s, ใช้แชต, เขียนโค้ด, และเรียกใช้เครื่องมือได้
- 24GB MacBook Pro: Qwen3.5-9B 4bit → 5.1GB, 108 tok/s, โมเดลอเนกประสงค์
- 32GB Mac Mini/Studio: Qwen3.5-27B 4bit (15.3GB, 39 tok/s), Nemotron-Nano 30B 4bit (18GB, 141 tok/s, รองรับการเรียกใช้เครื่องมือ 100%), Qwen3.6-35B-A3B 4bit (20GB, 95 tok/s, 256 MoE expert, 262K context)
- 48~64GB: Qwen3.5-35B-A3B 8bit → 37GB, 83 tok/s, สมดุลที่ดีที่สุดระหว่างความฉลาดและความเร็ว
- 96GB+: Qwen3.5-122B mxfp4 → 65GB, 57 tok/s, ความสามารถระดับ frontier
- 128GB+: DeepSeek V4 Flash 158B-A13B 2-bit DQ → 91GB, 56 tok/s, frontier MoE ตั้งแต่ day-0
- 192~256GB: Qwen3.5-122B 8bit (130GB, 44 tok/s) หรือ DeepSeek V4 Flash 8-bit (136GB, 31 tok/s, 1M context)
- 4bit เน้นประหยัดหน่วยความจำ (แนะนำสำหรับกรณีส่วนใหญ่), 8bit สำหรับการอนุมานคุณภาพสูง, mxfp4 คือฟอร์แมต 4bit คุณภาพสูง
ฟีเจอร์ แยก reasoning ที่แยกกระบวนการอนุมานของโมเดล chain-of-thought ออกเป็นฟิลด์ reasoning_content ต่างหาก - รองรับฟอร์แมตของ Qwen3, DeepSeek-R1, MiniMax, GPT-OSS
ปรับปรุง TTFT ของบทสนทนาแบบหลายเทิร์นได้ 2~5 เท่าด้วย KV cache trimming สำหรับ standard transformer และ DeltaNet state snapshot สำหรับสถาปัตยกรรมไฮบริดของ Qwen3.5 (กู้คืนได้ใน ~0.1ms) โดยเปิดใช้งานตลอดเวลาโดยไม่ต้องใช้แฟลกเพิ่มเติม
รองรับ smart cloud routing ที่สลับคำขอ context ขนาดใหญ่ซึ่ง local prefill ช้า ไปยัง cloud LLM อย่าง GPT-5, Claude โดยอัตโนมัติ
เป็น ตัวแทน OpenAI API แบบ drop-in — หากเป็นแอปที่รองรับ OpenAI เช่น Cursor, Claude Code, Aider, LangChain, PydanticAI, smolagents, Hermes Agent, Open WebUI ก็เชื่อมต่อได้ทันทีผ่าน localhost:8000/v1
รองรับ การขยายแบบมัลติโหมดและตัวเลือกเพิ่มเติม เช่น Vision (Gemma 4, Qwen-VL), Audio (TTS/STT), Embeddings, Gradio Chat UI, การสร้าง JSON แบบ schema-constrained
มี เทคนิคการปรับแต่งประสิทธิภาพหลากหลายรูปแบบ ในตัว เช่น TurboQuant V-cache (ลดการใช้หน่วยความจำ 86%), KV cache quantization, prefill chunking, tool logits bias
มี MHI (Model-Harness Index) สำหรับวัดความเข้ากันได้ระหว่างโมเดลกับ agent harness — Qwopus 27B ได้คะแนนสูงสุดที่ MHI 92
เทคนิคเร่งความเร็วเพิ่มเติม อย่าง Speculative Decode (1.5~2.3 เท่า), EAGLE-3 (3~6.5 เท่า), ReDrafter (1.4~1.5 เท่า) รวมอยู่ในโรดแมป
ไลเซนส์ Apache 2.0

3 ความคิดเห็น

parkindani 3 시간 전

เมื่อเทียบกับ omlx แล้ว ประสิทธิภาพจะเป็นอย่างไรบ้างก็น่าสงสัยเหมือนกัน

xguru 6 시간 전

ส่วนตัวผมกำลังลองรัน deepseek4 ด้วย antirez/ds4 อยู่ แล้วดูเหมือนว่าฝั่ง ds4 จะเร็วกว่านิดหน่อยนะครับ

ds4 ใช้ได้เฉพาะกับ 128GB เลยค่อนข้างก้ำกึ่งหน่อย แต่กับโมเดลอื่นน่าจะดีครับ

ช่วงนี้มีทวีตของ CEO ของ HuggingFace ที่บอกว่าลองเขียนโค้ดบนเครื่องบินด้วย Qwen3.6 27B แล้วรู้สึกว่าระดับพอๆ กับ Opus ซึ่งค่อนข้างเป็นที่นิยมอยู่เหมือนกัน อันนี้ก็คงต้องลองลง 3.6 27B ดูบ้างแล้ว
https://x.com/julien_c/status/2047647522173104145

yangeok 6 시간 전

สงสัยเหมือนกันว่าประสิทธิภาพภาษาเกาหลีจะเป็นยังไง.. ตอนนี้ใช้อยู่รุ่น 96GB แต่ก็คงสู้ LLM แบบเสียเงินไม่ได้ใช่ไหมครับ..?

ถ้าได้ระดับประมาณ gemini cli ก็น่าจะดีเลย 555

Rapid-MLX - เอนจิน AI ภายในเครื่องความเร็วสูงพิเศษสำหรับ Apple Silicon โดยเฉพาะ

บทความที่เกี่ยวข้อง

3 ความคิดเห็น