Ollama ตอนนี้ทำงานบน Apple Silicon ด้วย MLX แล้ว
(ollama.com)- Ollama เวอร์ชันพรีวิวที่พัฒนาบน เฟรมเวิร์ก Apple MLX เปิดตัวแล้ว โดยมอบประสิทธิภาพที่ดีขึ้นด้วยการใช้ประโยชน์จาก สถาปัตยกรรมหน่วยความจำแบบรวมศูนย์ ของ Apple Silicon
- ทั้ง TTFT (เวลาในการสร้างโทเค็นแรก) และ ความเร็วในการสร้างโทเค็น ดีขึ้นผ่าน GPU Neural Accelerator บนชิปตระกูล M5
- รองรับ ฟอร์แมต NVFP4 เพื่อลด แบนด์วิดท์หน่วยความจำและความต้องการพื้นที่จัดเก็บ โดยยังคงความแม่นยำของโมเดลไว้ และสามารถรันโมเดลที่ปรับแต่งด้วย NVIDIA Model Optimizer ได้
- การนำแคชกลับมาใช้ซ้ำและนโยบายแคชอัจฉริยะ ช่วยเพิ่มประสิทธิภาพการใช้หน่วยความจำและความเร็วตอบสนองระหว่างบทสนทนา พร้อมเพิ่มอัตรา cache hit ของพรอมป์ตร่วมกัน
- ในอนาคตมีแผนเพิ่มการรองรับโมเดลอีกมากขึ้นและเพิ่ม ความสามารถในการนำเข้าโมเดลแบบกำหนดเอง เพื่อขยายสถาปัตยกรรมที่รองรับ
พรีวิว Ollama ที่ทำงานบน Apple Silicon ด้วย MLX
- มีการเปิดตัวพรีวิวใหม่ของ Ollama ที่พัฒนาบน เฟรมเวิร์ก MLX ของ Apple
- สามารถรันผู้ช่วยส่วนตัว (OpenClaw) หรือเอเจนต์สำหรับงานโค้ด (Claude Code, OpenCode, Codex เป็นต้น) บน macOS ได้เร็วขึ้น
- ปรับปรุงประสิทธิภาพโดยใช้ประโยชน์จาก สถาปัตยกรรมหน่วยความจำแบบรวมศูนย์ ของ Apple Silicon
-
ประสิทธิภาพที่ดีขึ้นบน Apple Silicon
- Ollama ทำงานบน เฟรมเวิร์กแมชชีนเลิร์นนิง MLX ของ Apple และใช้ GPU Neural Accelerator ของชิป M5, M5 Pro, M5 Max เพื่อเร่งทั้ง TTFT (เวลาในการสร้างโทเค็นแรก) และ ความเร็วในการสร้างโทเค็น
- ในการทดสอบเมื่อวันที่ 29 มีนาคม 2026 มีการเปรียบเทียบ โมเดล Qwen3.5-35B-A3B ของ Alibaba (
NVFP4quantization) กับอิมพลีเมนเทชันเดิมของ Ollama (Q4_K_M) - Ollama เวอร์ชัน 0.19 ทำสถิติประสิทธิภาพได้ที่ 1851 token/s prefill และ 134 token/s decode เมื่อรันแบบ
int4
-
รองรับ NVFP4
- รองรับ ฟอร์แมต NVFP4 ของ NVIDIA ทำให้สามารถ รักษาความแม่นยำของโมเดล พร้อมกับ ลดแบนด์วิดท์หน่วยความจำและความต้องการพื้นที่จัดเก็บ
- ทำให้ผลลัพธ์มีความสอดคล้องกันระหว่างสภาพแวดล้อมสำหรับ inference ที่ใช้ NVFP4 กับ สภาพแวดล้อม production
- สามารถรันโมเดลที่ปรับแต่งด้วย Model Optimizer ของ NVIDIA ได้
- มีแผนจะเพิ่ม precision อื่น ๆ ตามการออกแบบและการใช้งานของพันธมิตรด้านวิจัยและฮาร์ดแวร์ของ Ollama
-
การปรับปรุงระบบแคช
- การนำแคชกลับมาใช้ซ้ำ ช่วยลดการใช้หน่วยความจำระหว่างบทสนทนา และเพิ่มอัตรา cache hit เมื่อใช้ system prompt ร่วมกัน
- มีการนำ checkpoint อัจฉริยะ มาใช้เพื่อลดปริมาณการประมวลผลพรอมป์ตและเพิ่มความเร็วในการตอบสนอง
- นโยบายการลบแคชอัจฉริยะ ทำให้ shared prefix ถูกเก็บไว้นานขึ้น แม้ว่าสาขาเก่าจะถูกลบไปแล้ว
-
วิธีเริ่มต้น
- ดาวน์โหลด Ollama 0.19 ได้
- ปรับแต่งพารามิเตอร์การสุ่มของ โมเดล Qwen3.5-35B-A3B ใหม่ให้เหมาะกับงานโค้ด
- ต้องใช้ Mac ที่มี หน่วยความจำแบบรวมศูนย์ ตั้งแต่ 32GB ขึ้นไป
- ตัวอย่างการรัน:
- Claude Code:
ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4 - OpenClaw:
ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4 - สนทนากับโมเดล:
ollama run qwen3.5:35b-a3b-coding-nvfp4
- Claude Code:
-
แผนในอนาคต
- จะเพิ่มการรองรับโมเดลอีกมากขึ้น
- มีแผนเพิ่ม ความสามารถในการนำเข้าโมเดลแบบกำหนดเอง บนสถาปัตยกรรมที่รองรับ
- จะขยายรายการสถาปัตยกรรมที่รองรับอย่างต่อเนื่อง
-
คำขอบคุณ
- ทีมผู้มีส่วนร่วมของ MLX สำหรับการพัฒนาเฟรมเวิร์กเร่งความเร็ว
- ทีม NVIDIA สำหรับ NVFP4 quantization, การเพิ่มประสิทธิภาพโมเดล, การรองรับ MLX CUDA, การปรับแต่ง Ollama และการทดสอบ
- ทีม GGML และ llama.cpp สำหรับการสร้างเฟรมเวิร์กแบบโลคัลและชุมชน
- ทีม Alibaba Qwen สำหรับการให้โมเดลโอเพนซอร์สและความร่วมมือ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
"apfel" ที่ฉันทำเป็น CLI สำหรับ foundation model แบบรันบนอุปกรณ์ของ Apple
แม้จะมีข้อจำกัด 4k context และมี guardrail ที่เข้มเกินไป จนถึงขั้นห้ามแม้แต่การบรรยายสี แต่ความที่มันเรียกใช้จาก bash script ได้ตรง ๆ โดยไม่ต้องพึ่งการเรียกภายนอกนั้นให้ความรู้สึกว่าทรงพลังมาก
ฉันเองก็คาดหวังไว้ แต่พอได้ใช้แล้ว ผิดหวัง มาก ตอนนี้กลับรู้สึกว่าอย่างน้อย Apple ก็น่าจะหันไปทาง Gemini แบบเต็มตัวแล้ว
คิดว่า LLM แบบ on-device คืออนาคต
มันปลอดภัยกว่า ใช้พลังงานน้อยกว่าดาต้าเซ็นเตอร์ และยังช่วยบรรเทาปัญหาความต้องการด้าน inference ได้ด้วย ผู้ใช้ส่วนใหญ่ไม่ได้ต้องการประสิทธิภาพระดับโมเดลล้ำหน้าสุดเสมอไป
ดาต้าเซ็นเตอร์มีประสิทธิภาพสูงกว่าพีซีส่วนตัวเกือบ 100 เท่า เพราะอาศัย batching บน GPU และมีอัตราการใช้งานสูง
แต่แนวทางแบบ ไฮบริด ที่ให้โมเดลในเครื่องจัดการคำของ่าย ๆ แล้วส่งงานซับซ้อนไปคลาวด์ก็ดูน่าสนใจมาก
มันมีอินเทอร์เฟซสไตล์ ChatGPT ในตัว จึงสะดวกมากสำหรับการทดสอบแบบรวดเร็ว แม้มี RAM 16GB ก็ยังรันโมเดลที่ใช้ได้ดีพอสมควร
ตัวอย่างเช่น Qwen 3.5 9B เวอร์ชันปกติเซ็นเซอร์หนักมาก แต่ เวอร์ชัน Uncensored ก็กลับเปิดกว้างเกินไป จนการหาสมดุลกลายเป็นเรื่องน่าสนใจ
แต่คอขวดคือแบนด์วิดท์ของ SSD ดังนั้นยิ่งมี RAM สำหรับแคชมากก็ยิ่งดี ถ้ายอมรอคำตอบได้ มันก็ใช้งานได้จริงพอสมควร
ไม่นานมานี้ได้ทำ แอป graphRAG โดยผสม Qwen 3.5 4B กับ 27B เข้าด้วยกัน พอแยกงานเล็ก ๆ ออกจากงานถามตอบก็ทำงานได้ดีทีเดียว
ใช้ MLX แล้วรู้สึกว่าเร็วขึ้นมากเวลา ประมวลผลแบบ batch สำหรับการดึง entity
ดีใจที่ การทำ inference ของ Ollama บน Mac ดีขึ้นมากเพราะ MLX
โดยเฉพาะฟีเจอร์ SSD KV caching ของ omlx.ai นี่เหมือนเป็นตัวเปลี่ยนเกม
ต่อให้เซสชันหายไปจากหน่วยความจำก็ไม่ต้อง prefill ใหม่ และด้วยความเร็ว prefill ของ M5 Max ก็ทำให้ใช้เวลากับการ generate ได้มากขึ้น
ตอนนี้รัน qwen 70b 4-bit บน M2 Max 96GB ด้วย llama.cpp อยู่
สำหรับงานประจำวันถือว่าเสถียรพอแล้ว แต่ก่อน Ollama เรียก llama.cpp ผ่านเชลล์ ตอนนี้พอ เปลี่ยนเป็น MLX แบบเนทีฟ ก็น่าจะใช้หน่วยความจำได้มีประสิทธิภาพขึ้น
ตั้งใจจะลองเทียบกับเส้นทาง gguf ในโมเดลใหญ่ ๆ ดู
สงสัยว่าทำไมยังใช้ Ollama กันอยู่
ทั้ง Lemonade และ llama.cpp ดูจะปรับแต่งมาดีกว่า และประสบการณ์ใช้งานก็คล้ายกัน
อยากรู้ว่ามีทางเลือก ที่ไม่ใช่ Mac สำหรับรันโมเดลโลคัลได้แรงระดับ Mac ไหม
อยากรู้ว่าเมื่อเทียบกับ เอนจิน inference MLX ตัวล่าสุดอย่าง optiq แล้วเป็นอย่างไร
optiq รองรับ Turboquantization
อยากเห็นการเปรียบเทียบประสิทธิภาพของ llama.cpp กับ MLX
ถึงอย่างนั้นในกรณีส่วนใหญ่ ความเร็วที่เพิ่มขึ้น ก็คุ้มค่ากว่า
กำลังรอวันที่จะรัน Claude Code ด้วย local LLM บน MacOS ได้อย่างสบาย ๆ ด้วย RAM แค่ 16GB