Ollama ตอนนี้ทำงานบน Apple Silicon ด้วย MLX แล้ว

(ollama.com)

5 คะแนน โดย GN⁺ 29 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Ollama เวอร์ชันพรีวิวที่พัฒนาบน เฟรมเวิร์ก Apple MLX เปิดตัวแล้ว โดยมอบประสิทธิภาพที่ดีขึ้นด้วยการใช้ประโยชน์จาก สถาปัตยกรรมหน่วยความจำแบบรวมศูนย์ ของ Apple Silicon
ทั้ง TTFT (เวลาในการสร้างโทเค็นแรก) และ ความเร็วในการสร้างโทเค็น ดีขึ้นผ่าน GPU Neural Accelerator บนชิปตระกูล M5
รองรับ ฟอร์แมต NVFP4 เพื่อลด แบนด์วิดท์หน่วยความจำและความต้องการพื้นที่จัดเก็บ โดยยังคงความแม่นยำของโมเดลไว้ และสามารถรันโมเดลที่ปรับแต่งด้วย NVIDIA Model Optimizer ได้
การนำแคชกลับมาใช้ซ้ำและนโยบายแคชอัจฉริยะ ช่วยเพิ่มประสิทธิภาพการใช้หน่วยความจำและความเร็วตอบสนองระหว่างบทสนทนา พร้อมเพิ่มอัตรา cache hit ของพรอมป์ตร่วมกัน
ในอนาคตมีแผนเพิ่มการรองรับโมเดลอีกมากขึ้นและเพิ่ม ความสามารถในการนำเข้าโมเดลแบบกำหนดเอง เพื่อขยายสถาปัตยกรรมที่รองรับ

พรีวิว Ollama ที่ทำงานบน Apple Silicon ด้วย MLX

มีการเปิดตัวพรีวิวใหม่ของ Ollama ที่พัฒนาบน เฟรมเวิร์ก MLX ของ Apple
- สามารถรันผู้ช่วยส่วนตัว (OpenClaw) หรือเอเจนต์สำหรับงานโค้ด (Claude Code, OpenCode, Codex เป็นต้น) บน macOS ได้เร็วขึ้น
- ปรับปรุงประสิทธิภาพโดยใช้ประโยชน์จาก สถาปัตยกรรมหน่วยความจำแบบรวมศูนย์ ของ Apple Silicon
ประสิทธิภาพที่ดีขึ้นบน Apple Silicon
- Ollama ทำงานบน เฟรมเวิร์กแมชชีนเลิร์นนิง MLX ของ Apple และใช้ GPU Neural Accelerator ของชิป M5, M5 Pro, M5 Max เพื่อเร่งทั้ง TTFT (เวลาในการสร้างโทเค็นแรก) และ ความเร็วในการสร้างโทเค็น
- ในการทดสอบเมื่อวันที่ 29 มีนาคม 2026 มีการเปรียบเทียบ โมเดล Qwen3.5-35B-A3B ของ Alibaba (NVFP4 quantization) กับอิมพลีเมนเทชันเดิมของ Ollama (Q4_K_M)
- Ollama เวอร์ชัน 0.19 ทำสถิติประสิทธิภาพได้ที่ 1851 token/s prefill และ 134 token/s decode เมื่อรันแบบ int4
รองรับ NVFP4
- รองรับ ฟอร์แมต NVFP4 ของ NVIDIA ทำให้สามารถ รักษาความแม่นยำของโมเดล พร้อมกับ ลดแบนด์วิดท์หน่วยความจำและความต้องการพื้นที่จัดเก็บ
- ทำให้ผลลัพธ์มีความสอดคล้องกันระหว่างสภาพแวดล้อมสำหรับ inference ที่ใช้ NVFP4 กับ สภาพแวดล้อม production
- สามารถรันโมเดลที่ปรับแต่งด้วย Model Optimizer ของ NVIDIA ได้
- มีแผนจะเพิ่ม precision อื่น ๆ ตามการออกแบบและการใช้งานของพันธมิตรด้านวิจัยและฮาร์ดแวร์ของ Ollama
การปรับปรุงระบบแคช
- การนำแคชกลับมาใช้ซ้ำ ช่วยลดการใช้หน่วยความจำระหว่างบทสนทนา และเพิ่มอัตรา cache hit เมื่อใช้ system prompt ร่วมกัน
- มีการนำ checkpoint อัจฉริยะ มาใช้เพื่อลดปริมาณการประมวลผลพรอมป์ตและเพิ่มความเร็วในการตอบสนอง
- นโยบายการลบแคชอัจฉริยะ ทำให้ shared prefix ถูกเก็บไว้นานขึ้น แม้ว่าสาขาเก่าจะถูกลบไปแล้ว
วิธีเริ่มต้น
- ดาวน์โหลด Ollama 0.19 ได้
- ปรับแต่งพารามิเตอร์การสุ่มของ โมเดล Qwen3.5-35B-A3B ใหม่ให้เหมาะกับงานโค้ด
- ต้องใช้ Mac ที่มี หน่วยความจำแบบรวมศูนย์ ตั้งแต่ 32GB ขึ้นไป
- ตัวอย่างการรัน:
  - Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
  - OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
  - สนทนากับโมเดล: ollama run qwen3.5:35b-a3b-coding-nvfp4
แผนในอนาคต
- จะเพิ่มการรองรับโมเดลอีกมากขึ้น
- มีแผนเพิ่ม ความสามารถในการนำเข้าโมเดลแบบกำหนดเอง บนสถาปัตยกรรมที่รองรับ
- จะขยายรายการสถาปัตยกรรมที่รองรับอย่างต่อเนื่อง
คำขอบคุณ
- ทีมผู้มีส่วนร่วมของ MLX สำหรับการพัฒนาเฟรมเวิร์กเร่งความเร็ว
- ทีม NVIDIA สำหรับ NVFP4 quantization, การเพิ่มประสิทธิภาพโมเดล, การรองรับ MLX CUDA, การปรับแต่ง Ollama และการทดสอบ
- ทีม GGML และ llama.cpp สำหรับการสร้างเฟรมเวิร์กแบบโลคัลและชุมชน
- ทีม Alibaba Qwen สำหรับการให้โมเดลโอเพนซอร์สและความร่วมมือ

1 ความคิดเห็น

GN⁺ 29 일 전

ความคิดเห็นจาก Hacker News

"apfel" ที่ฉันทำเป็น CLI สำหรับ foundation model แบบรันบนอุปกรณ์ของ Apple
แม้จะมีข้อจำกัด 4k context และมี guardrail ที่เข้มเกินไป จนถึงขั้นห้ามแม้แต่การบรรยายสี แต่ความที่มันเรียกใช้จาก bash script ได้ตรง ๆ โดยไม่ต้องพึ่งการเรียกภายนอกนั้นให้ความรู้สึกว่าทรงพลังมาก
- พูดตามตรงคือไม่อยากเชื่อว่า Apple ปล่อยผลิตภัณฑ์ออกมาในสภาพแบบนี้
  ฉันเองก็คาดหวังไว้ แต่พอได้ใช้แล้ว ผิดหวัง มาก ตอนนี้กลับรู้สึกว่าอย่างน้อย Apple ก็น่าจะหันไปทาง Gemini แบบเต็มตัวแล้ว
- โปรเจ็กต์เจ๋งมาก อยากรู้ว่ามีแผนจะ แจกจ่ายผ่าน Homebrew ไหม
คิดว่า LLM แบบ on-device คืออนาคต
มันปลอดภัยกว่า ใช้พลังงานน้อยกว่าดาต้าเซ็นเตอร์ และยังช่วยบรรเทาปัญหาความต้องการด้าน inference ได้ด้วย ผู้ใช้ส่วนใหญ่ไม่ได้ต้องการประสิทธิภาพระดับโมเดลล้ำหน้าสุดเสมอไป
- เรื่องความปลอดภัยดีกว่าจริง แต่ในแง่ประสิทธิภาพการจัดสรรอาจแย่ลงด้วยซ้ำ
  ดาต้าเซ็นเตอร์มีประสิทธิภาพสูงกว่าพีซีส่วนตัวเกือบ 100 เท่า เพราะอาศัย batching บน GPU และมีอัตราการใช้งานสูง
- สำหรับองค์กร โมเดลดาต้าเซ็นเตอร์แบบรวมศูนย์ ก็ยังอาจสมเหตุสมผลอยู่
  แต่แนวทางแบบ ไฮบริด ที่ให้โมเดลในเครื่องจัดการคำของ่าย ๆ แล้วส่งงานซับซ้อนไปคลาวด์ก็ดูน่าสนใจมาก
- ช่วงนี้กำลังติดตั้ง llama.cpp บน M4 MBP เพื่อทดลองโมเดลแบบโลคัล
  มันมีอินเทอร์เฟซสไตล์ ChatGPT ในตัว จึงสะดวกมากสำหรับการทดสอบแบบรวดเร็ว แม้มี RAM 16GB ก็ยังรันโมเดลที่ใช้ได้ดีพอสมควร
  ตัวอย่างเช่น Qwen 3.5 9B เวอร์ชันปกติเซ็นเซอร์หนักมาก แต่ เวอร์ชัน Uncensored ก็กลับเปิดกว้างเกินไป จนการหาสมดุลกลายเป็นเรื่องน่าสนใจ
- ใช้ SSD offloading ก็ทำให้รัน โมเดล SOTA บนพีซีผู้บริโภคได้
  แต่คอขวดคือแบนด์วิดท์ของ SSD ดังนั้นยิ่งมี RAM สำหรับแคชมากก็ยิ่งดี ถ้ายอมรอคำตอบได้ มันก็ใช้งานได้จริงพอสมควร
- ฉันทำ digital journaling มา 5 ปีและคาดไว้แล้วว่ากระแสจะมาทางนี้
  ไม่นานมานี้ได้ทำ แอป graphRAG โดยผสม Qwen 3.5 4B กับ 27B เข้าด้วยกัน พอแยกงานเล็ก ๆ ออกจากงานถามตอบก็ทำงานได้ดีทีเดียว
  ใช้ MLX แล้วรู้สึกว่าเร็วขึ้นมากเวลา ประมวลผลแบบ batch สำหรับการดึง entity
ดีใจที่ การทำ inference ของ Ollama บน Mac ดีขึ้นมากเพราะ MLX
โดยเฉพาะฟีเจอร์ SSD KV caching ของ omlx.ai นี่เหมือนเป็นตัวเปลี่ยนเกม
ต่อให้เซสชันหายไปจากหน่วยความจำก็ไม่ต้อง prefill ใหม่ และด้วยความเร็ว prefill ของ M5 Max ก็ทำให้ใช้เวลากับการ generate ได้มากขึ้น
ตอนนี้รัน qwen 70b 4-bit บน M2 Max 96GB ด้วย llama.cpp อยู่
สำหรับงานประจำวันถือว่าเสถียรพอแล้ว แต่ก่อน Ollama เรียก llama.cpp ผ่านเชลล์ ตอนนี้พอ เปลี่ยนเป็น MLX แบบเนทีฟ ก็น่าจะใช้หน่วยความจำได้มีประสิทธิภาพขึ้น
ตั้งใจจะลองเทียบกับเส้นทาง gguf ในโมเดลใหญ่ ๆ ดู
- อยากรู้ว่าความเร็ว การสร้างโทเคนต่อวินาที ได้ประมาณเท่าไร
- ตอนเปิดตัวแรก ๆ มีการเขียนทับโมเดล GGUF บางส่วน ทำให้แพลตฟอร์มที่ไม่ใช่ Apple Silicon ดาวน์โหลดไม่ได้ หวังว่าจะรีบแก้
สงสัยว่าทำไมยังใช้ Ollama กันอยู่
ทั้ง Lemonade และ llama.cpp ดูจะปรับแต่งมาดีกว่า และประสบการณ์ใช้งานก็คล้ายกัน
อยากรู้ว่ามีทางเลือก ที่ไม่ใช่ Mac สำหรับรันโมเดลโลคัลได้แรงระดับ Mac ไหม
- ยังไม่มีอะไรใกล้เคียงระดับนั้น บนพีซีต้องใช้ GPU ระดับ 5090 แต่ทั้ง ประสิทธิภาพต่อโทเคนเมื่อเทียบกับราคา และประสิทธิภาพด้านพลังงาน Apple Silicon ยังเหนือกว่ามาก
อยากรู้ว่าเมื่อเทียบกับ เอนจิน inference MLX ตัวล่าสุดอย่าง optiq แล้วเป็นอย่างไร
optiq รองรับ Turboquantization
อยากเห็นการเปรียบเทียบประสิทธิภาพของ llama.cpp กับ MLX
- MLX เร็วกว่านิดหน่อย แต่ใช้ RAM มากกว่านิดหน่อย
  ถึงอย่างนั้นในกรณีส่วนใหญ่ ความเร็วที่เพิ่มขึ้น ก็คุ้มค่ากว่า
กำลังรอวันที่จะรัน Claude Code ด้วย local LLM บน MacOS ได้อย่างสบาย ๆ ด้วย RAM แค่ 16GB
- ตอนนี้ได้ยินว่าต้องมีอย่างน้อย 32GB เลยอยากรู้ว่าเราเข้าใกล้จุดนั้นแค่ไหนแล้ว

Ollama ตอนนี้ทำงานบน Apple Silicon ด้วย MLX แล้ว

พรีวิว Ollama ที่ทำงานบน Apple Silicon ด้วย MLX

ประสิทธิภาพที่ดีขึ้นบน Apple Silicon

รองรับ NVFP4

การปรับปรุงระบบแคช

วิธีเริ่มต้น

แผนในอนาคต

คำขอบคุณ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News