สรุปการตั้งค่า Ollama และโมเดล Gemma 4 26B บน Mac mini (ข้อมูล ณ เดือนเมษายน 2026)
(gist.github.com/greenstevester)- สรุปขั้นตอนการตั้งค่าให้ Ollama และ โมเดล Gemma 4 ทำงานอัตโนมัติและคงอยู่ในหน่วยความจำอย่างต่อเนื่องบน Mac mini ที่ใช้ Apple Silicon
- ใช้ Homebrew, Launch Agent และ ตัวแปรสภาพแวดล้อม เพื่อให้โมเดลถูกโหลดอัตโนมัติแม้หลังรีบูต โดย โมเดล 8B ทำงานได้เสถียรด้วยหน่วยความจำราว 9.6GB
- Ollama v0.19 ขึ้นไป รองรับ MLX backend และ ฟอร์แมต NVFP4 ช่วยเพิ่มประสิทธิภาพการอนุมานบนสภาพแวดล้อม Apple และ NVIDIA
- โมเดล 26B ใช้หน่วยความจำสูงมากจึงไม่แนะนำ และ โมเดล 8B เหมาะกับการใช้งานจริงมากกว่า
- สามารถส่งคำขอ OpenAI-compatible Chat Completion ผ่าน local API ได้ และมีประโยชน์สำหรับการสร้าง สภาพแวดล้อมบริการ LLM แบบต่อเนื่อง บน Mac mini
การเตรียมล่วงหน้า
- ต้องมี Mac mini ที่ใช้ Apple Silicon (M1~M5)
- แนะนำให้มี หน่วยความจำรวมอย่างน้อย 16GB เพื่อรันโมเดล Gemma 4 (8B)
- ต้องเป็น macOS ที่ติดตั้ง Homebrew แล้ว
Step 1 — ติดตั้ง Ollama
-
ติดตั้งแอป Ollama สำหรับ macOS ผ่าน Homebrew cask
brew install --cask ollama-app -
หลังติดตั้งจะมี Ollama.app อยู่ที่
/Applications/และมี CLI อยู่ที่/opt/homebrew/bin/ollama -
มีระบบอัปเดตอัตโนมัติและรวม MLX backend มาให้
Step 2 — รันและตรวจสอบ Ollama
-
เปิดแอป Ollama
open -a Ollama -
รอให้ไอคอนแสดงบนแถบเมนูและให้เซิร์ฟเวอร์เริ่มต้นทำงานเสร็จ
-
ตรวจสอบสถานะการทำงาน
ollama list
Step 3 — ดาวน์โหลดโมเดล Gemma 4
-
ดาวน์โหลดโมเดล
ollama pull gemma4 -
ดาวน์โหลดประมาณ 9.6GB แล้วตรวจสอบด้วย
ollama list -
โมเดล 26B จะใช้หน่วยความจำเกือบทั้งหมดของเครื่อง 24GB ทำให้การตอบสนองของระบบลดลง
- แนะนำให้ใช้โมเดล 8B (quantization แบบ Q4_K_M) เป็นค่าเริ่มต้น
Step 4 — ทดสอบโมเดลและตรวจสอบ GPU acceleration
-
ทดสอบโมเดล
ollama run gemma4:latest "Hello, what model are you?" -
ตรวจสอบสถานะ GPU acceleration
ollama ps- ตัวอย่าง: สัดส่วน CPU/GPU 14%/86%
Step 5 — ตั้งค่าให้รันอัตโนมัติและคงโมเดลไว้
-
5a. ให้แอป Ollama เปิดอัตโนมัติ
- คลิกไอคอนบนแถบเมนู → เปิดใช้งาน Launch at Login
- หรือเพิ่มด้วยตนเองใน System Settings > General > Login Items
-
5b. พรีโหลด Gemma 4 อัตโนมัติ
-
หลัง Ollama เริ่มทำงาน ให้สร้าง Launch Agent เพื่อโหลดโมเดลอัตโนมัติและคงสถานะไว้ทุก 5 นาที
cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist ... EOF -
โหลดเอเจนต์
launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist -
ส่งพรอมป์ว่างทุก 5 นาทีเพื่อ คงโมเดลไว้ในหน่วยความจำ
-
-
5c. คงโมเดลไว้ไม่มีกำหนด
-
โดยปกติหากไม่มีการใช้งาน 5 นาที โมเดลจะถูก unload
-
ตั้งค่าให้คงไว้ไม่มีกำหนด
launchctl setenv OLLAMA_KEEP_ALIVE "-1" -
หากต้องการให้คงอยู่แม้หลังรีบูต ให้เพิ่มลงใน
~/.zshrc
-
Step 6 — ตรวจสอบการตั้งค่า
-
ตรวจสอบว่าเซิร์ฟเวอร์ Ollama ทำงานอยู่
ollama list -
ตรวจสอบว่าโมเดลถูกโหลดอยู่ในหน่วยความจำ
ollama ps -
ตรวจสอบการลงทะเบียน Launch Agent
launchctl list | grep ollama -
ตัวอย่างผลลัพธ์ที่คาดไว้
gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
การเข้าถึง API
-
local API endpoint:
http://localhost:11434 -
ตัวอย่าง OpenAI-compatible Chat Completion
curl http://localhost:11434/v1/chat/completions \ -H "Content-Type: application/json" \ -d '{ "model": "gemma4:latest", "messages": [{"role": "user", "content": "Hello"}] }'
คำสั่งที่มีประโยชน์
| คำสั่ง | คำอธิบาย |
|---|---|
ollama list |
รายการโมเดลที่ดาวน์โหลดแล้ว |
ollama ps |
โมเดลที่กำลังรันอยู่และการใช้หน่วยความจำ |
ollama run gemma4:latest |
รันแบบโต้ตอบ |
ollama stop gemma4:latest |
unload โมเดล |
ollama pull gemma4:latest |
อัปเดตเป็นเวอร์ชันล่าสุด |
ollama rm gemma4:latest |
ลบโมเดล |
ลบ Ollama และยกเลิกการรันอัตโนมัติ
launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app
การปรับปรุงสำคัญของ Ollama v0.19+ (31 มีนาคม 2026)
-
MLX backend (Apple Silicon)
- ใช้ Apple MLX framework โดยอัตโนมัติเพื่อเพิ่มความเร็วในการอนุมาน
- ชิปตระกูล M5 รองรับการเร่งเพิ่มผ่าน GPU Neural Accelerator
- ชิปต่ำกว่า M4 ก็ได้รับการปรับปรุงความเร็วทั่วไปบน MLX เช่นกัน
-
ฟอร์แมต NVFP4 (NVIDIA)
- ใช้ ฟอร์แมต NVFP4 เพื่อลดแบนด์วิดท์หน่วยความจำและพื้นที่จัดเก็บโดยยังคงความแม่นยำไว้
- ใช้งานร่วมกับโมเดลที่สร้างจากเครื่องมือเพิ่มประสิทธิภาพโมเดลของ NVIDIA ได้
-
การปรับปรุงแคช (งานเขียนโค้ดและงานเอเจนต์)
- ลดการใช้หน่วยความจำ: ใช้แคชข้ามบทสนทนาได้ซ้ำอย่างมีประสิทธิภาพมากขึ้น
- Intelligent checkpoint: ลดภาระการประมวลผลพรอมป์และเพิ่มความเร็วการตอบสนอง
- Smart cache eviction: คง prefix ที่ใช้ร่วมกันไว้เพื่อเพิ่มประสิทธิภาพของงานแบบแตกแขนง
หมายเหตุเพิ่มเติม
- โมเดล Gemma 4 (8B) ใช้หน่วยความจำประมาณ 9.6GB
- บน Mac mini 24GB จะเหลือหน่วยความจำว่างประมาณ 14GB
- โมเดล 26B ใช้ประมาณ 17GB ทำให้เกิด system swap และการตอบสนองช้าลง
- โมเดล 8B ให้ประสิทธิภาพที่เสถียรกว่า
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ถ้าเป็นครั้งแรกที่คุณใช้ โมเดล open weight ทันทีหลังเปิดตัว ควรรู้ไว้ว่า implementation ระยะแรกและการทำ quantization มักมีบั๊กเสมอ
แต่ละโปรเจ็กต์รีบเร่งให้รองรับให้ทันวันเปิดตัว ผลลัพธ์จึงอาจไม่ถูกต้อง
ตอนนี้มีการพบปัญหาหลายอย่างใน implementation ของ tokenizer แล้ว และ quantization ที่ใช้ imatrix ก็อาจมีปัญหาเช่นกัน
ช่วงไม่กี่สัปดาห์ข้างหน้านี้น่าจะมีโพสต์แนว “tool calling ใช้ไม่ได้ โมเดลเลยพัง” ออกมาเยอะ ทั้งที่จริงแล้วเป็นเพราะคนเหล่านั้นใช้ implementation ที่พัง
ถ้าจะใช้โมเดล cutting-edge ก็ต้องพร้อมอัปเดต inference engine บ่อย ๆ และพร้อมดาวน์โหลด quantized version ใหม่ทุกครั้งที่มีการเปลี่ยน
เพราะการแข่งขันเพื่อให้ทันวันเปิดตัว ทำให้หลายเจ้าปล่อยกันแบบ “มี output token ออกมาก็ deploy เลย” ดังนั้นการตรวจสอบความถูกต้องจึงกลายเป็นเรื่องทีหลัง
ผมเจอปัญหา tool calling ใช้ไม่ได้บ่อยมาก เลยไม่แน่ใจว่าเป็นปัญหาของโมเดลหรือของ ollama กันแน่
กำลังลังเลว่าจะซื้อ Mac mini มารันโมเดลแบบโลคัลดีไหม
ปกติผมใช้ Claude เป็นหลักกับงานพัฒนาและโปรเจ็กต์ homelab เลยอยากรู้ว่าโมเดลเปิดพวกนี้ใช้งานได้ดีระดับนั้นหรือยัง หรือควรรักษาสมาชิกรายเดือน 20 ดอลลาร์ต่อไปดีกว่า
ก่อนซื้อฮาร์ดแวร์มาโฮสต์เอง แนะนำให้ลองผ่าน บริการโฮสต์ ก่อน จะได้สัมผัสข้อจำกัดของโมเดลล่วงหน้า
แต่ต้องปรับความคาดหวังลง ไม่ว่า benchmark จะว่าอย่างไร มันก็เทียบ Sonnet หรือ Opus ไม่ได้เลย
ผมทดสอบด้วย MacBook Pro M4 (36GB) บน LM Studio โดยใช้ open code frontend แต่ tool calling ล้มเหลวตลอด สุดท้ายเลยกลับไปใช้ qwen
อยากรู้ว่ามีใครในสภาพแวดล้อมคล้ายกันทำสำเร็จบ้างไหม
แต่ gemma-4-26B-A4B-it-GGUF:Q4_K_M กลับรันได้ดีบน llama.cpp ทั้งความเร็ว (38 token/s) และคุณภาพก็น่าประทับใจ
กำลังหา โมเดลเปิด ที่จะมาแทน Claude Sonnet 4.5
อยากรู้ว่าใน Ollama Cloud หรือโมเดลบน OpenRouter.ai มีตัวไหนแทนได้บ้าง
ผมอยากฟังประสบการณ์ใช้งานจริงของนักพัฒนามากกว่า benchmark
ผมลองทั้ง MiniMax, GLM, Qwen, Kimi ฯลฯ แล้ว แต่พองานซับซ้อนขึ้น ทุกตัวก็มีข้อจำกัดชัดเจน
สงสัยว่ามีใครลองรันด้วย oMLX build บน M5 Air (32GB, 10-core) บ้างไหม และรองรับ tool calling หรือเปล่า
ส่วนตัวผมกำลังทดสอบเพิ่มการรองรับ tool calling และ
<|channel>thinking อยู่ดูแปลกที่ขั้นตอนสำหรับ “Gemma 4 12B” อยู่ ๆ ก็เปลี่ยนเป็น 26B ตรงกลาง
แล้วใน ollama ps ยังแสดงเป็น “14%/86% CPU/GPU” อีก แบบนี้ไม่ได้แปลว่า GPU ทำงานแย่เหรอ?
การรันโมเดล 26B แบบโลคัลนั้นน่าประทับใจ แต่ latency สูงมากจนทำงานอย่างอื่นนอกจากแชตลำบาก
เราเปลี่ยนงานสร้างภาพจาก local inference ไปเป็น API call เพราะทั้ง cold start และเวลาในการสร้างนานเกินไป
โลคัลเหมาะกับการทดลอง แต่ถ้าเป็น production workload ที่ต้องรันตรงเวลา API ก็ยังได้เปรียบกว่า
อย่างไรก็ตาม ถ้าต้องจัดการ ข้อมูลที่อ่อนไหวต่อความเป็นส่วนตัว การตั้งค่าแบบโลคัลก็มีประโยชน์มาก
สงสัยว่าทำไมคนถึงใช้ Ollama กันเยอะขนาดนี้ ผมลองแล้วรู้สึกว่ามันถูกทำให้ง่ายเกินไป
ช่วงนี้ดูเหมือน Unsloth Studio จะเป็นค่าเริ่มต้นที่ดีกว่าสำหรับมือใหม่
ollama pullบรรทัดเดียวก็ดึงโมเดลมาได้แล้วไม่ต้องไปไล่หาชื่อโมเดลกับเวอร์ชันเองบน Hugging Face ให้ยุ่งยาก
แต่ถ้าจะลงลึกกว่านี้ สุดท้ายก็ต้องเรียนรู้โครงสร้างแบบเซิร์ฟเวอร์อยู่ดี
ตอนนี้ผมแนะนำ LM Studio มากกว่า อยากรู้ว่า Unsloth Studio ต่างกันอย่างไร
ถ้าอยากชนะจริงก็ต้องลบ Ollama แล้วไปใช้ llama.cpp ตรง ๆ
มันรันได้ดีแม้มี GPU 16GB และก็ใช้งานเป็น backend สำหรับทดลอง frontend อื่น ๆ ได้สบาย
สงสัยว่าโมเดลนี้เอาไปใช้กับงานเขียนโค้ดแบบโลคัลได้ไหม และมี IDE หรือ harness อะไรที่รองรับบ้าง
แต่ Codex เวอร์ชันล่าสุดมีปัญหาเรื่อง API compatibility กับ llama.cpp
ผมชอบ Pi เพราะมินิมัลและขยายต่อได้ดี Claude Code กับ OpenCode ก็มีคนใช้เยอะ
ผมเลยทำพร็อกซีชื่อ Petsitter ขึ้นมาเพื่อ emulation ความสามารถนี้ระหว่าง inference engine กับ harness
ลิงก์ GitHub
วาง Petsitter ไว้บน Ollama แล้วค่อยวาง agent harness ทับอีกชั้นก็ได้
Ollama เวอร์ชันล่าสุดรองรับ
"completion", "vision", "audio", "tools", "thinking"อยู่แล้วเมื่อคืนถ้าจะใช้โมเดลนี้ต้องติดตั้ง Ollama v0.20 prerelease ก่อน เลยเริ่มสงสัยว่าคู่มือปัจจุบันยังถูกต้องอยู่หรือเปล่า