33 คะแนน โดย GN⁺ 25 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สรุปขั้นตอนการตั้งค่าให้ Ollama และ โมเดล Gemma 4 ทำงานอัตโนมัติและคงอยู่ในหน่วยความจำอย่างต่อเนื่องบน Mac mini ที่ใช้ Apple Silicon
  • ใช้ Homebrew, Launch Agent และ ตัวแปรสภาพแวดล้อม เพื่อให้โมเดลถูกโหลดอัตโนมัติแม้หลังรีบูต โดย โมเดล 8B ทำงานได้เสถียรด้วยหน่วยความจำราว 9.6GB
  • Ollama v0.19 ขึ้นไป รองรับ MLX backend และ ฟอร์แมต NVFP4 ช่วยเพิ่มประสิทธิภาพการอนุมานบนสภาพแวดล้อม Apple และ NVIDIA
  • โมเดล 26B ใช้หน่วยความจำสูงมากจึงไม่แนะนำ และ โมเดล 8B เหมาะกับการใช้งานจริงมากกว่า
  • สามารถส่งคำขอ OpenAI-compatible Chat Completion ผ่าน local API ได้ และมีประโยชน์สำหรับการสร้าง สภาพแวดล้อมบริการ LLM แบบต่อเนื่อง บน Mac mini

การเตรียมล่วงหน้า

  • ต้องมี Mac mini ที่ใช้ Apple Silicon (M1~M5)
  • แนะนำให้มี หน่วยความจำรวมอย่างน้อย 16GB เพื่อรันโมเดล Gemma 4 (8B)
  • ต้องเป็น macOS ที่ติดตั้ง Homebrew แล้ว

Step 1 — ติดตั้ง Ollama

  • ติดตั้งแอป Ollama สำหรับ macOS ผ่าน Homebrew cask

    brew install --cask ollama-app
    
  • หลังติดตั้งจะมี Ollama.app อยู่ที่ /Applications/ และมี CLI อยู่ที่ /opt/homebrew/bin/ollama

  • มีระบบอัปเดตอัตโนมัติและรวม MLX backend มาให้

Step 2 — รันและตรวจสอบ Ollama

  • เปิดแอป Ollama

    open -a Ollama
    
  • รอให้ไอคอนแสดงบนแถบเมนูและให้เซิร์ฟเวอร์เริ่มต้นทำงานเสร็จ

  • ตรวจสอบสถานะการทำงาน

    ollama list
    

Step 3 — ดาวน์โหลดโมเดล Gemma 4

  • ดาวน์โหลดโมเดล

    ollama pull gemma4
    
  • ดาวน์โหลดประมาณ 9.6GB แล้วตรวจสอบด้วย ollama list

  • โมเดล 26B จะใช้หน่วยความจำเกือบทั้งหมดของเครื่อง 24GB ทำให้การตอบสนองของระบบลดลง

    • แนะนำให้ใช้โมเดล 8B (quantization แบบ Q4_K_M) เป็นค่าเริ่มต้น

Step 4 — ทดสอบโมเดลและตรวจสอบ GPU acceleration

  • ทดสอบโมเดล

    ollama run gemma4:latest "Hello, what model are you?"
    
  • ตรวจสอบสถานะ GPU acceleration

    ollama ps
    
    • ตัวอย่าง: สัดส่วน CPU/GPU 14%/86%

Step 5 — ตั้งค่าให้รันอัตโนมัติและคงโมเดลไว้

  • 5a. ให้แอป Ollama เปิดอัตโนมัติ

    • คลิกไอคอนบนแถบเมนู → เปิดใช้งาน Launch at Login
    • หรือเพิ่มด้วยตนเองใน System Settings > General > Login Items
  • 5b. พรีโหลด Gemma 4 อัตโนมัติ

    • หลัง Ollama เริ่มทำงาน ให้สร้าง Launch Agent เพื่อโหลดโมเดลอัตโนมัติและคงสถานะไว้ทุก 5 นาที

      cat << 'EOF' > ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      ...
      EOF
      
    • โหลดเอเจนต์

      launchctl load ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
      
    • ส่งพรอมป์ว่างทุก 5 นาทีเพื่อ คงโมเดลไว้ในหน่วยความจำ

  • 5c. คงโมเดลไว้ไม่มีกำหนด

    • โดยปกติหากไม่มีการใช้งาน 5 นาที โมเดลจะถูก unload

    • ตั้งค่าให้คงไว้ไม่มีกำหนด

      launchctl setenv OLLAMA_KEEP_ALIVE "-1"
      
    • หากต้องการให้คงอยู่แม้หลังรีบูต ให้เพิ่มลงใน ~/.zshrc

Step 6 — ตรวจสอบการตั้งค่า

  • ตรวจสอบว่าเซิร์ฟเวอร์ Ollama ทำงานอยู่

    ollama list
    
  • ตรวจสอบว่าโมเดลถูกโหลดอยู่ในหน่วยความจำ

    ollama ps
    
  • ตรวจสอบการลงทะเบียน Launch Agent

    launchctl list | grep ollama
    
  • ตัวอย่างผลลัพธ์ที่คาดไว้

    gemma4:latest ... 9.6 GB 14%/86% CPU/GPU 4096 Forever
    

การเข้าถึง API

คำสั่งที่มีประโยชน์

คำสั่ง คำอธิบาย
ollama list รายการโมเดลที่ดาวน์โหลดแล้ว
ollama ps โมเดลที่กำลังรันอยู่และการใช้หน่วยความจำ
ollama run gemma4:latest รันแบบโต้ตอบ
ollama stop gemma4:latest unload โมเดล
ollama pull gemma4:latest อัปเดตเป็นเวอร์ชันล่าสุด
ollama rm gemma4:latest ลบโมเดล

ลบ Ollama และยกเลิกการรันอัตโนมัติ

launchctl unload ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
rm ~/Library/LaunchAgents/com.ollama.preload-gemma4.plist
brew uninstall --cask ollama-app

การปรับปรุงสำคัญของ Ollama v0.19+ (31 มีนาคม 2026)

  • MLX backend (Apple Silicon)

    • ใช้ Apple MLX framework โดยอัตโนมัติเพื่อเพิ่มความเร็วในการอนุมาน
    • ชิปตระกูล M5 รองรับการเร่งเพิ่มผ่าน GPU Neural Accelerator
    • ชิปต่ำกว่า M4 ก็ได้รับการปรับปรุงความเร็วทั่วไปบน MLX เช่นกัน
  • ฟอร์แมต NVFP4 (NVIDIA)

    • ใช้ ฟอร์แมต NVFP4 เพื่อลดแบนด์วิดท์หน่วยความจำและพื้นที่จัดเก็บโดยยังคงความแม่นยำไว้
    • ใช้งานร่วมกับโมเดลที่สร้างจากเครื่องมือเพิ่มประสิทธิภาพโมเดลของ NVIDIA ได้
  • การปรับปรุงแคช (งานเขียนโค้ดและงานเอเจนต์)

    • ลดการใช้หน่วยความจำ: ใช้แคชข้ามบทสนทนาได้ซ้ำอย่างมีประสิทธิภาพมากขึ้น
    • Intelligent checkpoint: ลดภาระการประมวลผลพรอมป์และเพิ่มความเร็วการตอบสนอง
    • Smart cache eviction: คง prefix ที่ใช้ร่วมกันไว้เพื่อเพิ่มประสิทธิภาพของงานแบบแตกแขนง

หมายเหตุเพิ่มเติม

  • โมเดล Gemma 4 (8B) ใช้หน่วยความจำประมาณ 9.6GB
    • บน Mac mini 24GB จะเหลือหน่วยความจำว่างประมาณ 14GB
  • โมเดล 26B ใช้ประมาณ 17GB ทำให้เกิด system swap และการตอบสนองช้าลง
    • โมเดล 8B ให้ประสิทธิภาพที่เสถียรกว่า

ลิงก์อ้างอิง

1 ความคิดเห็น

 
GN⁺ 25 일 전
ความคิดเห็นจาก Hacker News
  • ถ้าเป็นครั้งแรกที่คุณใช้ โมเดล open weight ทันทีหลังเปิดตัว ควรรู้ไว้ว่า implementation ระยะแรกและการทำ quantization มักมีบั๊กเสมอ
    แต่ละโปรเจ็กต์รีบเร่งให้รองรับให้ทันวันเปิดตัว ผลลัพธ์จึงอาจไม่ถูกต้อง
    ตอนนี้มีการพบปัญหาหลายอย่างใน implementation ของ tokenizer แล้ว และ quantization ที่ใช้ imatrix ก็อาจมีปัญหาเช่นกัน
    ช่วงไม่กี่สัปดาห์ข้างหน้านี้น่าจะมีโพสต์แนว “tool calling ใช้ไม่ได้ โมเดลเลยพัง” ออกมาเยอะ ทั้งที่จริงแล้วเป็นเพราะคนเหล่านั้นใช้ implementation ที่พัง
    ถ้าจะใช้โมเดล cutting-edge ก็ต้องพร้อมอัปเดต inference engine บ่อย ๆ และพร้อมดาวน์โหลด quantized version ใหม่ทุกครั้งที่มีการเปลี่ยน
    เพราะการแข่งขันเพื่อให้ทันวันเปิดตัว ทำให้หลายเจ้าปล่อยกันแบบ “มี output token ออกมาก็ deploy เลย” ดังนั้นการตรวจสอบความถูกต้องจึงกลายเป็นเรื่องทีหลัง

    • สงสัยว่าถ้าใช้ Linux กับ 4090 ควรใช้ inference engine ตัวไหนดี
      ผมเจอปัญหา tool calling ใช้ไม่ได้บ่อยมาก เลยไม่แน่ใจว่าเป็นปัญหาของโมเดลหรือของ ollama กันแน่
  • กำลังลังเลว่าจะซื้อ Mac mini มารันโมเดลแบบโลคัลดีไหม
    ปกติผมใช้ Claude เป็นหลักกับงานพัฒนาและโปรเจ็กต์ homelab เลยอยากรู้ว่าโมเดลเปิดพวกนี้ใช้งานได้ดีระดับนั้นหรือยัง หรือควรรักษาสมาชิกรายเดือน 20 ดอลลาร์ต่อไปดีกว่า

    • งานเล็ก ๆ พอไหว แต่ถ้าคาดหวังว่าจะใช้แทน Claude ก็น่าจะผิดหวัง
      ก่อนซื้อฮาร์ดแวร์มาโฮสต์เอง แนะนำให้ลองผ่าน บริการโฮสต์ ก่อน จะได้สัมผัสข้อจำกัดของโมเดลล่วงหน้า
    • ผมใช้โมเดลเปิดมาตั้งแต่ช่วง llama หลุด แล้ว มันดีขึ้นเรื่อย ๆ และการที่เรารันก้อนความรู้ในเครื่องแบบออฟไลน์ได้ก็เจ๋งมาก
      แต่ต้องปรับความคาดหวังลง ไม่ว่า benchmark จะว่าอย่างไร มันก็เทียบ Sonnet หรือ Opus ไม่ได้เลย
    • ทางที่ดีที่สุดคือลองเองด้วยเครดิต OpenRouter แค่ 10 ดอลลาร์ จากประสบการณ์ผม ตอนนี้ยังห่างอีกมาก แต่ก็สนุกดีที่จะคอยเช็กเป็นระยะ
    • gpt-oss-20B ให้ประสิทธิภาพด้านเอเจนต์ค่อนข้างดี แต่ก็ยังเทียบโมเดลเสียเงินของ Claude Code ไม่ได้ ได้ยินมาว่า 120B ดีกว่ามาก
  • ผมทดสอบด้วย MacBook Pro M4 (36GB) บน LM Studio โดยใช้ open code frontend แต่ tool calling ล้มเหลวตลอด สุดท้ายเลยกลับไปใช้ qwen
    อยากรู้ว่ามีใครในสภาพแวดล้อมคล้ายกันทำสำเร็จบ้างไหม

    • ความล้มเหลวของ tool calling เป็นปัญหาที่ implementation ของ inference engine หรือไม่ก็ quantization แนะนำให้รอสักสองสามวันแล้วลองใหม่หลังอัปเดต เรื่องแบบนี้เกิดทุกครั้งเวลามีโมเดลเปิดตัวใหม่
    • ผมใช้ M5 (32GB) แล้วพอรัน LM Studio เครื่องค้างจนต้องรีบูต
      แต่ gemma-4-26B-A4B-it-GGUF:Q4_K_M กลับรันได้ดีบน llama.cpp ทั้งความเร็ว (38 token/s) และคุณภาพก็น่าประทับใจ
    • ผมก็เจอปัญหาเดียวกัน LM Studio เวอร์ชัน Q_8 จะหลุดเข้า โหมดลูป ที่คอยทวนคำสั่งซ้ำไปเรื่อย ๆ
    • มีคนบอกว่าต้องอัปเดตทั้ง main และ runtime version
    • ผมยืนยันได้ว่าบน Ubuntu server (charmbracelet/crush) ก็มีปัญหา tool calling ล้มเหลวเหมือนกัน
  • กำลังหา โมเดลเปิด ที่จะมาแทน Claude Sonnet 4.5
    อยากรู้ว่าใน Ollama Cloud หรือโมเดลบน OpenRouter.ai มีตัวไหนแทนได้บ้าง
    ผมอยากฟังประสบการณ์ใช้งานจริงของนักพัฒนามากกว่า benchmark

    • สรุปคือยังไม่มีโมเดลไหนมาแทน Sonnet และ Opus ได้ ตระกูล GPT Codex ก็ยังยอดเยี่ยมอยู่
      ผมลองทั้ง MiniMax, GLM, Qwen, Kimi ฯลฯ แล้ว แต่พองานซับซ้อนขึ้น ทุกตัวก็มีข้อจำกัดชัดเจน
    • ผมรู้สึกว่า GLM5 กับ KimiK2.5 เป็นตัวแทน Sonnet ที่เข้าใกล้พอสมควร
  • สงสัยว่ามีใครลองรันด้วย oMLX build บน M5 Air (32GB, 10-core) บ้างไหม และรองรับ tool calling หรือเปล่า

    • รีลีส v0.3.2 ยังอยู่ในสถานะรองรับบางส่วน สร้างข้อความได้ แต่การจัดการ special token ยังไม่เสร็จสมบูรณ์
      ส่วนตัวผมกำลังทดสอบเพิ่มการรองรับ tool calling และ <|channel> thinking อยู่
    • ได้ยินมาว่ามีคนรัน Gemma 4 E4B บน MLX ได้แล้ว (ลิงก์)
  • ดูแปลกที่ขั้นตอนสำหรับ “Gemma 4 12B” อยู่ ๆ ก็เปลี่ยนเป็น 26B ตรงกลาง
    แล้วใน ollama ps ยังแสดงเป็น “14%/86% CPU/GPU” อีก แบบนี้ไม่ได้แปลว่า GPU ทำงานแย่เหรอ?

    • Mac mini ใช้หน่วยความจำร่วมกันระหว่าง CPU กับ GPU ดังนั้นสัดส่วนนี้น่าจะไม่ต้องใส่ใจมาก
  • การรันโมเดล 26B แบบโลคัลนั้นน่าประทับใจ แต่ latency สูงมากจนทำงานอย่างอื่นนอกจากแชตลำบาก
    เราเปลี่ยนงานสร้างภาพจาก local inference ไปเป็น API call เพราะทั้ง cold start และเวลาในการสร้างนานเกินไป
    โลคัลเหมาะกับการทดลอง แต่ถ้าเป็น production workload ที่ต้องรันตรงเวลา API ก็ยังได้เปรียบกว่า
    อย่างไรก็ตาม ถ้าต้องจัดการ ข้อมูลที่อ่อนไหวต่อความเป็นส่วนตัว การตั้งค่าแบบโลคัลก็มีประโยชน์มาก

  • สงสัยว่าทำไมคนถึงใช้ Ollama กันเยอะขนาดนี้ ผมลองแล้วรู้สึกว่ามันถูกทำให้ง่ายเกินไป
    ช่วงนี้ดูเหมือน Unsloth Studio จะเป็นค่าเริ่มต้นที่ดีกว่าสำหรับมือใหม่

    • Ollama เข้าถึงง่ายเพราะแค่ ollama pull บรรทัดเดียวก็ดึงโมเดลมาได้แล้ว
      ไม่ต้องไปไล่หาชื่อโมเดลกับเวอร์ชันเองบน Hugging Face ให้ยุ่งยาก
      แต่ถ้าจะลงลึกกว่านี้ สุดท้ายก็ต้องเรียนรู้โครงสร้างแบบเซิร์ฟเวอร์อยู่ดี
    • Ollama ได้ first-mover advantage ตั้งแต่ช่วงแรก ตอนนั้นการ build llama.cpp เองถือเป็นอุปสรรคใหญ่
      ตอนนี้ผมแนะนำ LM Studio มากกว่า อยากรู้ว่า Unsloth Studio ต่างกันอย่างไร
    • ไม่รู้เหมือนกันว่าทำไมคนถึงพูดถึง LMStudio น้อยกว่า ผมย้ายมาใช้เมื่อไม่กี่เดือนก่อนและรู้สึกว่าดีกว่าเยอะ
    • ความนิยมของ Ollama มาจาก ผลของการโปรโมต บน Reddit, Discord และที่อื่น ๆ ว่าเป็น ‘frontend ที่ใช้ง่ายของ llama.cpp’
      ถ้าอยากชนะจริงก็ต้องลบ Ollama แล้วไปใช้ llama.cpp ตรง ๆ
    • ผมอยากถามกลับมากกว่า — Ollama มีปัญหาอะไรเหรอ?
      มันรันได้ดีแม้มี GPU 16GB และก็ใช้งานเป็น backend สำหรับทดลอง frontend อื่น ๆ ได้สบาย
  • สงสัยว่าโมเดลนี้เอาไปใช้กับงานเขียนโค้ดแบบโลคัลได้ไหม และมี IDE หรือ harness อะไรที่รองรับบ้าง

    • harness ส่วนใหญ่แค่ชี้ไปที่ API endpoint ที่เข้ากันได้กับ OpenAI ก็ใช้เขียนโค้ดแบบโลคัลได้แล้ว
      แต่ Codex เวอร์ชันล่าสุดมีปัญหาเรื่อง API compatibility กับ llama.cpp
      ผมชอบ Pi เพราะมินิมัลและขยายต่อได้ดี Claude Code กับ OpenCode ก็มีคนใช้เยอะ
    • ต้องรองรับ tool calling และ gguf ที่ถูก quantize หลายตัวไม่รองรับเรื่องนี้
      ผมเลยทำพร็อกซีชื่อ Petsitter ขึ้นมาเพื่อ emulation ความสามารถนี้ระหว่าง inference engine กับ harness
      ลิงก์ GitHub
      วาง Petsitter ไว้บน Ollama แล้วค่อยวาง agent harness ทับอีกชั้นก็ได้
      Ollama เวอร์ชันล่าสุดรองรับ "completion", "vision", "audio", "tools", "thinking" อยู่แล้ว
  • เมื่อคืนถ้าจะใช้โมเดลนี้ต้องติดตั้ง Ollama v0.20 prerelease ก่อน เลยเริ่มสงสัยว่าคู่มือปัจจุบันยังถูกต้องอยู่หรือเปล่า