5 คะแนน โดย GN⁺ 29 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Ollama เวอร์ชันพรีวิวที่พัฒนาบน เฟรมเวิร์ก Apple MLX เปิดตัวแล้ว โดยมอบประสิทธิภาพที่ดีขึ้นด้วยการใช้ประโยชน์จาก สถาปัตยกรรมหน่วยความจำแบบรวมศูนย์ ของ Apple Silicon
  • ทั้ง TTFT (เวลาในการสร้างโทเค็นแรก) และ ความเร็วในการสร้างโทเค็น ดีขึ้นผ่าน GPU Neural Accelerator บนชิปตระกูล M5
  • รองรับ ฟอร์แมต NVFP4 เพื่อลด แบนด์วิดท์หน่วยความจำและความต้องการพื้นที่จัดเก็บ โดยยังคงความแม่นยำของโมเดลไว้ และสามารถรันโมเดลที่ปรับแต่งด้วย NVIDIA Model Optimizer ได้
  • การนำแคชกลับมาใช้ซ้ำและนโยบายแคชอัจฉริยะ ช่วยเพิ่มประสิทธิภาพการใช้หน่วยความจำและความเร็วตอบสนองระหว่างบทสนทนา พร้อมเพิ่มอัตรา cache hit ของพรอมป์ตร่วมกัน
  • ในอนาคตมีแผนเพิ่มการรองรับโมเดลอีกมากขึ้นและเพิ่ม ความสามารถในการนำเข้าโมเดลแบบกำหนดเอง เพื่อขยายสถาปัตยกรรมที่รองรับ

พรีวิว Ollama ที่ทำงานบน Apple Silicon ด้วย MLX

  • มีการเปิดตัวพรีวิวใหม่ของ Ollama ที่พัฒนาบน เฟรมเวิร์ก MLX ของ Apple
    • สามารถรันผู้ช่วยส่วนตัว (OpenClaw) หรือเอเจนต์สำหรับงานโค้ด (Claude Code, OpenCode, Codex เป็นต้น) บน macOS ได้เร็วขึ้น
    • ปรับปรุงประสิทธิภาพโดยใช้ประโยชน์จาก สถาปัตยกรรมหน่วยความจำแบบรวมศูนย์ ของ Apple Silicon
  • ประสิทธิภาพที่ดีขึ้นบน Apple Silicon

    • Ollama ทำงานบน เฟรมเวิร์กแมชชีนเลิร์นนิง MLX ของ Apple และใช้ GPU Neural Accelerator ของชิป M5, M5 Pro, M5 Max เพื่อเร่งทั้ง TTFT (เวลาในการสร้างโทเค็นแรก) และ ความเร็วในการสร้างโทเค็น
    • ในการทดสอบเมื่อวันที่ 29 มีนาคม 2026 มีการเปรียบเทียบ โมเดล Qwen3.5-35B-A3B ของ Alibaba (NVFP4 quantization) กับอิมพลีเมนเทชันเดิมของ Ollama (Q4_K_M)
    • Ollama เวอร์ชัน 0.19 ทำสถิติประสิทธิภาพได้ที่ 1851 token/s prefill และ 134 token/s decode เมื่อรันแบบ int4
  • รองรับ NVFP4

    • รองรับ ฟอร์แมต NVFP4 ของ NVIDIA ทำให้สามารถ รักษาความแม่นยำของโมเดล พร้อมกับ ลดแบนด์วิดท์หน่วยความจำและความต้องการพื้นที่จัดเก็บ
    • ทำให้ผลลัพธ์มีความสอดคล้องกันระหว่างสภาพแวดล้อมสำหรับ inference ที่ใช้ NVFP4 กับ สภาพแวดล้อม production
    • สามารถรันโมเดลที่ปรับแต่งด้วย Model Optimizer ของ NVIDIA ได้
    • มีแผนจะเพิ่ม precision อื่น ๆ ตามการออกแบบและการใช้งานของพันธมิตรด้านวิจัยและฮาร์ดแวร์ของ Ollama
  • การปรับปรุงระบบแคช

    • การนำแคชกลับมาใช้ซ้ำ ช่วยลดการใช้หน่วยความจำระหว่างบทสนทนา และเพิ่มอัตรา cache hit เมื่อใช้ system prompt ร่วมกัน
    • มีการนำ checkpoint อัจฉริยะ มาใช้เพื่อลดปริมาณการประมวลผลพรอมป์ตและเพิ่มความเร็วในการตอบสนอง
    • นโยบายการลบแคชอัจฉริยะ ทำให้ shared prefix ถูกเก็บไว้นานขึ้น แม้ว่าสาขาเก่าจะถูกลบไปแล้ว
  • วิธีเริ่มต้น

    • ดาวน์โหลด Ollama 0.19 ได้
    • ปรับแต่งพารามิเตอร์การสุ่มของ โมเดล Qwen3.5-35B-A3B ใหม่ให้เหมาะกับงานโค้ด
    • ต้องใช้ Mac ที่มี หน่วยความจำแบบรวมศูนย์ ตั้งแต่ 32GB ขึ้นไป
    • ตัวอย่างการรัน:
      • Claude Code: ollama launch claude --model qwen3.5:35b-a3b-coding-nvfp4
      • OpenClaw: ollama launch openclaw --model qwen3.5:35b-a3b-coding-nvfp4
      • สนทนากับโมเดล: ollama run qwen3.5:35b-a3b-coding-nvfp4
  • แผนในอนาคต

    • จะเพิ่มการรองรับโมเดลอีกมากขึ้น
    • มีแผนเพิ่ม ความสามารถในการนำเข้าโมเดลแบบกำหนดเอง บนสถาปัตยกรรมที่รองรับ
    • จะขยายรายการสถาปัตยกรรมที่รองรับอย่างต่อเนื่อง
  • คำขอบคุณ

    • ทีมผู้มีส่วนร่วมของ MLX สำหรับการพัฒนาเฟรมเวิร์กเร่งความเร็ว
    • ทีม NVIDIA สำหรับ NVFP4 quantization, การเพิ่มประสิทธิภาพโมเดล, การรองรับ MLX CUDA, การปรับแต่ง Ollama และการทดสอบ
    • ทีม GGML และ llama.cpp สำหรับการสร้างเฟรมเวิร์กแบบโลคัลและชุมชน
    • ทีม Alibaba Qwen สำหรับการให้โมเดลโอเพนซอร์สและความร่วมมือ

1 ความคิดเห็น

 
GN⁺ 29 일 전
ความคิดเห็นจาก Hacker News
  • "apfel" ที่ฉันทำเป็น CLI สำหรับ foundation model แบบรันบนอุปกรณ์ของ Apple
    แม้จะมีข้อจำกัด 4k context และมี guardrail ที่เข้มเกินไป จนถึงขั้นห้ามแม้แต่การบรรยายสี แต่ความที่มันเรียกใช้จาก bash script ได้ตรง ๆ โดยไม่ต้องพึ่งการเรียกภายนอกนั้นให้ความรู้สึกว่าทรงพลังมาก

    • พูดตามตรงคือไม่อยากเชื่อว่า Apple ปล่อยผลิตภัณฑ์ออกมาในสภาพแบบนี้
      ฉันเองก็คาดหวังไว้ แต่พอได้ใช้แล้ว ผิดหวัง มาก ตอนนี้กลับรู้สึกว่าอย่างน้อย Apple ก็น่าจะหันไปทาง Gemini แบบเต็มตัวแล้ว
    • โปรเจ็กต์เจ๋งมาก อยากรู้ว่ามีแผนจะ แจกจ่ายผ่าน Homebrew ไหม
  • คิดว่า LLM แบบ on-device คืออนาคต
    มันปลอดภัยกว่า ใช้พลังงานน้อยกว่าดาต้าเซ็นเตอร์ และยังช่วยบรรเทาปัญหาความต้องการด้าน inference ได้ด้วย ผู้ใช้ส่วนใหญ่ไม่ได้ต้องการประสิทธิภาพระดับโมเดลล้ำหน้าสุดเสมอไป

    • เรื่องความปลอดภัยดีกว่าจริง แต่ในแง่ประสิทธิภาพการจัดสรรอาจแย่ลงด้วยซ้ำ
      ดาต้าเซ็นเตอร์มีประสิทธิภาพสูงกว่าพีซีส่วนตัวเกือบ 100 เท่า เพราะอาศัย batching บน GPU และมีอัตราการใช้งานสูง
    • สำหรับองค์กร โมเดลดาต้าเซ็นเตอร์แบบรวมศูนย์ ก็ยังอาจสมเหตุสมผลอยู่
      แต่แนวทางแบบ ไฮบริด ที่ให้โมเดลในเครื่องจัดการคำของ่าย ๆ แล้วส่งงานซับซ้อนไปคลาวด์ก็ดูน่าสนใจมาก
    • ช่วงนี้กำลังติดตั้ง llama.cpp บน M4 MBP เพื่อทดลองโมเดลแบบโลคัล
      มันมีอินเทอร์เฟซสไตล์ ChatGPT ในตัว จึงสะดวกมากสำหรับการทดสอบแบบรวดเร็ว แม้มี RAM 16GB ก็ยังรันโมเดลที่ใช้ได้ดีพอสมควร
      ตัวอย่างเช่น Qwen 3.5 9B เวอร์ชันปกติเซ็นเซอร์หนักมาก แต่ เวอร์ชัน Uncensored ก็กลับเปิดกว้างเกินไป จนการหาสมดุลกลายเป็นเรื่องน่าสนใจ
    • ใช้ SSD offloading ก็ทำให้รัน โมเดล SOTA บนพีซีผู้บริโภคได้
      แต่คอขวดคือแบนด์วิดท์ของ SSD ดังนั้นยิ่งมี RAM สำหรับแคชมากก็ยิ่งดี ถ้ายอมรอคำตอบได้ มันก็ใช้งานได้จริงพอสมควร
    • ฉันทำ digital journaling มา 5 ปีและคาดไว้แล้วว่ากระแสจะมาทางนี้
      ไม่นานมานี้ได้ทำ แอป graphRAG โดยผสม Qwen 3.5 4B กับ 27B เข้าด้วยกัน พอแยกงานเล็ก ๆ ออกจากงานถามตอบก็ทำงานได้ดีทีเดียว
      ใช้ MLX แล้วรู้สึกว่าเร็วขึ้นมากเวลา ประมวลผลแบบ batch สำหรับการดึง entity
  • ดีใจที่ การทำ inference ของ Ollama บน Mac ดีขึ้นมากเพราะ MLX
    โดยเฉพาะฟีเจอร์ SSD KV caching ของ omlx.ai นี่เหมือนเป็นตัวเปลี่ยนเกม
    ต่อให้เซสชันหายไปจากหน่วยความจำก็ไม่ต้อง prefill ใหม่ และด้วยความเร็ว prefill ของ M5 Max ก็ทำให้ใช้เวลากับการ generate ได้มากขึ้น

  • ตอนนี้รัน qwen 70b 4-bit บน M2 Max 96GB ด้วย llama.cpp อยู่
    สำหรับงานประจำวันถือว่าเสถียรพอแล้ว แต่ก่อน Ollama เรียก llama.cpp ผ่านเชลล์ ตอนนี้พอ เปลี่ยนเป็น MLX แบบเนทีฟ ก็น่าจะใช้หน่วยความจำได้มีประสิทธิภาพขึ้น
    ตั้งใจจะลองเทียบกับเส้นทาง gguf ในโมเดลใหญ่ ๆ ดู

    • อยากรู้ว่าความเร็ว การสร้างโทเคนต่อวินาที ได้ประมาณเท่าไร
    • ตอนเปิดตัวแรก ๆ มีการเขียนทับโมเดล GGUF บางส่วน ทำให้แพลตฟอร์มที่ไม่ใช่ Apple Silicon ดาวน์โหลดไม่ได้ หวังว่าจะรีบแก้
  • สงสัยว่าทำไมยังใช้ Ollama กันอยู่
    ทั้ง Lemonade และ llama.cpp ดูจะปรับแต่งมาดีกว่า และประสบการณ์ใช้งานก็คล้ายกัน

  • อยากรู้ว่ามีทางเลือก ที่ไม่ใช่ Mac สำหรับรันโมเดลโลคัลได้แรงระดับ Mac ไหม

    • ยังไม่มีอะไรใกล้เคียงระดับนั้น บนพีซีต้องใช้ GPU ระดับ 5090 แต่ทั้ง ประสิทธิภาพต่อโทเคนเมื่อเทียบกับราคา และประสิทธิภาพด้านพลังงาน Apple Silicon ยังเหนือกว่ามาก
  • อยากรู้ว่าเมื่อเทียบกับ เอนจิน inference MLX ตัวล่าสุดอย่าง optiq แล้วเป็นอย่างไร
    optiq รองรับ Turboquantization

  • อยากเห็นการเปรียบเทียบประสิทธิภาพของ llama.cpp กับ MLX

    • MLX เร็วกว่านิดหน่อย แต่ใช้ RAM มากกว่านิดหน่อย
      ถึงอย่างนั้นในกรณีส่วนใหญ่ ความเร็วที่เพิ่มขึ้น ก็คุ้มค่ากว่า
  • กำลังรอวันที่จะรัน Claude Code ด้วย local LLM บน MacOS ได้อย่างสบาย ๆ ด้วย RAM แค่ 16GB

    • ตอนนี้ได้ยินว่าต้องมีอย่างน้อย 32GB เลยอยากรู้ว่าเราเข้าใกล้จุดนั้นแค่ไหนแล้ว