Shimmy - เซิร์ฟเวอร์ OpenAI API แบบน้ำหนักเบาที่เน้นความเป็นส่วนตัวส่วนบุคคลและใช้แทน Ollama ได้
(github.com/Michael-A-Kuykendall)- เป็นเครื่องมือที่ออกแบบมาเพื่อ รัน LLM แบบออฟไลน์เต็มรูปแบบบนเครื่องโลคัล โดยมาในรูปแบบ ไบนารีเดี่ยวขนาด 4.8MB ที่เล็กกว่า Ollama ถึง 142 เท่า
- เข้ากันได้กับ OpenAI API 100% จึงสามารถเชื่อมต่อเครื่องมือพัฒนาเดิมอย่าง Python, Node.js, VSCode Copilot, Cursor, Continue.dev ฯลฯ ได้ตามเดิม
- โครงสร้างแบบ Zero-Config ที่ ทำงานได้ทันทีหลังติดตั้ง
- ค้นหาโมเดลอัตโนมัติ จาก Hugging Face, Ollama, ไดเรกทอรีโลคัล ฯลฯ
- รองรับ การกำหนดพอร์ตอัตโนมัติ และ การตรวจจับอะแดปเตอร์ LoRA
- ฟีเจอร์อนุมานแบบไฮบริด CPU/GPU บนพื้นฐาน MOE(Mixture of Experts) ทำให้ รันโมเดลขนาดใหญ่ระดับ 70B ขึ้นไปบนพีซีทั่วไปได้
- ด้วย CPU offloading และ การกระจายเลเยอร์อัจฉริยะ จึงทำงานได้อย่างเสถียรแม้ในสภาพแวดล้อมที่ VRAM ไม่เพียงพอ
- ควบคุมรายละเอียดได้ผ่านตัวเลือก
--cpu-moe,--n-cpu-moe
- รองรับแบ็กเอนด์หลากหลายสำหรับการเร่งความเร็วด้วย GPU เช่น CUDA, Vulkan, OpenCL, MLX(Apple Silicon)
- ตรวจจับอัตโนมัติขณะรันไทม์ และจะสลับไปใช้ CPU อัตโนมัติหากไม่มี GPU
- ใช้สถาปัตยกรรมอะซิงโครนัสบนพื้นฐาน Rust + Tokio เพื่อให้ได้ทั้งประสิทธิภาพสูงและเสถียรภาพด้านหน่วยความจำ
- ใช้ llama.cpp backend จึงรองรับ โมเดล GGUF
- มี LRU cache, load balancing อัตโนมัติ, การมอนิเตอร์แบบบูรณาการกับ Prometheus เป็นต้น
- ออกแบบโดยเน้นความปลอดภัยและความเป็นส่วนตัว
- ข้อมูลและโค้ดไม่ออกนอกเครื่องโลคัล
- ไม่ต้องใช้ API key, แพ็กเกจราคา, หรือการคิดค่าบริการตามโทเค็น
- ให้ใช้งานฟรีถาวรภายใต้สัญญาอนุญาต MIT : “FREE now, FREE forever”
5 ความคิดเห็น
ผมได้ลองทดสอบทั้งภาษาเกาหลี ภาษาอังกฤษ ภาษาจีน และภาษาญี่ปุ่นแล้ว แต่ตอนนี้ดูเหมือนว่าจะมีปัญหาในการประมวลผลภาษาญี่ปุ่นอยู่
ถ้าแบ็กเอนด์ยังเป็น llama.cpp ยังจะเรียกว่าไม่มี dependency ได้จริงเหรอ...
ว้าว สุดยอดมากเลย ต้องลองเดี๋ยวนี้เลย
ว้าว
เห็นมีทั้ง Claude และ Copilot ขึ้นอยู่ในรายชื่อผู้ร่วมพัฒนาด้วยนะ