Shimmy - เซิร์ฟเวอร์ OpenAI API แบบน้ำหนักเบาที่เน้นความเป็นส่วนตัวส่วนบุคคลและใช้แทน Ollama ได้

xguru · 2025-10-30T09:31:02+09:00

เป็นเครื่องมือที่ออกแบบมาเพื่อ รัน LLM แบบออฟไลน์เต็มรูปแบบบนเครื่องโลคัล โดยมาในรูปแบบ ไบนารีเดี่ยวขนาด 4.8MB ที่เล็กกว่า Ollama ถึง 142 เท่า เข้ากันได้กับ OpenAI API 100% จึงสามารถเชื่อมต่อเครื่องมือพัฒนาเดิมอย่าง Python, Node.js, VSCode Copilot, Cursor, Continue.dev ฯลฯ ได้ตามเดิม โครงสร้างแบบ Zero-Config ที่ ทำงานได้ทันทีหลังติดตั้ง ค้นหาโมเดลอัตโนมัติ จาก Hugging Face, Ollama, ไดเรกทอรีโลคัล ฯลฯ รองรับ การกำหนดพอร์ตอัตโนมัติ และ การตรวจจับอะแดปเตอร์ LoRA ฟีเจอร์อนุมานแบบไฮบริด CPU/GPU บนพื้นฐาน MOE(Mixture of Experts) ทำให้ รันโมเดลขนาดใหญ่ระดับ 70B ขึ้นไปบนพีซีทั่วไปได้ ด้วย CPU offloading และ การกระจายเลเยอร์อัจฉริยะ จึงทำงานได้อย่างเสถียรแม้ในสภาพแวดล้อมที่ VRAM ไม่เพียงพอ ควบคุมรายละเอียดได้ผ่านตัวเลือก --cpu-moe, --n-cpu-moe รองรับแบ็กเอนด์หลากหลายสำหรับการเร่งความเร็วด้วย GPU เช่น CUDA, Vulkan, OpenCL, MLX(Apple Silicon) ตรวจจับอัตโนมัติขณะรันไทม์ และจะสลับไปใช้ CPU อัตโนมัติหากไม่มี GPU ใช้สถาปัตยกรรมอะซิงโครนัสบนพื้นฐาน Rust + Tokio เพื่อให้ได้ทั้งประสิทธิภาพสูงและเสถียรภาพด้านหน่วยความจำ ใช้ llama.cpp backend จึงรองรับ โมเดล GGUF มี LRU cache, load balancing อัตโนมัติ, การมอนิเตอร์แบบบูรณาการกับ Prometheus เป็นต้น ออกแบบโดยเน้นความปลอดภัยและความเป็นส่วนตัว ข้อมูลและโค้ดไม่ออกนอกเครื่องโลคัล ไม่ต้องใช้ API key, แพ็กเกจราคา, หรือการคิดค่าบริการตามโทเค็น ให้ใช้งานฟรีถาวรภายใต้สัญญาอนุญาต MIT : “FREE now, FREE forever”

(github.com/Michael-A-Kuykendall)

57 คะแนน โดย xguru 2025-10-30 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นเครื่องมือที่ออกแบบมาเพื่อ รัน LLM แบบออฟไลน์เต็มรูปแบบบนเครื่องโลคัล โดยมาในรูปแบบ ไบนารีเดี่ยวขนาด 4.8MB ที่เล็กกว่า Ollama ถึง 142 เท่า
เข้ากันได้กับ OpenAI API 100% จึงสามารถเชื่อมต่อเครื่องมือพัฒนาเดิมอย่าง Python, Node.js, VSCode Copilot, Cursor, Continue.dev ฯลฯ ได้ตามเดิม
โครงสร้างแบบ Zero-Config ที่ ทำงานได้ทันทีหลังติดตั้ง
- ค้นหาโมเดลอัตโนมัติ จาก Hugging Face, Ollama, ไดเรกทอรีโลคัล ฯลฯ
- รองรับ การกำหนดพอร์ตอัตโนมัติ และ การตรวจจับอะแดปเตอร์ LoRA
ฟีเจอร์อนุมานแบบไฮบริด CPU/GPU บนพื้นฐาน MOE(Mixture of Experts) ทำให้ รันโมเดลขนาดใหญ่ระดับ 70B ขึ้นไปบนพีซีทั่วไปได้
- ด้วย CPU offloading และ การกระจายเลเยอร์อัจฉริยะ จึงทำงานได้อย่างเสถียรแม้ในสภาพแวดล้อมที่ VRAM ไม่เพียงพอ
- ควบคุมรายละเอียดได้ผ่านตัวเลือก --cpu-moe, --n-cpu-moe
รองรับแบ็กเอนด์หลากหลายสำหรับการเร่งความเร็วด้วย GPU เช่น CUDA, Vulkan, OpenCL, MLX(Apple Silicon)
- ตรวจจับอัตโนมัติขณะรันไทม์ และจะสลับไปใช้ CPU อัตโนมัติหากไม่มี GPU
โฆษณา
ใช้สถาปัตยกรรมอะซิงโครนัสบนพื้นฐาน Rust + Tokio เพื่อให้ได้ทั้งประสิทธิภาพสูงและเสถียรภาพด้านหน่วยความจำ
- ใช้ llama.cpp backend จึงรองรับ โมเดล GGUF
- มี LRU cache, load balancing อัตโนมัติ, การมอนิเตอร์แบบบูรณาการกับ Prometheus เป็นต้น
ออกแบบโดยเน้นความปลอดภัยและความเป็นส่วนตัว
- ข้อมูลและโค้ดไม่ออกนอกเครื่องโลคัล
- ไม่ต้องใช้ API key, แพ็กเกจราคา, หรือการคิดค่าบริการตามโทเค็น
ให้ใช้งานฟรีถาวรภายใต้สัญญาอนุญาต MIT : “FREE now, FREE forever”

5 ความคิดเห็น

nextstep 2025-11-01

ผมได้ลองทดสอบทั้งภาษาเกาหลี ภาษาอังกฤษ ภาษาจีน และภาษาญี่ปุ่นแล้ว แต่ตอนนี้ดูเหมือนว่าจะมีปัญหาในการประมวลผลภาษาญี่ปุ่นอยู่

woung717 2025-11-01

ถ้าแบ็กเอนด์ยังเป็น llama.cpp ยังจะเรียกว่าไม่มี dependency ได้จริงเหรอ...

tsboard 2025-10-30

ว้าว สุดยอดมากเลย ต้องลองเดี๋ยวนี้เลย

kimjoin2 2025-10-30

ว้าว

mssmss 2025-10-30

เห็นมีทั้ง Claude และ Copilot ขึ้นอยู่ในรายชื่อผู้ร่วมพัฒนาด้วยนะ

Shimmy - เซิร์ฟเวอร์ OpenAI API แบบน้ำหนักเบาที่เน้นความเป็นส่วนตัวส่วนบุคคลและใช้แทน Ollama ได้

บทความที่เกี่ยวข้อง

5 ความคิดเห็น