- ลืม NVIDIA GPU ราคาแพงไปได้เลย แล้วนำอุปกรณ์ที่มีอยู่แล้ว เช่น iPhone, iPad, Android, Mac และ Linux มารวมกันเพื่อใช้งานเป็น GPU ทรงพลังตัวเดียว
- รองรับ LLaMA และโมเดลหลากหลายแบบ
- ใช้ "การแบ่งพาร์ทิชันโมเดลแบบไดนามิก" เพื่อแบ่งโมเดลอย่างเหมาะสมที่สุดตามโทโพโลยีเครือข่ายปัจจุบันและทรัพยากรอุปกรณ์ที่พร้อมใช้งาน
- ทำให้สามารถรันโมเดลที่มีขนาดใหญ่เกินกว่าจะรันได้บนอุปกรณ์เครื่องเดียว
- ค้นหาอุปกรณ์อื่นโดยอัตโนมัติด้วยการค้นพบอุปกรณ์อัตโนมัติ
- มี API ที่เข้ากันได้กับ ChatGPT
- อุปกรณ์แต่ละเครื่องเชื่อมต่อกันแบบ p2p ไม่ใช่โครงสร้าง Master-Worker (กลยุทธ์การแบ่งพื้นฐานคือการแบ่งตามน้ำหนักหน่วยความจำแบบวงแหวน)
- รองรับ inference engine:
- ✅ MLX
- ✅ tinygrad
- 🚧 llama.cpp
- รองรับโมดูลเครือข่าย:
- ✅ GRPC
- 🚧 Radio
- 🚧 Bluetooth
- ปัญหาที่ทราบแล้ว
- เนื่องจากไลบรารีกำลังพัฒนาอย่างรวดเร็ว การพัฒนาเวอร์ชัน iOS จึงตามหลัง Python อยู่
- ในระยะยาวมีแผนผลักดันแนวทางแบบรวมศูนย์เพื่อไม่ให้จำเป็นต้องดูแล implementation แยกต่างหาก
สรุปโดย GN⁺
- exo เป็นซอฟต์แวร์เชิงทดลองที่สามารถรวมอุปกรณ์หลากหลายชนิดให้เป็น AI คลัสเตอร์ทรงพลังหนึ่งเดียวได้
- มีฟีเจอร์ต่าง ๆ เช่น การค้นหาอุปกรณ์อัตโนมัติและการแบ่งโมเดลแบบไดนามิก ทำให้สามารถรันโมเดลที่ใหญ่กว่าอุปกรณ์เดี่ยวจะรองรับได้
- มี API ที่เข้ากันได้กับ ChatGPT ทำให้เรียกใช้งานโมเดลได้ง่าย
- กำลังผลักดันแนวทางแบบรวมศูนย์เพื่อแก้ปัญหาที่การพัฒนาเวอร์ชัน iOS ยังตามหลังอยู่
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
mlxซึ่งเป็นไลบรารีที่รองรับ Apple Silicon โดยเฉพาะ เขาบอกว่าใช้งานได้บน "iPhone, iPad, Android, Mac, Linux, pretty much any device" แต่ก็ยังสงสัยว่าเคยมีการทดสอบจริงหรือไม่paddlerบน GitHub ทำงานบน Windows เพื่อโหลดบาลานซ์ระหว่างอุปกรณ์สองเครื่องได้ น่าจะมีประโยชน์สำหรับการรัน Llama 400B บนอุปกรณ์หลายเครื่อง แต่ตอนนี้ยังไม่รองรับ Windows