- มอบ LLM inference pipeline ที่สามารถทำงานบน Apple Neural Engine (ANE) ได้
- ทำให้ on-device inference เป็นไปได้ใน แอปที่พัฒนาด้วย Swift/C++ หรือแอป iOS/macOS โดยอิงจากโมเดลของ Hugging Face
- เวอร์ชันล่าสุด 0.3.0 Alpha ประกอบด้วยเครื่องมือแปลงโมเดล Hugging Face เป็นรูปแบบ CoreML, ตัวอิมพลีเมนต์ CLI สำหรับ inference ที่พัฒนาด้วย Swift, ตัวอย่างแอป iOS/macOS, โค้ดทดสอบ Python และเครื่องมือ benchmark
- รองรับโมเดล LLaMA 3.2 (1B / 8B) รวมถึง Distilled DeepSeek R1 8B และ DeepHermes 3B/8B และมีแผนจะขยายไปสู่สถาปัตยกรรมโมเดลที่หลากหลายยิ่งขึ้นในอนาคต
- ตั้งเป้าที่จะมอบ เฟรมเวิร์กที่ยืดหยุ่นและใช้งานง่าย สำหรับการแปลงโมเดล Hugging Face ให้ใช้กับ ANE ได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สงสัยว่ามีความคืบหน้าต่อจากที่ Apple อ้างว่าโมเดลที่ปรับให้เหมาะกับ ANE "เร็วขึ้นสูงสุด 10 เท่าและใช้หน่วยความจำน้อยลง 14 เท่า" หรือไม่
ตอนที่โน้ตบุ๊ก Snapdragon X เปิดตัว มีการอ้างว่า NPU จะถูกใช้กับ LLM
รู้สึกว่า Neural Engine เป็นซิลิคอนที่สูญเปล่า
ข้อดีหลักคือการใช้พลังงานที่ต่ำกว่ามาก
README ไม่มีข้อมูลที่สำคัญที่สุด
พยายามหาว่าความลับของเทคโนโลยีนี้คืออะไร
หน่วยความจำแบบรวมศูนย์ของ Apple ให้ RAM มากพอสำหรับรันโมเดลขนาดใหญ่ที่ปกติต้องใช้ GPU หลายตัว
สงสัยว่า coreml ใช้ประโยชน์จาก ANE หรือไม่
สงสัยว่าบน MacBook ซีรีส์ M จะมีข้อได้เปรียบด้านประสิทธิภาพความเร็วในการอนุมานหรือไม่
ประหลาดใจกับการควบคุม ANE ของ Apple ที่เข้มงวดมาก