ANEMLL - โปรเจกต์โอเพนซอร์สสำหรับรัน LLM บน Apple Neural Engine

(github.com/Anemll)

3 คะแนน โดย GN⁺ 2025-05-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

มอบ LLM inference pipeline ที่สามารถทำงานบน Apple Neural Engine (ANE) ได้
ทำให้ on-device inference เป็นไปได้ใน แอปที่พัฒนาด้วย Swift/C++ หรือแอป iOS/macOS โดยอิงจากโมเดลของ Hugging Face
เวอร์ชันล่าสุด 0.3.0 Alpha ประกอบด้วยเครื่องมือแปลงโมเดล Hugging Face เป็นรูปแบบ CoreML, ตัวอิมพลีเมนต์ CLI สำหรับ inference ที่พัฒนาด้วย Swift, ตัวอย่างแอป iOS/macOS, โค้ดทดสอบ Python และเครื่องมือ benchmark
รองรับโมเดล LLaMA 3.2 (1B / 8B) รวมถึง Distilled DeepSeek R1 8B และ DeepHermes 3B/8B และมีแผนจะขยายไปสู่สถาปัตยกรรมโมเดลที่หลากหลายยิ่งขึ้นในอนาคต
ตั้งเป้าที่จะมอบ เฟรมเวิร์กที่ยืดหยุ่นและใช้งานง่าย สำหรับการแปลงโมเดล Hugging Face ให้ใช้กับ ANE ได้

1 ความคิดเห็น

GN⁺ 2025-05-05

ความคิดเห็นจาก Hacker News

สงสัยว่ามีความคืบหน้าต่อจากที่ Apple อ้างว่าโมเดลที่ปรับให้เหมาะกับ ANE "เร็วขึ้นสูงสุด 10 เท่าและใช้หน่วยความจำน้อยลง 14 เท่า" หรือไม่
- MLX และ llama.cpp ยังไม่รองรับ ANE
- llama.cpp กำลังสำรวจแนวคิดนี้อยู่
- แม้ MLX จะเป็นของ Apple เอง แต่ก็ยังไม่รองรับ ANE
ตอนที่โน้ตบุ๊ก Snapdragon X เปิดตัว มีการอ้างว่า NPU จะถูกใช้กับ LLM
- เคยเชื่อคำกล่าวอ้างของ Qualcomm แต่ในความเป็นจริงโมเดลกลับรันบน CPU เท่านั้น
- NPU มีประสิทธิภาพด้านพลังงานสำหรับโมเดลขนาดเล็กเท่านั้น และไม่เหมาะกับโมเดลขนาดใหญ่
- การรองรับ Vulkan เป็นความหวังเดียว
รู้สึกว่า Neural Engine เป็นซิลิคอนที่สูญเปล่า
- น่าจะเพิ่ม GPU core เข้าไปอีก และสลับ neural processing API ไปใช้ GPU ตามความจำเป็นได้
- ถ้ามีมุมมองอื่นก็อยากเรียนรู้
ข้อดีหลักคือการใช้พลังงานที่ต่ำกว่ามาก
- จากผลเบนช์มาร์กบน M1 Max และ M4 Pro, GPU เร็วกว่าแต่กินไฟมากกว่า
- โมเดล ANE ถูกจำกัดที่ 512 โทเค็น จึงยังใช้งานจริงใน production ได้ยาก
README ไม่มีข้อมูลที่สำคัญที่สุด
- อยากรู้ว่าเมื่อใช้ quantization เดียวกันแล้ว จะทำโทเค็นต่อวินาทีได้มากแค่ไหนเมื่อเทียบกับ llama.cpp / MLX
- จะคุ้มที่จะเปลี่ยนแพลตฟอร์มหลักก็ต่อเมื่อมีการปรับปรุงที่ชัดเจนมากเท่านั้น
พยายามหาว่าความลับของเทคโนโลยีนี้คืออะไร
- สงสัยว่าหัวใจสำคัญคือการพึ่งพา coremltools หรือมีเทคนิคสำคัญอื่นอีกหรือไม่
หน่วยความจำแบบรวมศูนย์ของ Apple ให้ RAM มากพอสำหรับรันโมเดลขนาดใหญ่ที่ปกติต้องใช้ GPU หลายตัว
สงสัยว่า coreml ใช้ประโยชน์จาก ANE หรือไม่
- สงสัยว่าใน coreml มีคอขวดที่ต้องเข้าถึงระดับล่างกว่านี้หรือไม่
สงสัยว่าบน MacBook ซีรีส์ M จะมีข้อได้เปรียบด้านประสิทธิภาพความเร็วในการอนุมานหรือไม่
- สงสัยว่าเป้าหมายหลักคือทำให้การอนุมานใช้งานได้บนแพลตฟอร์มอื่น (เช่น iOS) หรือไม่
- ถ้ามีข้อได้เปรียบด้านประสิทธิภาพ ก็อยากเห็นการเทียบโทเค็นต่อวินาทีกับ Ollama
ประหลาดใจกับการควบคุม ANE ของ Apple ที่เข้มงวดมาก
- หวังว่าสักวันคนทั่วไปจะได้ใช้งานมันจริง ๆ
- สงสัยว่าบริษัทต่าง ๆ ซ่อนเทคโนโลยีไว้เพื่อรักษาการควบคุม หรือมีเหตุผลทางเทคนิคที่สำคัญจริง ๆ

ANEMLL - โปรเจกต์โอเพนซอร์สสำหรับรัน LLM บน Apple Neural Engine

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News