3 คะแนน โดย GN⁺ 2025-05-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มอบ LLM inference pipeline ที่สามารถทำงานบน Apple Neural Engine (ANE) ได้
  • ทำให้ on-device inference เป็นไปได้ใน แอปที่พัฒนาด้วย Swift/C++ หรือแอป iOS/macOS โดยอิงจากโมเดลของ Hugging Face
  • เวอร์ชันล่าสุด 0.3.0 Alpha ประกอบด้วยเครื่องมือแปลงโมเดล Hugging Face เป็นรูปแบบ CoreML, ตัวอิมพลีเมนต์ CLI สำหรับ inference ที่พัฒนาด้วย Swift, ตัวอย่างแอป iOS/macOS, โค้ดทดสอบ Python และเครื่องมือ benchmark
  • รองรับโมเดล LLaMA 3.2 (1B / 8B) รวมถึง Distilled DeepSeek R1 8B และ DeepHermes 3B/8B และมีแผนจะขยายไปสู่สถาปัตยกรรมโมเดลที่หลากหลายยิ่งขึ้นในอนาคต
  • ตั้งเป้าที่จะมอบ เฟรมเวิร์กที่ยืดหยุ่นและใช้งานง่าย สำหรับการแปลงโมเดล Hugging Face ให้ใช้กับ ANE ได้

1 ความคิดเห็น

 
GN⁺ 2025-05-05
ความคิดเห็นจาก Hacker News
  • สงสัยว่ามีความคืบหน้าต่อจากที่ Apple อ้างว่าโมเดลที่ปรับให้เหมาะกับ ANE "เร็วขึ้นสูงสุด 10 เท่าและใช้หน่วยความจำน้อยลง 14 เท่า" หรือไม่

    • MLX และ llama.cpp ยังไม่รองรับ ANE
    • llama.cpp กำลังสำรวจแนวคิดนี้อยู่
    • แม้ MLX จะเป็นของ Apple เอง แต่ก็ยังไม่รองรับ ANE
  • ตอนที่โน้ตบุ๊ก Snapdragon X เปิดตัว มีการอ้างว่า NPU จะถูกใช้กับ LLM

    • เคยเชื่อคำกล่าวอ้างของ Qualcomm แต่ในความเป็นจริงโมเดลกลับรันบน CPU เท่านั้น
    • NPU มีประสิทธิภาพด้านพลังงานสำหรับโมเดลขนาดเล็กเท่านั้น และไม่เหมาะกับโมเดลขนาดใหญ่
    • การรองรับ Vulkan เป็นความหวังเดียว
  • รู้สึกว่า Neural Engine เป็นซิลิคอนที่สูญเปล่า

    • น่าจะเพิ่ม GPU core เข้าไปอีก และสลับ neural processing API ไปใช้ GPU ตามความจำเป็นได้
    • ถ้ามีมุมมองอื่นก็อยากเรียนรู้
  • ข้อดีหลักคือการใช้พลังงานที่ต่ำกว่ามาก

    • จากผลเบนช์มาร์กบน M1 Max และ M4 Pro, GPU เร็วกว่าแต่กินไฟมากกว่า
    • โมเดล ANE ถูกจำกัดที่ 512 โทเค็น จึงยังใช้งานจริงใน production ได้ยาก
  • README ไม่มีข้อมูลที่สำคัญที่สุด

    • อยากรู้ว่าเมื่อใช้ quantization เดียวกันแล้ว จะทำโทเค็นต่อวินาทีได้มากแค่ไหนเมื่อเทียบกับ llama.cpp / MLX
    • จะคุ้มที่จะเปลี่ยนแพลตฟอร์มหลักก็ต่อเมื่อมีการปรับปรุงที่ชัดเจนมากเท่านั้น
  • พยายามหาว่าความลับของเทคโนโลยีนี้คืออะไร

    • สงสัยว่าหัวใจสำคัญคือการพึ่งพา coremltools หรือมีเทคนิคสำคัญอื่นอีกหรือไม่
  • หน่วยความจำแบบรวมศูนย์ของ Apple ให้ RAM มากพอสำหรับรันโมเดลขนาดใหญ่ที่ปกติต้องใช้ GPU หลายตัว

  • สงสัยว่า coreml ใช้ประโยชน์จาก ANE หรือไม่

    • สงสัยว่าใน coreml มีคอขวดที่ต้องเข้าถึงระดับล่างกว่านี้หรือไม่
  • สงสัยว่าบน MacBook ซีรีส์ M จะมีข้อได้เปรียบด้านประสิทธิภาพความเร็วในการอนุมานหรือไม่

    • สงสัยว่าเป้าหมายหลักคือทำให้การอนุมานใช้งานได้บนแพลตฟอร์มอื่น (เช่น iOS) หรือไม่
    • ถ้ามีข้อได้เปรียบด้านประสิทธิภาพ ก็อยากเห็นการเทียบโทเค็นต่อวินาทีกับ Ollama
  • ประหลาดใจกับการควบคุม ANE ของ Apple ที่เข้มงวดมาก

    • หวังว่าสักวันคนทั่วไปจะได้ใช้งานมันจริง ๆ
    • สงสัยว่าบริษัทต่าง ๆ ซ่อนเทคโนโลยีไว้เพื่อรักษาการควบคุม หรือมีเหตุผลทางเทคนิคที่สำคัญจริง ๆ