การรัน 400B LLM บน iPhone 17 Pro
(twitter.com/anemll)- รัน LLM ขนาด 4 แสนล้านพารามิเตอร์ บน iPhone 17 Pro ได้ โดยมีความเร็วราว 0.6 โทเค็นต่อวินาที
- โมเดลใช้สถาปัตยกรรม Mixture of Experts (MoE) ทำให้น้ำหนักที่ถูกใช้งานจริงมีประมาณ 5 พันล้านพารามิเตอร์
- สร้างใหม่เป็นเวอร์ชัน quantization แบบ 4bit แต่ยังช้ามาก
- ใช้วิธี ใช้ RAM ของ GPU·CPU ร่วมกัน และ โหลดแบบสตรีมจาก SSD
- มีการ fork Flash-Moe และเผยแพร่ที่ Anemll/flash-moe (สาขา iOS-App)
1 ความคิดเห็น
ความเห็นจาก Hacker News
สงสัยว่าวิธี สตรีม โดยตรงจาก SSD ไปยัง GPU นี้อิงจากงานวิจัยปี 2023 ของ Apple เรื่อง LLM in a Flash หรือไม่
ฝันเห็นทุกคนพก AI ระดับอภิปัญญาไว้ในกระเป๋า แต่สุดท้ายก็เอาไว้ทำแค่ doomscrolling กับ catfishing แล้วโลกก็ล่มสลาย
iPad Air (M2) ของฉันรัน LLM แบบโลคัลได้ค่อนข้างดี แต่ไม่กี่วินาทีก็ ร้อนจัด แล้ว throttling ทันที
Qwen3.5-397B-A17B ที่จริงแล้วทำงานเหมือนโมเดล 17B การตั้งชื่อที่ละส่วน MoE ออกไปก็เป็นแค่ การโฆษณาเกินจริง
การทำ quantization ก็เหมือน สูตรโกง อย่างหนึ่ง สักวันอาจมีคนอ้างว่าโมเดล 1-bit quantization เป็น “โมเดลขนาดใหญ่” ก็ได้
มีคำถามว่า “ถึงจะเป็นโมเดล 400B แต่ถ้าเป็นสถาปัตยกรรม MoE แล้วจำนวนพารามิเตอร์ที่ทำงานจริงมีเท่าไรกันแน่?”
ข่าวนี้ทำให้นึกถึงตอนที่ llama.c ออกมาใหม่ ๆ และทุกคนตื่นเต้นกันว่ารันแบบโลคัลได้แล้ว
ฉันเคยติดตั้ง Termux บนมือถือ Android เก่า (LineageOS) แล้วลองรัน Ollama กับโมเดลเล็ก ๆ ข้างใน ประสิทธิภาพแย่มากแต่ รันได้จริง
โมเดล MoE ของ Qwen เมื่อส่วนที่ active ลดลงเหลือระดับ 2B แล้ว ประสิทธิภาพจะตกฮวบ ในการอนุมานจริงใช้พารามิเตอร์น้อยกว่าหลายสิบเท่า ดังนั้นการเรียกมันว่าโมเดล 400B จึงไม่มีความหมาย
มีคำถามว่า “ต้องใช้เวลาอีกนานแค่ไหน โมเดลระดับนี้ถึงจะรันได้ที่ 100 โทเค็นต่อวินาที?”
ถ้ายังไม่ได้ติดตาม anemll ก็ควรรู้ไว้ว่าเขาได้ปล่อยเวอร์ชันที่สามารถรัน OpenClaw บน iPhone ได้ด้วย
เมื่อฮาร์ดแวร์และโมเดลพัฒนาขึ้น อนาคตของ AI บนมือถือ ก็ดูสดใสไม่น้อย