การรัน 400B LLM บน iPhone 17 Pro

(twitter.com/anemll)

6 คะแนน โดย GN⁺ 2026-03-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

รัน LLM ขนาด 4 แสนล้านพารามิเตอร์ บน iPhone 17 Pro ได้ โดยมีความเร็วราว 0.6 โทเค็นต่อวินาที
โมเดลใช้สถาปัตยกรรม Mixture of Experts (MoE) ทำให้น้ำหนักที่ถูกใช้งานจริงมีประมาณ 5 พันล้านพารามิเตอร์
สร้างใหม่เป็นเวอร์ชัน quantization แบบ 4bit แต่ยังช้ามาก
ใช้วิธี ใช้ RAM ของ GPU·CPU ร่วมกัน และ โหลดแบบสตรีมจาก SSD
มีการ fork Flash-Moe และเผยแพร่ที่ Anemll/flash-moe (สาขา iOS-App)

1 ความคิดเห็น

GN⁺ 2026-03-24

ความเห็นจาก Hacker News

สงสัยว่าวิธี สตรีม โดยตรงจาก SSD ไปยัง GPU นี้อิงจากงานวิจัยปี 2023 ของ Apple เรื่อง LLM in a Flash หรือไม่
- ใช่ มีการสรุปรายละเอียดที่เกี่ยวข้องไว้ใน บล็อกโพสต์ของฉัน
- แนวทางคล้ายกันนี้เพิ่งถูกแนะนำใน เธรด HN นี้ ด้วย แต่ iPhone Pro ถูกจำกัด RAM ไว้ที่ 12GB จึงไม่พอสำหรับเก็บ ส่วนที่ทำงานอยู่ ของโมเดล จะใช้สตอเรจที่ทนทานแบบ Intel Optane ก็ได้ แต่กินพลังงานสูงจึงไม่เหมาะกับอุปกรณ์พกพา
- วิธีนี้ไม่ได้ต่างจากโครงสร้างที่ Cerebus ใช้สตรีม weight มากนัก
ฝันเห็นทุกคนพก AI ระดับอภิปัญญาไว้ในกระเป๋า แต่สุดท้ายก็เอาไว้ทำแค่ doomscrolling กับ catfishing แล้วโลกก็ล่มสลาย
- ฟังดูเหมือน นอสตราดามุส ยุคใหม่
iPad Air (M2) ของฉันรัน LLM แบบโลคัลได้ค่อนข้างดี แต่ไม่กี่วินาทีก็ ร้อนจัด แล้ว throttling ทันที
- สงสัยว่าเคยมีใครทำ ระบบระบายความร้อนด้วยของเหลว สำหรับ iPad หรือมือถือบ้างไหม แบบอุปกรณ์ปิดผนึกที่แนบกับด้านหลังเครื่องแล้วหมุนเวียนน้ำหล่อเย็น
Qwen3.5-397B-A17B ที่จริงแล้วทำงานเหมือนโมเดล 17B การตั้งชื่อที่ละส่วน MoE ออกไปก็เป็นแค่ การโฆษณาเกินจริง
การทำ quantization ก็เหมือน สูตรโกง อย่างหนึ่ง สักวันอาจมีคนอ้างว่าโมเดล 1-bit quantization เป็น “โมเดลขนาดใหญ่” ก็ได้
- ในทางปฏิบัติมันทำงานใกล้เคียงโมเดลราว 80B และระดับความรู้ของโลกก็ใกล้กับโมเดล 400B ทั้งสถาปัตยกรรมโมเดล การทำ quantization ไปจนถึง เวลาในการสร้างโทเค็นแรก ถูกเปิดเผยไว้หมดแล้ว จึงแทบไม่มีช่องให้เข้าใจผิด ความพยายามแบบนี้ใกล้เคียงการทดลองทางเทคนิคแบบ code golf มากกว่าจะทำเพื่อผู้ใช้ทั่วไป
มีคำถามว่า “ถึงจะเป็นโมเดล 400B แต่ถ้าเป็นสถาปัตยกรรม MoE แล้วจำนวนพารามิเตอร์ที่ทำงานจริงมีเท่าไรกันแน่?”
- Qwen3.5-397B-A17B มีพารามิเตอร์ที่ active อยู่ 17B ดูโค้ดที่เกี่ยวข้องได้ใน รีโพสิทอรีแอป flash-moe iOS
- ทุกวันนี้บริษัทส่วนใหญ่กำลังเลือกใช้ สถาปัตยกรรม MoE
ข่าวนี้ทำให้นึกถึงตอนที่ llama.c ออกมาใหม่ ๆ และทุกคนตื่นเต้นกันว่ารันแบบโลคัลได้แล้ว
ฉันเคยติดตั้ง Termux บนมือถือ Android เก่า (LineageOS) แล้วลองรัน Ollama กับโมเดลเล็ก ๆ ข้างใน ประสิทธิภาพแย่มากแต่ รันได้จริง
- จำได้ว่าเคยใช้ Linux Deploy บน Galaxy Note เพื่อคอมไพล์และรัน ตัวขุดบิตคอยน์ เอง ประสิทธิภาพห่วยมาก แต่ให้ความรู้สึกเหมือนมีคอมพิวเตอร์เต็มรูปแบบอยู่ในกระเป๋า สมัย Nokia แทบทำอะไรไม่ได้นอกจาก JS บนเบราว์เซอร์ แต่ Android เป็น แพลตฟอร์มที่แฮ็กได้จริง
- สำหรับอ้างอิง Pixel 8 ของฉันรันโมเดล Qwen3.5 4B ได้ที่ 2 โทเค็นต่อวินาที ใน แอป PocketPal ใช้งานได้ดี แต่ แอป Cactus ใช้งานไม่ได้
โมเดล MoE ของ Qwen เมื่อส่วนที่ active ลดลงเหลือระดับ 2B แล้ว ประสิทธิภาพจะตกฮวบ ในการอนุมานจริงใช้พารามิเตอร์น้อยกว่าหลายสิบเท่า ดังนั้นการเรียกมันว่าโมเดล 400B จึงไม่มีความหมาย
มีคำถามว่า “ต้องใช้เวลาอีกนานแค่ไหน โมเดลระดับนี้ถึงจะรันได้ที่ 100 โทเค็นต่อวินาที?”
- วิธีเดียวคือ ฝังโมเดลลงในฮาร์ดแวร์โดยตรง จริง ๆ แล้วมีชิปแบบนั้นถูกแนะนำไว้ในบล็อกโพสต์นี้ แต่มีขนาดใหญ่เกินกว่าจะใส่ในสมาร์ตโฟนได้
- บนสมาร์ตโฟน การรันโมเดลขนาดใหญ่แบบนี้ไม่มีความคุ้มค่า การ fine-tune โมเดลขนาดเล็ก ให้เหมาะกับงานเฉพาะจะทั้งเร็วและแม่นยำกว่า
- โมเดล Apollo (LFM2) ของ Liquid AI ทำงานบนมือถือได้ค่อนข้างเร็ว และมีประโยชน์กับงานอย่างสรุปผลการค้นหาหรือแก้โจทย์คณิตศาสตร์
- มองตามความเป็นจริงแล้วเป็นไปไม่ได้ ไม่มีทางออกในเชิงวิศวกรรม
- น่าจะต้องใช้เวลาอีก 15~20 ปี ตอนนี้ที่บอกว่าโมเดลนี้ “รันได้” บนมือถือเป็นคำพูดที่ถูกต้องแค่ในทางเทคนิคเท่านั้น ในความเป็นจริง ความจุ RAM และแบนด์วิดท์หน่วยความจำ ยังไม่พอมาก เดโมที่ใช้ SSD พอทำได้แต่ไม่ใช่สิ่งที่ใช้งานได้จริง ท้ายที่สุดต้องมีทั้ง อัลกอริทึมใหม่ และ การออกแบบชิปแบบปรับแต่งเฉพาะ ด้วยสถาปัตยกรรม Transformer แบบปัจจุบัน ข้อจำกัดชัดเจนมาก
ถ้ายังไม่ได้ติดตาม anemll ก็ควรรู้ไว้ว่าเขาได้ปล่อยเวอร์ชันที่สามารถรัน OpenClaw บน iPhone ได้ด้วย
เมื่อฮาร์ดแวร์และโมเดลพัฒนาขึ้น อนาคตของ AI บนมือถือ ก็ดูสดใสไม่น้อย

การรัน 400B LLM บน iPhone 17 Pro

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News