6 คะแนน โดย GN⁺ 2026-03-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • รัน LLM ขนาด 4 แสนล้านพารามิเตอร์ บน iPhone 17 Pro ได้ โดยมีความเร็วราว 0.6 โทเค็นต่อวินาที
  • โมเดลใช้สถาปัตยกรรม Mixture of Experts (MoE) ทำให้น้ำหนักที่ถูกใช้งานจริงมีประมาณ 5 พันล้านพารามิเตอร์
  • สร้างใหม่เป็นเวอร์ชัน quantization แบบ 4bit แต่ยังช้ามาก
  • ใช้วิธี ใช้ RAM ของ GPU·CPU ร่วมกัน และ โหลดแบบสตรีมจาก SSD
  • มีการ fork Flash-Moe และเผยแพร่ที่ Anemll/flash-moe (สาขา iOS-App)

1 ความคิดเห็น

 
GN⁺ 2026-03-24
ความเห็นจาก Hacker News
  • สงสัยว่าวิธี สตรีม โดยตรงจาก SSD ไปยัง GPU นี้อิงจากงานวิจัยปี 2023 ของ Apple เรื่อง LLM in a Flash หรือไม่

    • ใช่ มีการสรุปรายละเอียดที่เกี่ยวข้องไว้ใน บล็อกโพสต์ของฉัน
    • แนวทางคล้ายกันนี้เพิ่งถูกแนะนำใน เธรด HN นี้ ด้วย แต่ iPhone Pro ถูกจำกัด RAM ไว้ที่ 12GB จึงไม่พอสำหรับเก็บ ส่วนที่ทำงานอยู่ ของโมเดล จะใช้สตอเรจที่ทนทานแบบ Intel Optane ก็ได้ แต่กินพลังงานสูงจึงไม่เหมาะกับอุปกรณ์พกพา
    • วิธีนี้ไม่ได้ต่างจากโครงสร้างที่ Cerebus ใช้สตรีม weight มากนัก
  • ฝันเห็นทุกคนพก AI ระดับอภิปัญญาไว้ในกระเป๋า แต่สุดท้ายก็เอาไว้ทำแค่ doomscrolling กับ catfishing แล้วโลกก็ล่มสลาย

    • ฟังดูเหมือน นอสตราดามุส ยุคใหม่
  • iPad Air (M2) ของฉันรัน LLM แบบโลคัลได้ค่อนข้างดี แต่ไม่กี่วินาทีก็ ร้อนจัด แล้ว throttling ทันที

    • สงสัยว่าเคยมีใครทำ ระบบระบายความร้อนด้วยของเหลว สำหรับ iPad หรือมือถือบ้างไหม แบบอุปกรณ์ปิดผนึกที่แนบกับด้านหลังเครื่องแล้วหมุนเวียนน้ำหล่อเย็น
  • Qwen3.5-397B-A17B ที่จริงแล้วทำงานเหมือนโมเดล 17B การตั้งชื่อที่ละส่วน MoE ออกไปก็เป็นแค่ การโฆษณาเกินจริง
    การทำ quantization ก็เหมือน สูตรโกง อย่างหนึ่ง สักวันอาจมีคนอ้างว่าโมเดล 1-bit quantization เป็น “โมเดลขนาดใหญ่” ก็ได้

    • ในทางปฏิบัติมันทำงานใกล้เคียงโมเดลราว 80B และระดับความรู้ของโลกก็ใกล้กับโมเดล 400B ทั้งสถาปัตยกรรมโมเดล การทำ quantization ไปจนถึง เวลาในการสร้างโทเค็นแรก ถูกเปิดเผยไว้หมดแล้ว จึงแทบไม่มีช่องให้เข้าใจผิด ความพยายามแบบนี้ใกล้เคียงการทดลองทางเทคนิคแบบ code golf มากกว่าจะทำเพื่อผู้ใช้ทั่วไป
  • มีคำถามว่า “ถึงจะเป็นโมเดล 400B แต่ถ้าเป็นสถาปัตยกรรม MoE แล้วจำนวนพารามิเตอร์ที่ทำงานจริงมีเท่าไรกันแน่?”

    • Qwen3.5-397B-A17B มีพารามิเตอร์ที่ active อยู่ 17B ดูโค้ดที่เกี่ยวข้องได้ใน รีโพสิทอรีแอป flash-moe iOS
    • ทุกวันนี้บริษัทส่วนใหญ่กำลังเลือกใช้ สถาปัตยกรรม MoE
  • ข่าวนี้ทำให้นึกถึงตอนที่ llama.c ออกมาใหม่ ๆ และทุกคนตื่นเต้นกันว่ารันแบบโลคัลได้แล้ว

  • ฉันเคยติดตั้ง Termux บนมือถือ Android เก่า (LineageOS) แล้วลองรัน Ollama กับโมเดลเล็ก ๆ ข้างใน ประสิทธิภาพแย่มากแต่ รันได้จริง

    • จำได้ว่าเคยใช้ Linux Deploy บน Galaxy Note เพื่อคอมไพล์และรัน ตัวขุดบิตคอยน์ เอง ประสิทธิภาพห่วยมาก แต่ให้ความรู้สึกเหมือนมีคอมพิวเตอร์เต็มรูปแบบอยู่ในกระเป๋า สมัย Nokia แทบทำอะไรไม่ได้นอกจาก JS บนเบราว์เซอร์ แต่ Android เป็น แพลตฟอร์มที่แฮ็กได้จริง
    • สำหรับอ้างอิง Pixel 8 ของฉันรันโมเดล Qwen3.5 4B ได้ที่ 2 โทเค็นต่อวินาที ใน แอป PocketPal ใช้งานได้ดี แต่ แอป Cactus ใช้งานไม่ได้
  • โมเดล MoE ของ Qwen เมื่อส่วนที่ active ลดลงเหลือระดับ 2B แล้ว ประสิทธิภาพจะตกฮวบ ในการอนุมานจริงใช้พารามิเตอร์น้อยกว่าหลายสิบเท่า ดังนั้นการเรียกมันว่าโมเดล 400B จึงไม่มีความหมาย

  • มีคำถามว่า “ต้องใช้เวลาอีกนานแค่ไหน โมเดลระดับนี้ถึงจะรันได้ที่ 100 โทเค็นต่อวินาที?”

    • วิธีเดียวคือ ฝังโมเดลลงในฮาร์ดแวร์โดยตรง จริง ๆ แล้วมีชิปแบบนั้นถูกแนะนำไว้ในบล็อกโพสต์นี้ แต่มีขนาดใหญ่เกินกว่าจะใส่ในสมาร์ตโฟนได้
    • บนสมาร์ตโฟน การรันโมเดลขนาดใหญ่แบบนี้ไม่มีความคุ้มค่า การ fine-tune โมเดลขนาดเล็ก ให้เหมาะกับงานเฉพาะจะทั้งเร็วและแม่นยำกว่า
    • โมเดล Apollo (LFM2) ของ Liquid AI ทำงานบนมือถือได้ค่อนข้างเร็ว และมีประโยชน์กับงานอย่างสรุปผลการค้นหาหรือแก้โจทย์คณิตศาสตร์
    • มองตามความเป็นจริงแล้วเป็นไปไม่ได้ ไม่มีทางออกในเชิงวิศวกรรม
    • น่าจะต้องใช้เวลาอีก 15~20 ปี ตอนนี้ที่บอกว่าโมเดลนี้ “รันได้” บนมือถือเป็นคำพูดที่ถูกต้องแค่ในทางเทคนิคเท่านั้น ในความเป็นจริง ความจุ RAM และแบนด์วิดท์หน่วยความจำ ยังไม่พอมาก เดโมที่ใช้ SSD พอทำได้แต่ไม่ใช่สิ่งที่ใช้งานได้จริง ท้ายที่สุดต้องมีทั้ง อัลกอริทึมใหม่ และ การออกแบบชิปแบบปรับแต่งเฉพาะ ด้วยสถาปัตยกรรม Transformer แบบปัจจุบัน ข้อจำกัดชัดเจนมาก
  • ถ้ายังไม่ได้ติดตาม anemll ก็ควรรู้ไว้ว่าเขาได้ปล่อยเวอร์ชันที่สามารถรัน OpenClaw บน iPhone ได้ด้วย
    เมื่อฮาร์ดแวร์และโมเดลพัฒนาขึ้น อนาคตของ AI บนมือถือ ก็ดูสดใสไม่น้อย