Google Gemma 4 รองรับการอนุมาน AI แบบออฟไลน์เต็มรูปแบบบน iPhone
(gizmoweek.com)- Gemma 4 โมเดลโอเพนซอร์สของ Google สามารถ รันแบบเนทีฟบน iPhone ได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต ทำให้ทำการอนุมานแบบออฟไลน์ได้อย่างสมบูรณ์
- โมเดล 31B ของ Gemma 4 มีประสิทธิภาพใกล้เคียงกับโมเดล 27B ของ Qwen 3.5 โดยมีจำนวนพารามิเตอร์มากกว่าประมาณ 4 พันล้านตัว
- รุ่นย่อย E2B·E4B เป็นโมเดลสำหรับมือถือที่ปรับให้เหมาะกับความเร็วและการควบคุมความร้อน โดยแอปของ Google แนะนำให้ใช้ E2B เป็นค่าเริ่มต้น
- ผู้ใช้สามารถเลือกโมเดลและรัน การอนุมานบนอุปกรณ์โดยไม่ต้องใช้ API หรือคลาวด์ ผ่านแอป Google AI Edge Gallery
- การใช้งานนี้แสดงให้เห็นว่า การเปลี่ยนผ่านสู่ AI บนอุปกรณ์กำลังเกิดขึ้นจริง และถูกมองว่าเป็นหมุดหมายสำคัญของการขยายระบบนิเวศ Edge AI
การรัน Google Gemma 4 บนอุปกรณ์ iPhone
- Gemma 4 โมเดลโอเพนซอร์สของ Google รองรับ การอนุมานแบบออฟไลน์เต็มรูปแบบ บน iPhone และทำงานได้แบบเนทีฟ
- สามารถทำ local inference ได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต
- การนำ Edge AI ไปใช้งานไม่ใช่โจทย์ของอนาคตอีกต่อไป แต่เป็น ความจริงทางเทคโนโลยีที่กำลังเกิดขึ้นในปัจจุบัน
- ในด้าน การเปรียบเทียบประสิทธิภาพ รุ่น 31B ของ Gemma 4 ถูกประเมินว่าอยู่ในระดับใกล้เคียงกับ โมเดล 27B ของ Qwen 3.5
- Gemma มี พารามิเตอร์มากกว่าอยู่ราว 4 พันล้านตัว
- ทั้งสองโมเดลต่างมีจุดแข็งในแต่ละงาน จึงไม่มีฝ่ายใดเหนือกว่าอย่างเด็ดขาด
- รุ่นย่อย E2B และ E4B ซึ่งเป็น โมเดลที่ปรับให้เหมาะกับมือถือ เป็นจุดที่น่าจับตา
- เน้นประสิทธิภาพการใช้งาน จึงได้เปรียบในด้าน ความเร็ว ความเบา และการควบคุมความร้อน
- แอปของ Google แนะนำให้ใช้ E2B เป็นค่าเริ่มต้น
- สามารถดาวน์โหลดแอป Google AI Edge Gallery จาก App Store และใช้งานได้ทันที
- ผู้ใช้สามารถเลือกรุ่นของโมเดลและทำ การอนุมานได้โดยตรงบนอุปกรณ์
- ไม่มีการเรียกใช้ API หรือการพึ่งพาคลาวด์
- แอปนี้ไม่ได้มีแค่อินเทอร์เฟซข้อความเท่านั้น แต่ยังมี การรู้จำภาพ การโต้ตอบด้วยเสียง และเฟรมเวิร์ก Skills ที่ขยายต่อได้
- ถูกออกแบบมาเป็น แพลตฟอร์มทดลอง AI บนอุปกรณ์ ที่นักพัฒนาและผู้ใช้ระดับสูงสามารถนำไปใช้งานได้
โครงสร้างทางเทคนิคและประสิทธิภาพ
- Gemma 4 ใช้ เส้นทางการอนุมานผ่าน GPU ของ iPhone
- มีความหน่วงในการตอบสนองต่ำมาก แสดงให้เห็นว่าสามารถประมวลผล เวิร์กโหลด AI ประสิทธิภาพสูงบนฮาร์ดแวร์สำหรับผู้บริโภค ได้
- ถูกประเมินว่าเป็นกรณีตัวอย่างสำคัญที่แสดง ความเป็นไปได้ในการทำ AI แบบ local เชิงพาณิชย์
- ความสามารถแบบออฟไลน์ ช่วยขยายการใช้งานในสภาพแวดล้อมองค์กรได้อย่างมาก
- สามารถใช้งานได้โดยไม่ต้องพึ่งคลาวด์ใน งานภาคสนาม สภาพแวดล้อมทางการแพทย์ และพื้นที่ที่ความเป็นส่วนตัวของข้อมูลมีความสำคัญ
ความหมายและแนวโน้ม
- การรัน Gemma 4 บน iPhone ไม่ใช่แค่การสาธิตทางเทคนิค แต่เป็น สัญลักษณ์ของการมาถึงของยุค AI บนอุปกรณ์
- Google กำลังเร่งขยาย ระบบนิเวศ Edge AI อย่างจริงจังผ่าน Gemma
- ดังคำเปรียบเปรยที่ว่า “Gemma ออกจากขวดแล้ว” ซึ่งสื่อว่า การเปลี่ยนผ่านสู่ AI แบบโลคัลได้เริ่มต้นขึ้นแล้ว
1 ความคิดเห็น
ความเห็นจาก Hacker News
รู้สึกว่าสำนวนของบทความ เหมือน LLM เขียน
มีแพตเทิร์นอย่าง “It’s not mere X — it’s Y” ถูกใช้ซ้ำหลายครั้ง
พบว่าการอนุมานทำผ่าน GPU ไม่ใช่ Apple Neural Engine
ดูเหมือนวิศวกร Google จะยอมแพ้กับการคอมไพล์ custom kernel สำหรับบล็อกเทนเซอร์แบบปิดของ Apple ไปแล้ว Metal พอร์ตได้ง่ายกว่าแต่ กินแบตมาก ถ้ายังไม่เขียน ANE backend ใหม่ก็คงเป็นแค่เดโมทางเทคนิค
สร้าง แอปเขียนโค้ดออฟไลน์ (pucky) ด้วย Gemma 4 แล้วรันบน iPhone
ดูได้ที่ GitHub โมเดล 4B ก็ใช้ได้ แต่ค่าเริ่มต้นใช้ 2B เพราะข้อจำกัดด้านหน่วยความจำ สร้างไฟล์ TypeScript ไฟล์เดียวแล้วคอมไพล์ด้วย oxc และมีแนวโน้มว่าจะผ่านการตรวจ App Store ได้ยากจึงต้อง build ด้วย Xcode เองโดยตรง
ดูเหมือน Apple จะ จำกัด local LLM บน App Store มีคนบอกว่าพยายามเผยแพร่แอปเองแล้วติดข้อ 2.5.2
แชร์เธรดที่เกี่ยวข้องคือ Gemma 4 on iPhone
บน iPhone 16 Plus ความเร็วสูงมาก แต่พอข้อความยาวก็ช้าลงอย่างรวดเร็ว และ ไม่ใช่เพราะ thermal throttling อยากเห็นข้อมูลวินิจฉัย
คาดหวังแอป Edge Gallery iOS ที่ใส่ Gemma 4 มาให้ แต่รู้สึกไม่สะดวกเพราะมี ข้อจำกัดการเข้าถึง intents และต้องมี custom plugin สำหรับการค้นหาบนเว็บ ส่วน ChatMCP ใช้ API-based เลยพอใช้งานได้บ้าง
ติดตั้ง Google AI Edge Gallery บน iPhone 16 Pro แล้วรันเบนช์มาร์ก
แชร์ผลว่าเมื่อใช้ GPU ได้ Prefill 231t/s, Decode 16t/s, เวลาถึงโทเคนแรก 1.16 วินาที และเวลาเริ่มต้นระบบ 20 วินาที
ต้องระวังเมื่อใช้โมเดลขนาดเล็ก
เมื่อถามว่า “สุนัขกินอะโวคาโดได้ไหม” มัน ตอบอย่างมั่นใจว่า ‘Yes’ จึงต้องตระหนักถึงข้อจำกัดของโมเดล
ถึงจะออฟไลน์ก็ยังสงสัยว่า Google จะ เก็บข้อมูลอินพุตหรือข้อมูลอุปกรณ์