3 คะแนน โดย GN⁺ 13 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemma 4 โมเดลโอเพนซอร์สของ Google สามารถ รันแบบเนทีฟบน iPhone ได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต ทำให้ทำการอนุมานแบบออฟไลน์ได้อย่างสมบูรณ์
  • โมเดล 31B ของ Gemma 4 มีประสิทธิภาพใกล้เคียงกับโมเดล 27B ของ Qwen 3.5 โดยมีจำนวนพารามิเตอร์มากกว่าประมาณ 4 พันล้านตัว
  • รุ่นย่อย E2B·E4B เป็นโมเดลสำหรับมือถือที่ปรับให้เหมาะกับความเร็วและการควบคุมความร้อน โดยแอปของ Google แนะนำให้ใช้ E2B เป็นค่าเริ่มต้น
  • ผู้ใช้สามารถเลือกโมเดลและรัน การอนุมานบนอุปกรณ์โดยไม่ต้องใช้ API หรือคลาวด์ ผ่านแอป Google AI Edge Gallery
  • การใช้งานนี้แสดงให้เห็นว่า การเปลี่ยนผ่านสู่ AI บนอุปกรณ์กำลังเกิดขึ้นจริง และถูกมองว่าเป็นหมุดหมายสำคัญของการขยายระบบนิเวศ Edge AI

การรัน Google Gemma 4 บนอุปกรณ์ iPhone

  • Gemma 4 โมเดลโอเพนซอร์สของ Google รองรับ การอนุมานแบบออฟไลน์เต็มรูปแบบ บน iPhone และทำงานได้แบบเนทีฟ
    • สามารถทำ local inference ได้โดยไม่ต้องเชื่อมต่ออินเทอร์เน็ต
    • การนำ Edge AI ไปใช้งานไม่ใช่โจทย์ของอนาคตอีกต่อไป แต่เป็น ความจริงทางเทคโนโลยีที่กำลังเกิดขึ้นในปัจจุบัน
  • ในด้าน การเปรียบเทียบประสิทธิภาพ รุ่น 31B ของ Gemma 4 ถูกประเมินว่าอยู่ในระดับใกล้เคียงกับ โมเดล 27B ของ Qwen 3.5
    • Gemma มี พารามิเตอร์มากกว่าอยู่ราว 4 พันล้านตัว
    • ทั้งสองโมเดลต่างมีจุดแข็งในแต่ละงาน จึงไม่มีฝ่ายใดเหนือกว่าอย่างเด็ดขาด
  • รุ่นย่อย E2B และ E4B ซึ่งเป็น โมเดลที่ปรับให้เหมาะกับมือถือ เป็นจุดที่น่าจับตา
    • เน้นประสิทธิภาพการใช้งาน จึงได้เปรียบในด้าน ความเร็ว ความเบา และการควบคุมความร้อน
    • แอปของ Google แนะนำให้ใช้ E2B เป็นค่าเริ่มต้น
  • สามารถดาวน์โหลดแอป Google AI Edge Gallery จาก App Store และใช้งานได้ทันที
    • ผู้ใช้สามารถเลือกรุ่นของโมเดลและทำ การอนุมานได้โดยตรงบนอุปกรณ์
    • ไม่มีการเรียกใช้ API หรือการพึ่งพาคลาวด์
  • แอปนี้ไม่ได้มีแค่อินเทอร์เฟซข้อความเท่านั้น แต่ยังมี การรู้จำภาพ การโต้ตอบด้วยเสียง และเฟรมเวิร์ก Skills ที่ขยายต่อได้
    • ถูกออกแบบมาเป็น แพลตฟอร์มทดลอง AI บนอุปกรณ์ ที่นักพัฒนาและผู้ใช้ระดับสูงสามารถนำไปใช้งานได้

โครงสร้างทางเทคนิคและประสิทธิภาพ

  • Gemma 4 ใช้ เส้นทางการอนุมานผ่าน GPU ของ iPhone
    • มีความหน่วงในการตอบสนองต่ำมาก แสดงให้เห็นว่าสามารถประมวลผล เวิร์กโหลด AI ประสิทธิภาพสูงบนฮาร์ดแวร์สำหรับผู้บริโภค ได้
    • ถูกประเมินว่าเป็นกรณีตัวอย่างสำคัญที่แสดง ความเป็นไปได้ในการทำ AI แบบ local เชิงพาณิชย์
  • ความสามารถแบบออฟไลน์ ช่วยขยายการใช้งานในสภาพแวดล้อมองค์กรได้อย่างมาก
    • สามารถใช้งานได้โดยไม่ต้องพึ่งคลาวด์ใน งานภาคสนาม สภาพแวดล้อมทางการแพทย์ และพื้นที่ที่ความเป็นส่วนตัวของข้อมูลมีความสำคัญ

ความหมายและแนวโน้ม

  • การรัน Gemma 4 บน iPhone ไม่ใช่แค่การสาธิตทางเทคนิค แต่เป็น สัญลักษณ์ของการมาถึงของยุค AI บนอุปกรณ์
    • Google กำลังเร่งขยาย ระบบนิเวศ Edge AI อย่างจริงจังผ่าน Gemma
    • ดังคำเปรียบเปรยที่ว่า “Gemma ออกจากขวดแล้ว” ซึ่งสื่อว่า การเปลี่ยนผ่านสู่ AI แบบโลคัลได้เริ่มต้นขึ้นแล้ว

1 ความคิดเห็น

 
GN⁺ 13 일 전
ความเห็นจาก Hacker News
  • รู้สึกว่าสำนวนของบทความ เหมือน LLM เขียน
    มีแพตเทิร์นอย่าง “It’s not mere X — it’s Y” ถูกใช้ซ้ำหลายครั้ง

    • โยนมุกว่าคงไม่น่าเชื่อที่จะไปตั้งข้อสงสัยเรื่อง มาตรฐานทางศีลธรรม ของ “gizmoweek dot com”
    • ไม่สำคัญว่าคนเขียนจะเป็นมนุษย์หรือ LLM ปัญหาคือ ขาดรายละเอียด ไม่มีเบนช์มาร์กตามรุ่น iPhone และเนื้อหาแทบไม่มีอะไรเลย
    • ลองให้หลายโมเดลอย่าง Claude, Grok ฯลฯ วิเคราะห์แล้ว ก็ชี้ปัญหาแบบ คอนเทนต์ฟาร์ม ครบทั้งไม่มีแหล่งอ้างอิงและประโยคซ้ำ ๆ แถมยังพิสูจน์ไม่ได้ด้วยซ้ำว่าผู้เขียนมีตัวตนจริงหรือไม่
    • เห็นอีโมจิ “:v” แล้วรู้สึกดีใจเหมือนได้เจอ คนรุ่นมิลเลนเนียล อีกครั้งหลังจากนานมาก
    • รู้สึกเหมือน AI กำลัง ฝึกเราให้หลีกเลี่ยงรูปแบบภาษาบางอย่าง และบอกว่าไม่อยากตกเป็นตัวประกันของภาษาที่อ่อนแอ
  • พบว่าการอนุมานทำผ่าน GPU ไม่ใช่ Apple Neural Engine
    ดูเหมือนวิศวกร Google จะยอมแพ้กับการคอมไพล์ custom kernel สำหรับบล็อกเทนเซอร์แบบปิดของ Apple ไปแล้ว Metal พอร์ตได้ง่ายกว่าแต่ กินแบตมาก ถ้ายังไม่เขียน ANE backend ใหม่ก็คงเป็นแค่เดโมทางเทคนิค

    • ANE ไม่ค่อยเหมาะกับการรัน LLM ในทางปฏิบัติ ระบบนิเวศ LLM ถูกทำให้เป็นมาตรฐานบน CPU/GPU และแม้แต่ MLX ของ Apple ก็ยังไม่มี ANE support
    • กล่าวถึงบทความของ 9to5macที่คาดว่าอีกไม่กี่เดือน WWDC จะเปิดตัว Core AI framework ที่มาแทน CoreML พร้อมแสดงความคาดหวัง
    • ANE จะมีประสิทธิภาพเมื่อรวมอย่างน้อยเป็นเวกเตอร์ชุดละ 128 หน่วย จึงไม่เหมาะกับการสร้างโทเคน แต่ก็ยังมองโลกในแง่ดีมากขึ้นกว่าเดิมเพราะมี เทคนิคใหม่อย่าง Flash-MoE และ DFlash
    • การใช้พลังงานถือว่าโอเค แต่ฟีเจอร์อย่างการ ฟังอยู่เบื้องหลังตลอด 24/7 ฟังดูไม่น่าพอใจเพราะประเด็นการควบคุมความเป็นส่วนตัว
    • แอป AI Edge Gallery บน Android ก็ใช้ GPU อย่างเดียวเหมือนกัน ดูไม่ใช่ปัญหาของบล็อกเทนเซอร์ของ Apple เท่านั้น แต่อาจเป็นเพราะ Google ไม่ได้ใส่ใจเรื่องนี้โดยรวม
  • สร้าง แอปเขียนโค้ดออฟไลน์ (pucky) ด้วย Gemma 4 แล้วรันบน iPhone
    ดูได้ที่ GitHub โมเดล 4B ก็ใช้ได้ แต่ค่าเริ่มต้นใช้ 2B เพราะข้อจำกัดด้านหน่วยความจำ สร้างไฟล์ TypeScript ไฟล์เดียวแล้วคอมไพล์ด้วย oxc และมีแนวโน้มว่าจะผ่านการตรวจ App Store ได้ยากจึงต้อง build ด้วย Xcode เองโดยตรง

    • ชี้ไปยัง HN thread ก่อนหน้า พร้อมเสนอว่าอาจลองเปลี่ยนจาก React Native ไปใช้ Swift
  • ดูเหมือน Apple จะ จำกัด local LLM บน App Store มีคนบอกว่าพยายามเผยแพร่แอปเองแล้วติดข้อ 2.5.2

    • คาดว่า Apple จะ เข้มงวดกฎเกี่ยวกับ LLM มากขึ้นเรื่อย ๆ เพราะถ้าผู้ใช้สร้างแอปเองได้ โมเดลธุรกิจของ Apple ก็จะถูกคุกคาม
    • แต่กฎก็ไม่ได้สม่ำเสมอ เพราะในโทรศัพท์ของเจ้าตัวมี Google Edge Gallery และ Locally AI ที่ใช้งานได้ปกติอยู่แล้ว
    • อ้างถึงข้อความเต็มของ App Store Guideline 2.5.2 พร้อมตั้งคำถามว่าทำไม local LLM ถึงไปติดกฎข้อนี้
    • เจ้าตัวบอกว่าแอปของตัวเองใส่ LLM ที่ optimize สำหรับ ANE ทำงานแบบออฟไลน์เต็มรูปแบบ และผ่านการรีวิวภายในวันเดียว จึงวิเคราะห์ว่า Apple อาจตั้งใจ คัดกรองแอป AI สแปม และยังกล่าวถึงบทความ MacRumorsด้วย
    • ถามด้วยว่าแอปที่เกี่ยวกับ Cactus Compute เจอปัญหาเดียวกันหรือไม่
  • แชร์เธรดที่เกี่ยวข้องคือ Gemma 4 on iPhone

  • บน iPhone 16 Plus ความเร็วสูงมาก แต่พอข้อความยาวก็ช้าลงอย่างรวดเร็ว และ ไม่ใช่เพราะ thermal throttling อยากเห็นข้อมูลวินิจฉัย

    • การอนุมานของ LLM มีความซับซ้อนแบบ O(tokens²) จึงเป็นเรื่องธรรมดาที่จะช้าลงตามความยาว
  • คาดหวังแอป Edge Gallery iOS ที่ใส่ Gemma 4 มาให้ แต่รู้สึกไม่สะดวกเพราะมี ข้อจำกัดการเข้าถึง intents และต้องมี custom plugin สำหรับการค้นหาบนเว็บ ส่วน ChatMCP ใช้ API-based เลยพอใช้งานได้บ้าง

  • ติดตั้ง Google AI Edge Gallery บน iPhone 16 Pro แล้วรันเบนช์มาร์ก
    แชร์ผลว่าเมื่อใช้ GPU ได้ Prefill 231t/s, Decode 16t/s, เวลาถึงโทเคนแรก 1.16 วินาที และเวลาเริ่มต้นระบบ 20 วินาที

  • ต้องระวังเมื่อใช้โมเดลขนาดเล็ก
    เมื่อถามว่า “สุนัขกินอะโวคาโดได้ไหม” มัน ตอบอย่างมั่นใจว่า ‘Yes’ จึงต้องตระหนักถึงข้อจำกัดของโมเดล

    • มีคนตอบติดตลกว่า “ในเชิงเทคนิคมันก็กินได้แหละ…”
  • ถึงจะออฟไลน์ก็ยังสงสัยว่า Google จะ เก็บข้อมูลอินพุตหรือข้อมูลอุปกรณ์

    • ดูจาก ซอร์สบน GitHub แล้วพบว่าไม่ได้เก็บเนื้อหาข้อความ แต่มีการบันทึก สถิติการใช้งานโมเดล
    • แชร์เกร็ดขำ ๆ ว่าในสื่ออบรมภายในของ Google ใช้ผลิตภัณฑ์สมมติชื่อ ‘gShoe’ เป็นตัวอย่างเพื่อพูดถึงปัญหาความเป็นส่วนตัวของการเก็บข้อมูล
    • กล่าวด้วยว่า Apple กำลังผลักดันกลยุทธ์ on-device AI โดย จ่ายเงินให้ Google 1 พันล้านดอลลาร์ และสิ่งนี้อาจเป็น ตัวอย่างล่วงหน้า ของสิ่งที่จะตามมา