Google AI Edge - AI บนอุปกรณ์แบบข้ามแพลตฟอร์ม

(ai.google.dev)

14 คะแนน โดย GN⁺ 2025-06-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Google AI Edge ช่วยให้การ ปรับใช้โมเดล AI บนมือถือ เว็บ และอุปกรณ์ฝังตัวทำได้ง่ายขึ้น
เป็น เฟรมเวิร์กแบบข้ามแพลตฟอร์ม ที่รวมเป็นหนึ่งเดียว ทำให้สามารถรันโมเดลเดียวกันได้บน Android, iOS, เว็บ และสภาพแวดล้อมแบบฝังตัว
รองรับความเข้ากันได้กับ เฟรมเวิร์กแมชชีนเลิร์นนิงหลากหลายตัว (JAX, Keras, PyTorch, TensorFlow)
มี เครื่องมือพัฒนาขั้นสูง เช่น การแสดงภาพและดีบักการแปลงโมเดล รวมถึงการสร้างไปป์ไลน์แบบกำหนดเอง
สามารถใช้งาน Generative AI บนอุปกรณ์ เช่น Gemini Nano ได้บนแพลตฟอร์ม Android และ Chrome

แนะนำ Google AI Edge

Google AI Edge เป็นโซลูชันสำหรับ การปรับใช้ AI บนอุปกรณ์และแบบข้ามแพลตฟอร์ม
เป็นแพลตฟอร์มที่ช่วยให้ ปรับใช้และรันโมเดล AI ได้อย่างมีประสิทธิภาพ บนหลายสภาพแวดล้อม เช่น แอปพลิเคชันมือถือ เว็บ และอุปกรณ์ฝังตัว

คุณสมบัติหลัก

เก็บไว้ในอุปกรณ์: ข้อมูลยังคงอยู่ในเครื่องแบบเป็นส่วนตัว ช่วย ลดเวลาแฝง และรองรับการทำงานออฟไลน์
รองรับข้ามแพลตฟอร์ม: สามารถ รันโมเดลเดียวกัน ได้บน Android, iOS, เว็บ และสภาพแวดล้อมแบบฝังตัว
รองรับหลายเฟรมเวิร์ก: รองรับการทำงานร่วมกับ เฟรมเวิร์กแมชชีนเลิร์นนิงหลายตัว เช่น JAX, Keras, PyTorch, TensorFlow
AI edge stack แบบครบวงจร: รองรับทั้งเฟรมเวิร์กที่ยืดหยุ่น โซลูชันแบบพร้อมใช้ และ ตัวเร่งฮาร์ดแวร์ อย่างครบถ้วน

โซลูชันสำเร็จรูปและเฟรมเวิร์กที่ยืดหยุ่น

API แบบโลว์โค้ดสำหรับงาน AI ทั่วไป

มี API แบบโลว์โค้ดข้ามแพลตฟอร์ม สำหรับจัดการ งาน AI ทั่วไป ได้ง่าย เช่น Generative AI, วิชัน, ข้อความ และเสียง
เป็นโซลูชันที่พัฒนาบน MediaPipe ทำให้ เริ่มต้นและนำไปใช้งานได้อย่างรวดเร็ว

การปรับใช้โมเดลแบบกำหนดเองข้ามแพลตฟอร์ม

สามารถนำ โมเดล AI ที่ฝึกไว้แล้ว ด้วย JAX, Keras, PyTorch, TensorFlow มารันด้วย ประสิทธิภาพสูง บน Android, iOS, เว็บ และอุปกรณ์ฝังตัว
รองรับ LiteRT เพื่อเพิ่ม ประสิทธิภาพในการดำเนินงาน และความสะดวกในการปรับใช้

เครื่องมือแปลงและแสดงภาพโมเดล

มีความสามารถในการ แสดงภาพกระบวนการแปลงและควอนไทซ์โมเดล
สามารถ ดีบักจุดคอขวด ของโปรเจ็กต์ AI ได้ด้วย performance benchmark overlay

การสร้าง ML pipeline แบบกำหนดเอง

สามารถ เชื่อมต่อโมเดล ML หลายตัวเป็นลำดับ พร้อมตรรกะก่อนและหลังการประมวลผล เพื่อสร้าง functional pipeline ที่ซับซ้อน
สามารถรัน accelerated pipeline ที่ใช้ GPU และ NPU ได้โดยไม่บล็อก CPU

Gemini Nano บน Android และ Chrome

ด้วย Gemini Nano ซึ่งเป็น โมเดล Generative AI บนอุปกรณ์รุ่นล่าสุด ของ Google จึงสามารถเพิ่ม ความสามารถด้าน Generative AI ให้กับสภาพแวดล้อมต่าง ๆ เช่น Android และ Chrome ได้

บทสรุป

Google AI Edge เป็นตัวเลือกที่ทรงพลังสำหรับ การปรับใช้เทคโนโลยี AI แบบกระจายตัวและบนอุปกรณ์
ด้วยความสามารถแบบข้ามแพลตฟอร์ม การรองรับหลายเฟรมเวิร์ก เครื่องมือเพิ่มประสิทธิภาพการพัฒนา และสภาพแวดล้อม Generative AI รุ่นใหม่ จึงมอบ ประสบการณ์การนำ AI มาใช้ที่มีประสิทธิภาพและทรงพลัง ให้กับ สตาร์ทอัพและชุมชนนักพัฒนา IT

1 ความคิดเห็น

GN⁺ 2025-06-02

ความคิดเห็นจาก Hacker News

ถ้าพูดตามตรง สำหรับผมชุด tensorflow lite + mediapipe เคยยอดเยี่ยมอยู่ช่วงหนึ่ง แต่ตลอด 3 ปีที่ผ่านมาให้ความรู้สึกเหมือนถูก Google ปล่อยทิ้งไว้เกือบหมด Mediapipe แทบไม่มีอัปเดตที่มีนัยสำคัญ และโมเดลที่ใช้กันมากหลายตัวก็ล้าสมัยหรือช้า TF Lite รองรับ NPU อย่าง Apple ANU แต่ใน mediapipe กลับไม่รองรับเลย อีกทั้งแบรนด์อย่าง MLKit, Firebase ML, TF lite, LiteRT ก็ปะปนกันไปหมด ตอนนี้ผมคิดว่าการใช้ onnxruntime ร่วมกับไลบรารี hugging face transformers หรือ transformers.js หรือไม่ก็รอให้ executorch โตเต็มที่ น่าจะเป็นตัวเลือกที่ดีกว่า แทบไม่เคยเห็นโมเดล SOTA รุ่นใหม่ที่ถูกพอร์ตมายัง tensorflow lite / liteRT อย่างเป็นทางการเลย (SAM2, EfficientSAM, EdgeSAM, DFINE, DEIM, Whisper, Lite-Whisper, Kokoro, DepthAnythingV2 ฯลฯ) โดยพื้นฐานทั้งหมดไปทาง pytorch แต่คอมมูนิตี้ ONNX และ MLX ก็ยังใหญ่อยู่
ดูแกลเลอรีตัวอย่างการใช้งาน ML/GenAI ที่รันบนอุปกรณ์ได้โดยตรงได้ที่ https://github.com/google-ai-edge/gallery ซึ่งสามารถลองหรือใช้งานโมเดลแบบโลคัลได้จากที่นั่น
ผมมองว่าเป็นเรื่องดีที่มีโซลูชันสำหรับ on-device ML เพิ่มขึ้นเรื่อย ๆ แต่ก็ยังไม่แน่ใจว่าจะหยิบมาใช้ทันทีหรือไม่ ถ้าไม่ใช่ use case ที่ผมใช้อยู่โดยเฉพาะ และก็ประเมินความยากของการเพิ่มโมเดลใหม่ที่รับอินพุตและเอาต์พุตตามใจไม่ได้ง่ายนัก ผมใช้ Onnx สำหรับรันโมเดลข้ามอุปกรณ์มาโดยตลอด ซึ่ง Onnx เป็นระดับล่างมากจนสามารถใส่น้ำหนักแบบไหนก็ได้ตามต้องการ ในหลายงานสามารถใช้ transformers.js มาครอบ Onnx ได้ ทำให้ไม่ต้องเสียเวลาทำงานซ้ำ ๆ อย่างการดีโค้ดเองทั้งหมด (ไม่ต้องไปเขียน beam search เอง) เอกสารที่ครอบคลุมกว่าซึ่งคล้ายกับไกด์ที่กล่าวถึงด้านบนคือ https://github.com/huggingface/transformers.js-examples ส่วนโซลูชันต่าง ๆ ที่ผมพูดถึงดูได้ที่ https://ai.google.dev/edge/mediapipe/solutions/guide
นี่คือการเอา TensorFlow Lite + MediaPipe มาแพ็กเกจใหม่เป็น “แบรนด์” ใหม่
- สงสัยว่านี่คือเทคโนโลยีที่ใช้กับ https://3d.kalidoface.com/ หรือเปล่า ความสามารถในการรันบนอุปกรณ์เองน่าประทับใจมาก และยังดีกว่า motion capture เชิงพาณิชย์หลายตัวเสียอีก น่าเสียดายที่ทั้งที่โซลูชันนี้ค่อนข้างโตเต็มที่แล้ว แต่เมื่อ 3 ปีก่อนกลับถูกระบุว่า deprecated/unsupported ไปแล้ว ผมเสียดายที่ Google ไม่ได้ใช้หรือประชาสัมพันธ์เทคโนโลยีนี้ให้มากพอ
มีใครเคยลองใช้โซลูชันนี้บ้างไหม ผมเสียเวลานานมากกับการพยายาม export โมเดล pytorch แบบคัสตอมไปเป็น coreml ทั้งรองรับไม่ครบ เจอ segfault แล้วล้มซ้ำ ๆ และข้อผิดพลาดจุกจิกอีกมากมาย อยากมีใครสักคนมายืนยันว่าโซลูชันนี้ไม่ได้โหดขนาดนั้น
- ผมตั้งค่าทุกอย่างเสร็จแล้วลอง Gemma3 1B บน Pixel 8a ข้อดีคือใช้เวลาไม่กี่นาทีก็รันได้ แต่ประสิทธิภาพแย่มาก แค่ถามคำถามง่าย ๆ ก็พาร์สไม่ค่อยได้ ไม่พยายามตอบด้วยซ้ำ และภาษาอังกฤษก็เละมาก คำถามก็ง่ายมาก แค่ถามว่า “ทำไมโมเดลนี้ถึงเล็กพอที่จะรันแบบโลคัลบนโทรศัพท์ของผมได้” แต่ผลลัพธ์น่าผิดหวังมากจนผมเลิกสนใจตัวโมเดลไปเลย ปกติผมก็ไม่ได้คาดหวังกับ AI มากอยู่แล้ว แต่ครั้งนี้ผิดหวังจริง ๆ
ผมลองทดสอบเองแล้ว เท่าที่เห็นมันเหมาะกับการนำโมเดล pytorch ล้วน ๆ มาสร้างใหม่เป็นโมเดล .tflite มากกว่า ในกรณีของผมผมลองกับโมเดล finbert แบบคัสตอม ขนาดโมเดลแทบไม่ต่างจากเดิม แม้จะแปลงเวอร์ชันที่ quantized แล้ว แต่เอาต์พุตต่างไปมาก เท่าที่จำได้เอกสารถูกเขียนให้เข้ากับโมเดล pytorch มาตรฐาน เช่นตระกูล torchvision.models ดังนั้นถ้าเป็นโมเดลสายนี้อาจได้ผลดีกว่า อนึ่ง สิ่งที่ผมลองเป็นเรื่องเมื่อราว 1 ปีก่อน และบางทีผมอาจโชคดีที่หลบแพตช์บั๊กใหญ่ก่อนหน้านั้นมาได้
มีข้อมูลละเอียดอยู่ที่ https://ai.google.dev/edge/mediapipe/solutions/guide และลิงก์โอเพนซอร์สคือ https://github.com/google-ai-edge/mediapipe สำหรับผมมันดูเหมือนเป็นแนวทางแบบบูรณาการสำหรับการ deploy โมเดล AI ที่ทำงานบนอุปกรณ์จริง (edge) อาจพอเปรียบได้ว่าเป็น “JavaScript ของ AI stack” ก็ได้ ผมเลยสงสัยว่าผู้ใช้เป้าหมายของเทคโนโลยีนี้คือใคร
- โมเดลบางตัวของ mediapipe ใช้งานได้ดีพอสมควร แต่ตัว mediapipe เองเป็นเทคโนโลยีเก่าที่มีมาตั้งแต่ราวปี 2019 และโฟกัสเรื่องการรัน AI บน edge โดยเฉพาะ vision AI (เช่น การติดตามใบหน้า) มาตลอด งานอย่างการติดตามใบหน้ายังมีประโยชน์อยู่ แต่โลกของงานอย่าง image recognition เปลี่ยนไปมากแล้ว
- ถ้าพูดถึงกลุ่มเป้าหมาย ผมคิดว่าเป็นคนที่ต้องการ deploy โมเดล ML แบบข้ามแพลตฟอร์ม โดยเฉพาะกรณีที่ต้องรองรับโค้ดเสริมที่ TFLite runtime อย่างเดียวเอาไม่อยู่ use case อย่าง LLM หรือ computer vision น่าจะเหมาะ ตัวอย่างเช่น ถ้าจะ deploy ตัวรู้จำ hand gesture ก็ต้องผ่านขั้นตอนซับซ้อนประมาณนี้: preprocess ภาพอินพุตให้เป็น color space และขนาดที่ต้องการ, คัดลอกภาพไปยัง GPU, รันโมเดล TFLite สำหรับตรวจจับมือ, resize เอาต์พุต, รันโมเดล TFLite สำหรับรู้จำ gesture, แล้ว postprocess ให้เป็นผลลัพธ์ที่ใช้งานได้ ถ้าจะปล่อยทั้งบน iOS และ Android นอกจากการรัน TFLite ธรรมดาแล้ว ยังต้องมีโค้ดประกอบอีกมหาศาล วิธีที่ Google เลือกใน Mediapipe คือจับ pipeline เหล่านี้และโหนดประมวลผลร่วมที่ใช้บ่อย มาห่อเป็นไลบรารี C++ แล้วให้เลือกหยิบเฉพาะส่วนที่ต้องใช้ ไลบรารีนี้คอมไพล์ข้ามแพลตฟอร์มได้ และมีตัวเลือกเร่งความเร็วด้วย GPU ด้วย ผมคิดว่าภายใน Google เองน่าจะเคยชั่งใจว่าจะขยายฟีเจอร์พวกนี้เข้าไปใน TFLite runtime เลย หรือจะแยกเป็นไลบรารีต่างหากแบบ Mediapipe สุดท้ายดูเหมือนแนวทางคือให้ TFLite โฟกัสที่ “การคำนวณเทนเซอร์” เอง ส่วนงานที่กว้างกว่านั้นอย่าง LLM หรือ image processing ก็โยนไปให้ไลบรารีแยกจัดการ
ผมสงสัยว่านี่คือของใหม่จริง ๆ หรือแค่หน้าเว็บการตลาดที่เอาเทคโนโลยี MediaPipe เดิม ๆ มาร้อยเป็นเรื่องเดียว ตอนแรกผมค่อนข้างตื่นเต้น แต่ก็สับสนว่า “Google AI Edge” คืออะไรกันแน่ แล้วพอค้นดูเหมือนว่าจะเป็นการรีแบรนด์ของสิ่งนี้ที่เปิดตัวเมื่อราว 2 ปีก่อน https://developers.googleblog.com/en/introducing-mediapipe-solutions-for-on-device-machine-learning/
เป็นโซลูชันที่ตามหลังสิ่งที่มีอยู่ในเฟรมเวิร์กอย่าง CoreML หรือ TimyML อยู่หลายปี และ Google ควรแสดงให้เห็นก่อนว่าจะไม่ทิ้งผลิตภัณฑ์นี้เพราะตัวเลขผลประกอบการไตรมาสหน้า
- อันที่จริงไม่ใช่แบบนั้นเลย สองอย่างนี้ต่างกันโดยสิ้นเชิง CoreML จำกัดอยู่ใน ecosystem ของ Apple และใช้แปลงโมเดล PyTorch ไปเป็น CoreML (.mlmodel) เพื่อรันบนตัวเร่งความเร็วของ iOS/Mac ส่วน Google Mediapipe เป็นไลบรารี C++ ขนาดใหญ่สำหรับรัน ML flow แบบข้ามแพลตฟอร์ม (ios/android/web) รวมถึงมี Tensorflow Lite (ตอนนี้คือ LiteRT) อยู่ด้วย และยังทำหน้าที่เป็น graph processor สำหรับงาน preprocess ทั่วไปอย่างการ resize ภาพได้ด้วย แม้จะมีมีมว่า Google ชอบเลิกผลิตภัณฑ์ไว แต่ Mediapipe เป็นโอเพนซอร์ส อย่างน้อยเรื่องนี้ก็ควรยกให้เขา ผมเคยสร้างผลิตภัณฑ์ computer vision บน iOS/Android ด้วย Mediapipe fork มันซับซ้อนมากแต่ทำงานได้ดี และเป็นโซลูชันข้ามแพลตฟอร์มที่ CoreML ไม่มีทางทำได้
- TensorFlow Lite มีประวัติการใช้งานจริงบนอุปกรณ์หลายพันล้านเครื่องตลอดหลายปีที่ผ่านมา โซลูชันนี้น่าจะเป็นการเอา Mediapipe มารวมและรีแบรนด์/ขยายต่อมากกว่า Google ลงทุนกับ on-device ML อย่างจริงจังมาเกิน 5 ปีแล้ว ไม่น่าใช่ของที่จู่ ๆ จะโดนฆ่าทิ้ง แต่ก็จริงที่การเปลี่ยนชื่อบ่อยทำให้สับสน
- ส่วน generative AI นี่ไม่ใช่ว่าใน ecosystem ของ Apple ยังไม่มีไม่ใช่หรือ ถ้าทำได้แบบของ Google ก็น่าจะเป็นการเปลี่ยนแปลงใหญ่ทีเดียว ส่วนตัวผมมองว่าฟีเจอร์ด้านแชตมีประโยชน์มาก และก็อดคิดไม่ได้ว่า Swift Assist จะมาเมื่อไหร่กันแน่
- มันก็แค่ tensorflow lite ที่รีแบรนด์ใหม่ ผมใช้บน edge device มาตั้งแต่ปี 2019 แล้ว CoreML เองก็ยอดเยี่ยม
- CoreML เกิดขึ้นเพราะ Apple เห็น TensorFlow แล้วเลือกทำสิ่งที่คล้ายกันเองโดยไม่ร่วมมือด้วย TF มีมาก่อน CoreML ที่เปิดตัวถึงราว 2 ปี และตอนนั้นก็เป็นเฟรมเวิร์กที่ประสบความสำเร็จแล้ว จนถึงทุกวันนี้ CoreML ก็แทบเป็นแค่อินเทอร์เฟซ BLAS แบบ proprietary และไม่ได้ถูกใช้อย่างแพร่หลายในอุตสาหกรรม มุมมองแบบนักพัฒนา iOS นี่น่ากลัวจริง
งานแบบนี้ทำผ่าน WebLLM ได้เหมือนกัน

Google AI Edge - AI บนอุปกรณ์แบบข้ามแพลตฟอร์ม

แนะนำ Google AI Edge

คุณสมบัติหลัก

โซลูชันสำเร็จรูปและเฟรมเวิร์กที่ยืดหยุ่น

API แบบโลว์โค้ดสำหรับงาน AI ทั่วไป

การปรับใช้โมเดลแบบกำหนดเองข้ามแพลตฟอร์ม

เครื่องมือแปลงและแสดงภาพโมเดล

การสร้าง ML pipeline แบบกำหนดเอง

Gemini Nano บน Android และ Chrome

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News