Google เปิดตัว Gemma 3n - การมาถึงของ AI มัลติโหมดแบบออนดีไวซ์รุ่นใหม่

(developers.googleblog.com)

1 คะแนน โดย GN⁺ 2025-06-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemma 3n คือโมเดล AI มัลติโหมดแบบออนดีไวซ์รุ่นล่าสุดสำหรับสภาพแวดล้อมมือถือและเอดจ์ โดยสามารถประมวลผลภาพ เสียง วิดีโอ และข้อความได้ทั้งหมด
ด้วย สถาปัตยกรรมที่เน้นประสิทธิภาพและนวัตกรรมใหม่ (Matformer, Per-Layer Embeddings, MobileNet-V5 ฯลฯ) ทำให้ได้ประสิทธิภาพระดับใกล้เคียงโมเดลคลาวด์ขนาดใหญ่เดิมภายใต้หน่วยความจำ 2~3GB
มีโมเดลให้เลือก 2 ขนาดคือ E2B/E4B และรองรับขนาดคัสตอมแบบละเอียดให้เหมาะกับฮาร์ดแวร์ผ่านแนวทาง Mix-n-Match
พร้อมนำไปใช้กับกรณีใช้งาน AI แบบออนดีไวซ์ได้ทันที เช่น การรู้จำเสียงและการแปล, การวิเคราะห์ภาพแบบเรียลไทม์, การประมวลผลหลายภาษา 140 ภาษา
ทำงานร่วมกับระบบนิเวศโอเพนซอร์ส AI หลักอย่าง Hugging Face, Ollama, llama.cpp ได้อย่างกว้างขวาง และพร้อมใช้งานทันทีผ่านเครื่องมือ, API และ SDK ต่าง ๆ

ภาพรวมและที่มา

Gemma รุ่นแรก ที่เปิดตัวเมื่อต้นปีที่แล้ว มียอดดาวน์โหลดมากกว่า 160 ล้านครั้ง และเติบโตเป็นระบบนิเวศที่เรียกว่า Gemmaverse
ระบบนิเวศนี้มีทั้งโมเดลเฉพาะทางหลากหลายด้าน เช่น ความปลอดภัยและการแพทย์ รวมถึงกรณีใช้งานเชิงนวัตกรรมจำนวนมากที่สร้างขึ้นจากการมีส่วนร่วมของชุมชน
จากความสำเร็จดังกล่าว Google จึงประกาศ การเปิดตัว Gemma 3n อย่างเป็นทางการ ซึ่งออกแบบโดยเน้นการใช้งานบนมือถือเป็นหลัก
มีการผสานรวมอย่างกว้างขวางกับระบบนิเวศและเครื่องมือที่เป็นมิตรกับนักพัฒนา เช่น Hugging Face Transformers, llama.cpp, Google AI Edge และ Ollama
เนื้อหานี้นำเสนอเชิงลึกจากมุมมองนักพัฒนาเกี่ยวกับนวัตกรรมหลัก เกณฑ์วัดผล และวิธีพัฒนาด้วย Gemma 3n

What’s new in Gemma 3n?

Gemma 3n หมายถึงก้าวกระโดดครั้งใหม่ของ AI แบบออนดีไวซ์
รองรับ มัลติโหมดแบบเนทีฟ สำหรับอินพุตข้อความ ภาพ เสียง วิดีโอ และเอาต์พุตเป็นข้อความ
ออกแบบมาเพื่อเพิ่มประสิทธิภาพสูงสุด โดยมีให้เลือก 2 ขนาดคือ E2B (พารามิเตอร์ 5B), E4B (พารามิเตอร์ 8B) และสามารถรันได้แม้มีหน่วยความจำต่ำเพียง 2GB และ 3GB
ใช้ สถาปัตยกรรมใหม่อย่าง MatFormer, Per Layer Embeddings, LAuReL, AltUp พร้อมทั้งเพิ่มตัวเข้ารหัสเสียงและภาพรุ่นใหม่
รองรับ 140 ภาษา, ความเข้าใจมัลติโหมดใน 35 ภาษา, ความสามารถด้านคณิตศาสตร์ การเขียนโค้ด และการให้เหตุผลที่ดีขึ้น และในรุ่น E4B ทำคะแนน LMArena ทะลุ 1300

MatFormer: หนึ่งโมเดล หลายขนาด

สถาปัตยกรรม MatFormer (🪆Matryoshka Transformer) คือโครงสร้างทรานส์ฟอร์เมอร์แบบใหม่ที่ออกแบบมาเพื่อการขยายตัวและความยืดหยุ่น
ใช้หลักการของตุ๊กตารัสเซีย Matryoshka ที่มีโมเดลเล็กบรรจุอยู่ภายในโมเดลใหญ่แบบแยกอิสระ
ระหว่างการฝึก E4B จะมีการปรับแต่งซับโมเดล E2B ไปพร้อมกัน ทำให้ไม่ต้องดาวน์โหลดโมเดลที่แยกออกมาล่วงหน้า และได้ความเร็วในการอนุมานสูงสุดถึง 2 เท่า
ด้วยวิธี Mix-n-Match สามารถสร้างโมเดลขนาดกลางแบบคัสตอมให้เหมาะกับข้อจำกัดของฮาร์ดแวร์ได้ โดยอาศัยการปรับ feedforward network หรือการข้ามเลเยอร์
ใน MatFormer Lab สามารถตรวจสอบค่าตั้งต้นที่เหมาะสมที่สุดจากเบนช์มาร์กและสร้างโมเดลได้
ในอนาคตมีแผนรองรับ Elastic execution (การสลับขนาดโมเดลแบบไดนามิกตามเวลาจริง) ด้วย

Per-Layer Embeddings (PLE): เพิ่มประสิทธิภาพหน่วยความจำบนอุปกรณ์สูงสุด

Per-Layer Embeddings (การฝังตัวแยกตามเลเยอร์) ช่วยเพิ่มคุณภาพและลดการใช้หน่วยความจำให้ต่ำที่สุดเมื่อดีพลอยแบบออนดีไวซ์
จากพารามิเตอร์ทั้งหมด (5B/8B) จะโหลดและประมวลผลเฉพาะ embedding บน CPU อย่างมีประสิทธิภาพ ขณะที่คอร์ทรานส์ฟอร์เมอร์ (2B/4B) เท่านั้นที่อยู่ใน VRAM
ผลคือสามารถทำงานได้โดยไม่ลดทอนคุณภาพ แม้ใช้หน่วยความจำน้อยกว่ามากเมื่อเทียบกับเดิม (บนตัวเร่งใช้เพียงราว 2B พารามิเตอร์)

KV Cache Sharing: เพิ่มประสิทธิภาพสำหรับอินพุตคอนเท็กซ์ยาว

Gemma 3n เพิ่ม ความสามารถ KV Cache Sharing เพื่อประมวลผลอินพุตแบบลำดับ เช่น เสียงหรือวิดีโอที่มีความยาวมาก ได้รวดเร็วยิ่งขึ้น
ในขั้นตอน prefill (การประมวลผลอินพุตเริ่มต้น) ระบบจะแชร์ KV cache ของเลเยอร์กลางไปยังเลเยอร์บนโดยตรง ช่วยเพิ่มประสิทธิภาพได้มากกว่า 2 เท่า
ทำให้รับรู้พรอมป์ตลำดับยาวได้เร็วกว่าเดิม และช่วยเพิ่มความเป็นเรียลไทม์ของแอปพลิเคชันมัลติโหมด

การรู้จำเสียง: รองรับ STT และการแปล

มาพร้อมตัวเข้ารหัสเสียงที่อิง Universal Speech Model (USM) โดยใช้โทเคนเสียงในหน่วย 160ms เป็นอินพุตของ language model
สามารถสร้าง การรู้จำเสียงคุณภาพสูงแบบออนดีไวซ์ (ASR) และการแปลเสียงพูด (AST) ได้
มีการยืนยันประสิทธิภาพสูงในคู่ภาษาหลัก เช่น อังกฤษ↔สเปน ฝรั่งเศส อิตาลี และโปรตุเกส
หากใช้เทคนิคพรอมป์ตแบบ Chain-of-Thought จะช่วยยกระดับคุณภาพการแปลได้
ตัวเข้ารหัสเสียงรุ่นแรก (ณ ช่วงเปิดตัว) รองรับคลิปยาวสูงสุด 30 วินาที และมีแผนขยายให้รองรับการสตรีมที่ยาวขึ้นในอนาคต

MobileNet-V5: วิชันเอนโค้ดเดอร์รุ่นล่าสุด

MobileNet-V5-300M ที่รวมอยู่ใน Gemma 3n คือวิชันเอนโค้ดเดอร์ประสิทธิภาพสูงที่ให้สมรรถนะทรงพลังแม้บนอุปกรณ์เอดจ์
รองรับความละเอียดอินพุตหลากหลาย เช่น 256x256, 512x512, 768x768 พิกเซล ทำให้ปรับสมดุลระหว่างประสิทธิภาพและรายละเอียดได้ตามต้องการ
ผ่านการฝึกร่วมบนชุดข้อมูลมัลติโหมดขนาดใหญ่ จึงมีความสามารถครอบคลุมด้านความเข้าใจภาพและวิดีโอ และเก่งในการจัดการงานด้านภาพที่เฉพาะเจาะจง
สามารถวิเคราะห์แบบ เรียลไทม์ 60 เฟรมต่อวินาที บน Google Pixel ได้
ในเชิงสถาปัตยกรรม มีการใช้นวัตกรรมหลายอย่าง เช่น บล็อกที่อิง MobileNet-V4 (universal inverted bottleneck, Mobile MQA), โครงสร้าง hybrid pyramid และ Multi-Scale Fusion VLM adapter
เหนือกว่า SoViT (เบสไลน์ของ Gemma 3) อย่างชัดเจน ด้วย ความเร็วมากกว่า 13 เท่า, ลดจำนวนพารามิเตอร์ 46%, ใช้หน่วยความจำน้อยลง 4 เท่า และมีความแม่นยำสูงกว่า
รายงานทางเทคนิคจะเผยแพร่ข้อมูลเพิ่มเติมเกี่ยวกับสถาปัตยกรรม กลยุทธ์ขยายข้อมูล และเทคนิค distillation เชิงดีปเลิร์นนิงในภายหลัง

การใช้งานจริงและวิธีใช้

ทดลองใช้ได้ทันทีบน AI Studio: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
ดาวน์โหลด/ดีพลอยโมเดล: ใช้งานได้ทันทีผ่าน Hugging Face, Kaggle, Ollama, llama.cpp เป็นต้น
เชื่อมต่อกับเครื่องมือและเฟรมเวิร์ก: รองรับส่วนใหญ่ เช่น Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth
API และการดีพลอยบนคลาวด์: ดีพลอยได้ในหลากหลายสภาพแวดล้อม เช่น Google GenAI API, Vertex AI, NVIDIA API

สถานการณ์การใช้งานออนดีไวซ์ที่สำคัญ

ผู้ช่วย AI แบบเรียลไทม์บนสมาร์ตโฟน/อุปกรณ์เอดจ์, เครื่องแปลเสียงพูด, มัลติโหมดแชตบอต, การวิเคราะห์ภาพแบบเรียลไทม์, IoT
การฝังบริการ AI ลงในสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากร
นวัตกรรม AI ในสภาพแวดล้อมออฟไลน์หรือมีข้อจำกัดด้านเครือข่าย

แหล่งข้อมูลสำหรับนักพัฒนา

Gemma 3n Impact Challenge

จัดการแข่งขันพัฒนาผลิตภัณฑ์ที่สร้างผลกระทบต่อสังคมอย่างเป็นรูปธรรม โดยใช้ความสามารถแบบออนดีไวซ์ ออฟไลน์ และมัลติโหมด
- เงินรางวัล $150,000 ต้องส่งวิดีโอและเดโม: https://www.kaggle.com/competitions/google-gemma-3n-hackathon

1 ความคิดเห็น

GN⁺ 2025-06-27

ความคิดเห็นจาก Hacker News

โมเดลนี้แสดง ความเข้ากันได้แบบสมบูรณ์ กับงานทั้งหมดที่เคยทำบน gemma3 ผมลองต่อเข้ากับสคริปต์ fine-tuning สำหรับ VLM ของผมได้ทันทีและทำงานได้ไม่มีปัญหาเลย (อิงตามโค้ด hf transformer) ถ้ารันโมเดล E4B บน GPU เดี่ยวด้วย Lora จะต้องใช้ VRAM 18Gb ที่ batch size 1 และ gemma-4B ต้องใช้ 21Gb deepmind ทำออกมาได้ดีมากจริง ๆ ซีรีส์ gemma3 คือ VLLM แบบเปิดน้ำหนักที่ดีที่สุด
- แก้ไข: โมเดลที่กำลังพูดถึงตอนนี้คือ E2B
ผมลองใช้พรอมป์ต์ "สร้าง SVG ของนกเพลิแกนขี่จักรยาน" กับ Gemma 3n 7.5GB (Ollama) และเวอร์ชัน 15GB ของ mlx-vlm แล้ว และพบว่าผลลัพธ์ต่างกันไปตาม ขนาดการ quantize ของแต่ละแบบ เลยรู้สึกว่าน่าสนใจดี ผมเอาผลลัพธ์ไปลงไว้ที่นี่: https://simonwillison.net/2025/Jun/26/gemma-3n/
- สิ่งนี้เรียกว่าเป็น benchmark ที่มีความหมายจริง ๆ ได้ไหม หรือเป็นแค่ทำไว้สนุก ๆ เฉย ๆ ผมเองก็ยังไม่ค่อยเข้าใจ
ผมยังไม่ค่อยเข้าใจว่า Gemma กับ Gemini ต่างกันอย่างไรในสภาพแวดล้อม on-device เพราะทั้งคู่ก็ใช้ได้โดยไม่ต้องเชื่อมต่อเครือข่ายเหมือนกัน ตัวอย่างข้อความทางการคือ: "Gemini Nano มอบประสบการณ์ generative AI ที่หลากหลายได้แม้ไม่มีการเชื่อมต่อเครือข่าย" — ถ้าเอา Gemma ไปแทน Gemini ในประโยคนี้ก็ยังถูกต้องทุกประการ
- ความต่างคือ ไลเซนส์ น้ำหนักของ Gemini Nano ใช้ตรง ๆ ไม่ได้ (โดยเฉพาะถ้าใช้เชิงพาณิชย์) และต้องเข้าถึงผ่าน Android MLKit หรือรันไทม์ที่ Google อนุมัติเท่านั้น ส่วน Gemma นั้น ใช้เชิงพาณิชย์ได้ บนรันไทม์หรือเฟรมเวิร์กอะไรก็ได้ตามต้องการ
- ถ้าดูจากบล็อกพรีวิวของ Gemma 3n จะเห็นว่า Gemma 3n และ Gemini Nano เวอร์ชันใหม่ใช้ สถาปัตยกรรม ร่วมกัน ผมคิดว่า n ก็มาจาก Nano นั่นแหละ Nano เป็น โมเดล proprietary ที่ฝังอยู่ใน Android ส่วน Gemma เป็น โมเดลเปิด ที่เอาไปใช้ที่ไหนก็ได้อย่างอิสระ แหล่งอ้างอิงอยู่ในบล็อกและวิดีโอทางการของ Google
- Gemma เป็นโอเพนซอร์สและใช้ ไลเซนส์ apache 2.0 ถ้าจะใส่ในแอปต้องแพ็กเกจเอง ส่วน Gemini Nano เป็น Android API ที่ควบคุมเองไม่ได้ อย่างสมบูรณ์
- ผมเดาว่าความต่างของสองโมเดลน่าจะอยู่ที่ ข้อมูลฝึกสอน ฝั่ง Gemini น่าจะถูกควบคุมเข้มงวดกว่ามาก และถ้าพยายามให้มันพ่นสิ่งที่อยู่ในข้อมูลฝึกออกมาตรง ๆ อาจเกิด 'recitation error' ได้
ส่วนตัวผมไม่ค่อยชอบที่ OpenAI ทำให้ การตั้งชื่อที่ยุ่งเหยิง แบบนี้กลายเป็นมาตรฐานของวงการ
- ถ้าอย่างนั้นคุณจะตั้งชื่อว่าอะไรล่ะ
ผมทำเวอร์ชัน GGUF เองแล้ว ดังนั้นใครอยากลองก็ใช้ได้เลย! ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0 รันประมาณนี้ นอกจากนี้ผมก็กำลังทำ เดโม Colab สำหรับ inference + finetuning อยู่ด้วย Gemma 3N รองรับทั้ง เสียง ข้อความ และภาพ เลยน่าประทับใจมาก รายละเอียดดูได้ที่ https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune
- ผมลองทดสอบโมเดล E4B บน Ollama แล้วพบว่าการตีความภาพ ทำงานผิดทั้งหมด เอาต์พุตอิงแต่ข้อความ และผิดแบบเดิมอย่างสม่ำเสมอ ขณะที่ Gemma 3 4B รุ่นปกติกลับทำได้ดี เลยคิดว่าน่าจะเป็นปัญหาของ Ollama พอไปดูเพิ่มก็พบว่าตอนนี้รองรับ เฉพาะข้อความ[1] อยากให้มีการแจ้งเรื่องนี้ให้ชัดกว่านี้หน่อย ผมขี้เกียจคอมไพล์ llama.cpp เอง เลยคงรอจนกว่า GGUF จะรองรับ [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
- ผมกำลังจะพิมพ์ว่าจะลองใช้เวอร์ชันของ Unsloth แต่พอเห็นว่าคุณทำและปล่อยออกมาแล้วก็ต้องทึ่งเลย ยอดเยี่ยมมาก!
- ขอบคุณมาก! อยากรู้ว่าถ้าจะรันโมเดลพวกนี้ต้องใช้ สเปก PC ประมาณไหน
- อยากรู้ว่า jinja ในที่นี้หมายถึงอะไร
พูดตรง ๆ ผมสงสัยว่า โมเดลขนาดเล็ก พวกนี้จะช่วยงานใช้งานจริงได้อย่างไร ผมลองมาหลายแบบแล้ว และรู้สึกว่าโมเดลที่เล็กกว่า 27B ใช้งานได้ยากจะเกินระดับของเล่น คือตอบดีเป็นบางครั้งเท่านั้น ผมแก้ปัญหาตัวกรองสแปมด้วย gemma3:27b-it-qat และผล benchmark ของผมก็ยืนยันว่าประมาณระดับนั้นถึงจะใช้งานได้จริง
- ถึง ความแม่นยำจะต่ำ ก็ยังมีที่ใช้งานจริงอยู่ ผมไม่รู้ว่าในอนาคตจะมีผลิตภัณฑ์แบบไหนออกมาอีก แต่ทุกวันนี้ก็มีตัวอย่างแล้ว เช่น โมเดลภาษาเล็ก บนคีย์บอร์ด iPhone ใช้แนะนำคำถัดไป (ผู้ใช้แค่เลือกคำที่แนะนำ) และยังมีการใช้โมเดลเล็กเพื่อเพิ่มความเร็วการอนุมานของโมเดลใหญ่แบบ speculative decoding ด้วย ต่อไปก็น่าจะมีกรณีใช้งานที่ฉลาดกว่านี้อีก
- ถ้ามองโมเดลเล็กพวกนี้เป็น โครงสร้างพื้นฐาน ก็ถือว่าใช้ประโยชน์ได้มากพอ ผมหวังว่าสักวันจะมีอนาคตที่ โทรศัพท์มือถือส่วนใหญ่มี LLM ฝังมาในเครื่อง กลายเป็นสิ่งพื้นฐานเหมือนสาธารณูปโภค
- วิธีใช้โมเดลเล็ก (<5bn params) ที่ดีที่สุดที่ผมเจอคือเป็น เครื่องมืออ้างอิงแบบออฟไลน์ ตอนเขียนโค้ดบนเครื่องบิน ผมลง qwen ไว้ใน MacBook Air แล้วใช้แทน Google เพื่อถามเรื่องไวยากรณ์ เอกสารประกอบ และคำถามพื้นฐานต่าง ๆ ซึ่งมีประโยชน์มาก
- โมเดลเล็กระดับ 4b หรือต่ำกว่านั้นเหมาะมากกับ การ fine-tune สำหรับงานเฉพาะทาง และอาจให้ผลลัพธ์ดีกว่าโมเดลเชิงพาณิชย์ได้ในต้นทุนที่ต่ำมาก นอกจากนี้ยังดีสำหรับ code autocomplete ด้วย ส่วนโมเดล 7b~8b ก็โอเคกับงานเขียนโค้ดที่เร็วและง่าย เช่นการรีแฟกเตอร์โค้ด (ตัวอย่าง: "เพิ่มพรีฟิกซ์ ST_ ให้ชื่อฟังก์ชันทั้งหมดที่มี type argument เป็น SomeType") ตั้งแต่โมเดล 12b ขึ้นไปก็เริ่มสร้าง ประโยคที่สม่ำเสมอ ได้แล้ว เช่น Mistral Nemo หรือ Gemma 3 12b
Kevin Kwok สรุปการ reverse engineer โครงสร้างโมเดลไว้ดีมาก แนะนำให้ดู: https://github.com/antimatter15/reverse-engineering-gemma-3n
น่าจะต้องมีข้อมูลบนเว็บไซต์ Google สักที่ที่สรุป ชื่อผลิตภัณฑ์ คำอธิบาย และฟีเจอร์ ของแต่ละตัวเป็นตารางไว้
แกน Y ของกราฟวาดออกมาได้น่าขำมาก
มีใครรู้ไหมว่าถ้าใช้งาน เวอร์ชันสำหรับดีพลอย ของ gemma 3n จริง ๆ จะมีค่าใช้จ่ายเท่าไร ในเอกสารบอกว่าสามารถใช้ gemma 3n ผ่าน gemini api ได้ แต่ราคากลับแสดงแค่ว่า "unavailable"

Google เปิดตัว Gemma 3n - การมาถึงของ AI มัลติโหมดแบบออนดีไวซ์รุ่นใหม่

ภาพรวมและที่มา

What’s new in Gemma 3n?

MatFormer: หนึ่งโมเดล หลายขนาด

Per-Layer Embeddings (PLE): เพิ่มประสิทธิภาพหน่วยความจำบนอุปกรณ์สูงสุด

KV Cache Sharing: เพิ่มประสิทธิภาพสำหรับอินพุตคอนเท็กซ์ยาว

การรู้จำเสียง: รองรับ STT และการแปล

MobileNet-V5: วิชันเอนโค้ดเดอร์รุ่นล่าสุด

การใช้งานจริงและวิธีใช้

สถานการณ์การใช้งานออนดีไวซ์ที่สำคัญ

แหล่งข้อมูลสำหรับนักพัฒนา

Gemma 3n Impact Challenge

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News