- Gemma 3n คือโมเดล AI มัลติโหมดแบบออนดีไวซ์รุ่นล่าสุดสำหรับสภาพแวดล้อมมือถือและเอดจ์ โดยสามารถประมวลผลภาพ เสียง วิดีโอ และข้อความได้ทั้งหมด
- ด้วย สถาปัตยกรรมที่เน้นประสิทธิภาพและนวัตกรรมใหม่ (Matformer, Per-Layer Embeddings, MobileNet-V5 ฯลฯ) ทำให้ได้ประสิทธิภาพระดับใกล้เคียงโมเดลคลาวด์ขนาดใหญ่เดิมภายใต้หน่วยความจำ 2~3GB
- มีโมเดลให้เลือก 2 ขนาดคือ E2B/E4B และรองรับขนาดคัสตอมแบบละเอียดให้เหมาะกับฮาร์ดแวร์ผ่านแนวทาง Mix-n-Match
- พร้อมนำไปใช้กับกรณีใช้งาน AI แบบออนดีไวซ์ได้ทันที เช่น การรู้จำเสียงและการแปล, การวิเคราะห์ภาพแบบเรียลไทม์, การประมวลผลหลายภาษา 140 ภาษา
- ทำงานร่วมกับระบบนิเวศโอเพนซอร์ส AI หลักอย่าง Hugging Face, Ollama, llama.cpp ได้อย่างกว้างขวาง และพร้อมใช้งานทันทีผ่านเครื่องมือ, API และ SDK ต่าง ๆ
ภาพรวมและที่มา
- Gemma รุ่นแรก ที่เปิดตัวเมื่อต้นปีที่แล้ว มียอดดาวน์โหลดมากกว่า 160 ล้านครั้ง และเติบโตเป็นระบบนิเวศที่เรียกว่า Gemmaverse
- ระบบนิเวศนี้มีทั้งโมเดลเฉพาะทางหลากหลายด้าน เช่น ความปลอดภัยและการแพทย์ รวมถึงกรณีใช้งานเชิงนวัตกรรมจำนวนมากที่สร้างขึ้นจากการมีส่วนร่วมของชุมชน
- จากความสำเร็จดังกล่าว Google จึงประกาศ การเปิดตัว Gemma 3n อย่างเป็นทางการ ซึ่งออกแบบโดยเน้นการใช้งานบนมือถือเป็นหลัก
- มีการผสานรวมอย่างกว้างขวางกับระบบนิเวศและเครื่องมือที่เป็นมิตรกับนักพัฒนา เช่น Hugging Face Transformers, llama.cpp, Google AI Edge และ Ollama
- เนื้อหานี้นำเสนอเชิงลึกจากมุมมองนักพัฒนาเกี่ยวกับนวัตกรรมหลัก เกณฑ์วัดผล และวิธีพัฒนาด้วย Gemma 3n
What’s new in Gemma 3n?
- Gemma 3n หมายถึงก้าวกระโดดครั้งใหม่ของ AI แบบออนดีไวซ์
- รองรับ มัลติโหมดแบบเนทีฟ สำหรับอินพุตข้อความ ภาพ เสียง วิดีโอ และเอาต์พุตเป็นข้อความ
- ออกแบบมาเพื่อเพิ่มประสิทธิภาพสูงสุด โดยมีให้เลือก 2 ขนาดคือ E2B (พารามิเตอร์ 5B), E4B (พารามิเตอร์ 8B) และสามารถรันได้แม้มีหน่วยความจำต่ำเพียง 2GB และ 3GB
- ใช้ สถาปัตยกรรมใหม่อย่าง MatFormer, Per Layer Embeddings, LAuReL, AltUp พร้อมทั้งเพิ่มตัวเข้ารหัสเสียงและภาพรุ่นใหม่
- รองรับ 140 ภาษา, ความเข้าใจมัลติโหมดใน 35 ภาษา, ความสามารถด้านคณิตศาสตร์ การเขียนโค้ด และการให้เหตุผลที่ดีขึ้น และในรุ่น E4B ทำคะแนน LMArena ทะลุ 1300
MatFormer: หนึ่งโมเดล หลายขนาด
- สถาปัตยกรรม MatFormer (🪆Matryoshka Transformer) คือโครงสร้างทรานส์ฟอร์เมอร์แบบใหม่ที่ออกแบบมาเพื่อการขยายตัวและความยืดหยุ่น
- ใช้หลักการของตุ๊กตารัสเซีย Matryoshka ที่มีโมเดลเล็กบรรจุอยู่ภายในโมเดลใหญ่แบบแยกอิสระ
- ระหว่างการฝึก E4B จะมีการปรับแต่งซับโมเดล E2B ไปพร้อมกัน ทำให้ไม่ต้องดาวน์โหลดโมเดลที่แยกออกมาล่วงหน้า และได้ความเร็วในการอนุมานสูงสุดถึง 2 เท่า
- ด้วยวิธี Mix-n-Match สามารถสร้างโมเดลขนาดกลางแบบคัสตอมให้เหมาะกับข้อจำกัดของฮาร์ดแวร์ได้ โดยอาศัยการปรับ feedforward network หรือการข้ามเลเยอร์
- ใน MatFormer Lab สามารถตรวจสอบค่าตั้งต้นที่เหมาะสมที่สุดจากเบนช์มาร์กและสร้างโมเดลได้
- ในอนาคตมีแผนรองรับ Elastic execution (การสลับขนาดโมเดลแบบไดนามิกตามเวลาจริง) ด้วย
Per-Layer Embeddings (PLE): เพิ่มประสิทธิภาพหน่วยความจำบนอุปกรณ์สูงสุด
- Per-Layer Embeddings (การฝังตัวแยกตามเลเยอร์) ช่วยเพิ่มคุณภาพและลดการใช้หน่วยความจำให้ต่ำที่สุดเมื่อดีพลอยแบบออนดีไวซ์
- จากพารามิเตอร์ทั้งหมด (5B/8B) จะโหลดและประมวลผลเฉพาะ embedding บน CPU อย่างมีประสิทธิภาพ ขณะที่คอร์ทรานส์ฟอร์เมอร์ (2B/4B) เท่านั้นที่อยู่ใน VRAM
- ผลคือสามารถทำงานได้โดยไม่ลดทอนคุณภาพ แม้ใช้หน่วยความจำน้อยกว่ามากเมื่อเทียบกับเดิม (บนตัวเร่งใช้เพียงราว 2B พารามิเตอร์)
KV Cache Sharing: เพิ่มประสิทธิภาพสำหรับอินพุตคอนเท็กซ์ยาว
- Gemma 3n เพิ่ม ความสามารถ KV Cache Sharing เพื่อประมวลผลอินพุตแบบลำดับ เช่น เสียงหรือวิดีโอที่มีความยาวมาก ได้รวดเร็วยิ่งขึ้น
- ในขั้นตอน prefill (การประมวลผลอินพุตเริ่มต้น) ระบบจะแชร์ KV cache ของเลเยอร์กลางไปยังเลเยอร์บนโดยตรง ช่วยเพิ่มประสิทธิภาพได้มากกว่า 2 เท่า
- ทำให้รับรู้พรอมป์ตลำดับยาวได้เร็วกว่าเดิม และช่วยเพิ่มความเป็นเรียลไทม์ของแอปพลิเคชันมัลติโหมด
การรู้จำเสียง: รองรับ STT และการแปล
- มาพร้อมตัวเข้ารหัสเสียงที่อิง Universal Speech Model (USM) โดยใช้โทเคนเสียงในหน่วย 160ms เป็นอินพุตของ language model
- สามารถสร้าง การรู้จำเสียงคุณภาพสูงแบบออนดีไวซ์ (ASR) และการแปลเสียงพูด (AST) ได้
- มีการยืนยันประสิทธิภาพสูงในคู่ภาษาหลัก เช่น อังกฤษ↔สเปน ฝรั่งเศส อิตาลี และโปรตุเกส
- หากใช้เทคนิคพรอมป์ตแบบ Chain-of-Thought จะช่วยยกระดับคุณภาพการแปลได้
- ตัวเข้ารหัสเสียงรุ่นแรก (ณ ช่วงเปิดตัว) รองรับคลิปยาวสูงสุด 30 วินาที และมีแผนขยายให้รองรับการสตรีมที่ยาวขึ้นในอนาคต
MobileNet-V5: วิชันเอนโค้ดเดอร์รุ่นล่าสุด
- MobileNet-V5-300M ที่รวมอยู่ใน Gemma 3n คือวิชันเอนโค้ดเดอร์ประสิทธิภาพสูงที่ให้สมรรถนะทรงพลังแม้บนอุปกรณ์เอดจ์
- รองรับความละเอียดอินพุตหลากหลาย เช่น 256x256, 512x512, 768x768 พิกเซล ทำให้ปรับสมดุลระหว่างประสิทธิภาพและรายละเอียดได้ตามต้องการ
- ผ่านการฝึกร่วมบนชุดข้อมูลมัลติโหมดขนาดใหญ่ จึงมีความสามารถครอบคลุมด้านความเข้าใจภาพและวิดีโอ และเก่งในการจัดการงานด้านภาพที่เฉพาะเจาะจง
- สามารถวิเคราะห์แบบ เรียลไทม์ 60 เฟรมต่อวินาที บน Google Pixel ได้
- ในเชิงสถาปัตยกรรม มีการใช้นวัตกรรมหลายอย่าง เช่น บล็อกที่อิง MobileNet-V4 (universal inverted bottleneck, Mobile MQA), โครงสร้าง hybrid pyramid และ Multi-Scale Fusion VLM adapter
- เหนือกว่า SoViT (เบสไลน์ของ Gemma 3) อย่างชัดเจน ด้วย ความเร็วมากกว่า 13 เท่า, ลดจำนวนพารามิเตอร์ 46%, ใช้หน่วยความจำน้อยลง 4 เท่า และมีความแม่นยำสูงกว่า
- รายงานทางเทคนิคจะเผยแพร่ข้อมูลเพิ่มเติมเกี่ยวกับสถาปัตยกรรม กลยุทธ์ขยายข้อมูล และเทคนิค distillation เชิงดีปเลิร์นนิงในภายหลัง
การใช้งานจริงและวิธีใช้
- ทดลองใช้ได้ทันทีบน AI Studio: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
- ดาวน์โหลด/ดีพลอยโมเดล: ใช้งานได้ทันทีผ่าน Hugging Face, Kaggle, Ollama, llama.cpp เป็นต้น
- เชื่อมต่อกับเครื่องมือและเฟรมเวิร์ก: รองรับส่วนใหญ่ เช่น Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth
- API และการดีพลอยบนคลาวด์: ดีพลอยได้ในหลากหลายสภาพแวดล้อม เช่น Google GenAI API, Vertex AI, NVIDIA API
สถานการณ์การใช้งานออนดีไวซ์ที่สำคัญ
- ผู้ช่วย AI แบบเรียลไทม์บนสมาร์ตโฟน/อุปกรณ์เอดจ์, เครื่องแปลเสียงพูด, มัลติโหมดแชตบอต, การวิเคราะห์ภาพแบบเรียลไทม์, IoT
- การฝังบริการ AI ลงในสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากร
- นวัตกรรม AI ในสภาพแวดล้อมออฟไลน์หรือมีข้อจำกัดด้านเครือข่าย
แหล่งข้อมูลสำหรับนักพัฒนา
Gemma 3n Impact Challenge
- จัดการแข่งขันพัฒนาผลิตภัณฑ์ที่สร้างผลกระทบต่อสังคมอย่างเป็นรูปธรรม โดยใช้ความสามารถแบบออนดีไวซ์ ออฟไลน์ และมัลติโหมด
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
jinjaในที่นี้หมายถึงอะไร