1 คะแนน โดย GN⁺ 2025-06-27 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemma 3n คือโมเดล AI มัลติโหมดแบบออนดีไวซ์รุ่นล่าสุดสำหรับสภาพแวดล้อมมือถือและเอดจ์ โดยสามารถประมวลผลภาพ เสียง วิดีโอ และข้อความได้ทั้งหมด
  • ด้วย สถาปัตยกรรมที่เน้นประสิทธิภาพและนวัตกรรมใหม่ (Matformer, Per-Layer Embeddings, MobileNet-V5 ฯลฯ) ทำให้ได้ประสิทธิภาพระดับใกล้เคียงโมเดลคลาวด์ขนาดใหญ่เดิมภายใต้หน่วยความจำ 2~3GB
  • มีโมเดลให้เลือก 2 ขนาดคือ E2B/E4B และรองรับขนาดคัสตอมแบบละเอียดให้เหมาะกับฮาร์ดแวร์ผ่านแนวทาง Mix-n-Match
  • พร้อมนำไปใช้กับกรณีใช้งาน AI แบบออนดีไวซ์ได้ทันที เช่น การรู้จำเสียงและการแปล, การวิเคราะห์ภาพแบบเรียลไทม์, การประมวลผลหลายภาษา 140 ภาษา
  • ทำงานร่วมกับระบบนิเวศโอเพนซอร์ส AI หลักอย่าง Hugging Face, Ollama, llama.cpp ได้อย่างกว้างขวาง และพร้อมใช้งานทันทีผ่านเครื่องมือ, API และ SDK ต่าง ๆ

ภาพรวมและที่มา

  • Gemma รุ่นแรก ที่เปิดตัวเมื่อต้นปีที่แล้ว มียอดดาวน์โหลดมากกว่า 160 ล้านครั้ง และเติบโตเป็นระบบนิเวศที่เรียกว่า Gemmaverse
  • ระบบนิเวศนี้มีทั้งโมเดลเฉพาะทางหลากหลายด้าน เช่น ความปลอดภัยและการแพทย์ รวมถึงกรณีใช้งานเชิงนวัตกรรมจำนวนมากที่สร้างขึ้นจากการมีส่วนร่วมของชุมชน
  • จากความสำเร็จดังกล่าว Google จึงประกาศ การเปิดตัว Gemma 3n อย่างเป็นทางการ ซึ่งออกแบบโดยเน้นการใช้งานบนมือถือเป็นหลัก
  • มีการผสานรวมอย่างกว้างขวางกับระบบนิเวศและเครื่องมือที่เป็นมิตรกับนักพัฒนา เช่น Hugging Face Transformers, llama.cpp, Google AI Edge และ Ollama
  • เนื้อหานี้นำเสนอเชิงลึกจากมุมมองนักพัฒนาเกี่ยวกับนวัตกรรมหลัก เกณฑ์วัดผล และวิธีพัฒนาด้วย Gemma 3n

What’s new in Gemma 3n?

  • Gemma 3n หมายถึงก้าวกระโดดครั้งใหม่ของ AI แบบออนดีไวซ์
  • รองรับ มัลติโหมดแบบเนทีฟ สำหรับอินพุตข้อความ ภาพ เสียง วิดีโอ และเอาต์พุตเป็นข้อความ
  • ออกแบบมาเพื่อเพิ่มประสิทธิภาพสูงสุด โดยมีให้เลือก 2 ขนาดคือ E2B (พารามิเตอร์ 5B), E4B (พารามิเตอร์ 8B) และสามารถรันได้แม้มีหน่วยความจำต่ำเพียง 2GB และ 3GB
  • ใช้ สถาปัตยกรรมใหม่อย่าง MatFormer, Per Layer Embeddings, LAuReL, AltUp พร้อมทั้งเพิ่มตัวเข้ารหัสเสียงและภาพรุ่นใหม่
  • รองรับ 140 ภาษา, ความเข้าใจมัลติโหมดใน 35 ภาษา, ความสามารถด้านคณิตศาสตร์ การเขียนโค้ด และการให้เหตุผลที่ดีขึ้น และในรุ่น E4B ทำคะแนน LMArena ทะลุ 1300

MatFormer: หนึ่งโมเดล หลายขนาด

  • สถาปัตยกรรม MatFormer (🪆Matryoshka Transformer) คือโครงสร้างทรานส์ฟอร์เมอร์แบบใหม่ที่ออกแบบมาเพื่อการขยายตัวและความยืดหยุ่น
  • ใช้หลักการของตุ๊กตารัสเซีย Matryoshka ที่มีโมเดลเล็กบรรจุอยู่ภายในโมเดลใหญ่แบบแยกอิสระ
  • ระหว่างการฝึก E4B จะมีการปรับแต่งซับโมเดล E2B ไปพร้อมกัน ทำให้ไม่ต้องดาวน์โหลดโมเดลที่แยกออกมาล่วงหน้า และได้ความเร็วในการอนุมานสูงสุดถึง 2 เท่า
  • ด้วยวิธี Mix-n-Match สามารถสร้างโมเดลขนาดกลางแบบคัสตอมให้เหมาะกับข้อจำกัดของฮาร์ดแวร์ได้ โดยอาศัยการปรับ feedforward network หรือการข้ามเลเยอร์
  • ใน MatFormer Lab สามารถตรวจสอบค่าตั้งต้นที่เหมาะสมที่สุดจากเบนช์มาร์กและสร้างโมเดลได้
  • ในอนาคตมีแผนรองรับ Elastic execution (การสลับขนาดโมเดลแบบไดนามิกตามเวลาจริง) ด้วย

Per-Layer Embeddings (PLE): เพิ่มประสิทธิภาพหน่วยความจำบนอุปกรณ์สูงสุด

  • Per-Layer Embeddings (การฝังตัวแยกตามเลเยอร์) ช่วยเพิ่มคุณภาพและลดการใช้หน่วยความจำให้ต่ำที่สุดเมื่อดีพลอยแบบออนดีไวซ์
  • จากพารามิเตอร์ทั้งหมด (5B/8B) จะโหลดและประมวลผลเฉพาะ embedding บน CPU อย่างมีประสิทธิภาพ ขณะที่คอร์ทรานส์ฟอร์เมอร์ (2B/4B) เท่านั้นที่อยู่ใน VRAM
  • ผลคือสามารถทำงานได้โดยไม่ลดทอนคุณภาพ แม้ใช้หน่วยความจำน้อยกว่ามากเมื่อเทียบกับเดิม (บนตัวเร่งใช้เพียงราว 2B พารามิเตอร์)

KV Cache Sharing: เพิ่มประสิทธิภาพสำหรับอินพุตคอนเท็กซ์ยาว

  • Gemma 3n เพิ่ม ความสามารถ KV Cache Sharing เพื่อประมวลผลอินพุตแบบลำดับ เช่น เสียงหรือวิดีโอที่มีความยาวมาก ได้รวดเร็วยิ่งขึ้น
  • ในขั้นตอน prefill (การประมวลผลอินพุตเริ่มต้น) ระบบจะแชร์ KV cache ของเลเยอร์กลางไปยังเลเยอร์บนโดยตรง ช่วยเพิ่มประสิทธิภาพได้มากกว่า 2 เท่า
  • ทำให้รับรู้พรอมป์ตลำดับยาวได้เร็วกว่าเดิม และช่วยเพิ่มความเป็นเรียลไทม์ของแอปพลิเคชันมัลติโหมด

การรู้จำเสียง: รองรับ STT และการแปล

  • มาพร้อมตัวเข้ารหัสเสียงที่อิง Universal Speech Model (USM) โดยใช้โทเคนเสียงในหน่วย 160ms เป็นอินพุตของ language model
  • สามารถสร้าง การรู้จำเสียงคุณภาพสูงแบบออนดีไวซ์ (ASR) และการแปลเสียงพูด (AST) ได้
  • มีการยืนยันประสิทธิภาพสูงในคู่ภาษาหลัก เช่น อังกฤษ↔สเปน ฝรั่งเศส อิตาลี และโปรตุเกส
  • หากใช้เทคนิคพรอมป์ตแบบ Chain-of-Thought จะช่วยยกระดับคุณภาพการแปลได้
  • ตัวเข้ารหัสเสียงรุ่นแรก (ณ ช่วงเปิดตัว) รองรับคลิปยาวสูงสุด 30 วินาที และมีแผนขยายให้รองรับการสตรีมที่ยาวขึ้นในอนาคต

MobileNet-V5: วิชันเอนโค้ดเดอร์รุ่นล่าสุด

  • MobileNet-V5-300M ที่รวมอยู่ใน Gemma 3n คือวิชันเอนโค้ดเดอร์ประสิทธิภาพสูงที่ให้สมรรถนะทรงพลังแม้บนอุปกรณ์เอดจ์
  • รองรับความละเอียดอินพุตหลากหลาย เช่น 256x256, 512x512, 768x768 พิกเซล ทำให้ปรับสมดุลระหว่างประสิทธิภาพและรายละเอียดได้ตามต้องการ
  • ผ่านการฝึกร่วมบนชุดข้อมูลมัลติโหมดขนาดใหญ่ จึงมีความสามารถครอบคลุมด้านความเข้าใจภาพและวิดีโอ และเก่งในการจัดการงานด้านภาพที่เฉพาะเจาะจง
  • สามารถวิเคราะห์แบบ เรียลไทม์ 60 เฟรมต่อวินาที บน Google Pixel ได้
  • ในเชิงสถาปัตยกรรม มีการใช้นวัตกรรมหลายอย่าง เช่น บล็อกที่อิง MobileNet-V4 (universal inverted bottleneck, Mobile MQA), โครงสร้าง hybrid pyramid และ Multi-Scale Fusion VLM adapter
  • เหนือกว่า SoViT (เบสไลน์ของ Gemma 3) อย่างชัดเจน ด้วย ความเร็วมากกว่า 13 เท่า, ลดจำนวนพารามิเตอร์ 46%, ใช้หน่วยความจำน้อยลง 4 เท่า และมีความแม่นยำสูงกว่า
  • รายงานทางเทคนิคจะเผยแพร่ข้อมูลเพิ่มเติมเกี่ยวกับสถาปัตยกรรม กลยุทธ์ขยายข้อมูล และเทคนิค distillation เชิงดีปเลิร์นนิงในภายหลัง

การใช้งานจริงและวิธีใช้

  • ทดลองใช้ได้ทันทีบน AI Studio: https://aistudio.google.com/prompts/new_chat?model=gemma-3n-e4b-it
  • ดาวน์โหลด/ดีพลอยโมเดล: ใช้งานได้ทันทีผ่าน Hugging Face, Kaggle, Ollama, llama.cpp เป็นต้น
  • เชื่อมต่อกับเครื่องมือและเฟรมเวิร์ก: รองรับส่วนใหญ่ เช่น Hugging Face Transformers/TRL, MLX, Docker, LMStudio, NVIDIA NeMo, Unsloth
  • API และการดีพลอยบนคลาวด์: ดีพลอยได้ในหลากหลายสภาพแวดล้อม เช่น Google GenAI API, Vertex AI, NVIDIA API

สถานการณ์การใช้งานออนดีไวซ์ที่สำคัญ

  • ผู้ช่วย AI แบบเรียลไทม์บนสมาร์ตโฟน/อุปกรณ์เอดจ์, เครื่องแปลเสียงพูด, มัลติโหมดแชตบอต, การวิเคราะห์ภาพแบบเรียลไทม์, IoT
  • การฝังบริการ AI ลงในสภาพแวดล้อมที่มีข้อจำกัดด้านทรัพยากร
  • นวัตกรรม AI ในสภาพแวดล้อมออฟไลน์หรือมีข้อจำกัดด้านเครือข่าย

แหล่งข้อมูลสำหรับนักพัฒนา

Gemma 3n Impact Challenge

  • จัดการแข่งขันพัฒนาผลิตภัณฑ์ที่สร้างผลกระทบต่อสังคมอย่างเป็นรูปธรรม โดยใช้ความสามารถแบบออนดีไวซ์ ออฟไลน์ และมัลติโหมด

1 ความคิดเห็น

 
GN⁺ 2025-06-27
ความคิดเห็นจาก Hacker News
  • โมเดลนี้แสดง ความเข้ากันได้แบบสมบูรณ์ กับงานทั้งหมดที่เคยทำบน gemma3 ผมลองต่อเข้ากับสคริปต์ fine-tuning สำหรับ VLM ของผมได้ทันทีและทำงานได้ไม่มีปัญหาเลย (อิงตามโค้ด hf transformer) ถ้ารันโมเดล E4B บน GPU เดี่ยวด้วย Lora จะต้องใช้ VRAM 18Gb ที่ batch size 1 และ gemma-4B ต้องใช้ 21Gb deepmind ทำออกมาได้ดีมากจริง ๆ ซีรีส์ gemma3 คือ VLLM แบบเปิดน้ำหนักที่ดีที่สุด
    • แก้ไข: โมเดลที่กำลังพูดถึงตอนนี้คือ E2B
  • ผมลองใช้พรอมป์ต์ "สร้าง SVG ของนกเพลิแกนขี่จักรยาน" กับ Gemma 3n 7.5GB (Ollama) และเวอร์ชัน 15GB ของ mlx-vlm แล้ว และพบว่าผลลัพธ์ต่างกันไปตาม ขนาดการ quantize ของแต่ละแบบ เลยรู้สึกว่าน่าสนใจดี ผมเอาผลลัพธ์ไปลงไว้ที่นี่: https://simonwillison.net/2025/Jun/26/gemma-3n/
    • สิ่งนี้เรียกว่าเป็น benchmark ที่มีความหมายจริง ๆ ได้ไหม หรือเป็นแค่ทำไว้สนุก ๆ เฉย ๆ ผมเองก็ยังไม่ค่อยเข้าใจ
  • ผมยังไม่ค่อยเข้าใจว่า Gemma กับ Gemini ต่างกันอย่างไรในสภาพแวดล้อม on-device เพราะทั้งคู่ก็ใช้ได้โดยไม่ต้องเชื่อมต่อเครือข่ายเหมือนกัน ตัวอย่างข้อความทางการคือ: "Gemini Nano มอบประสบการณ์ generative AI ที่หลากหลายได้แม้ไม่มีการเชื่อมต่อเครือข่าย" — ถ้าเอา Gemma ไปแทน Gemini ในประโยคนี้ก็ยังถูกต้องทุกประการ
    • ความต่างคือ ไลเซนส์ น้ำหนักของ Gemini Nano ใช้ตรง ๆ ไม่ได้ (โดยเฉพาะถ้าใช้เชิงพาณิชย์) และต้องเข้าถึงผ่าน Android MLKit หรือรันไทม์ที่ Google อนุมัติเท่านั้น ส่วน Gemma นั้น ใช้เชิงพาณิชย์ได้ บนรันไทม์หรือเฟรมเวิร์กอะไรก็ได้ตามต้องการ
    • ถ้าดูจากบล็อกพรีวิวของ Gemma 3n จะเห็นว่า Gemma 3n และ Gemini Nano เวอร์ชันใหม่ใช้ สถาปัตยกรรม ร่วมกัน ผมคิดว่า n ก็มาจาก Nano นั่นแหละ Nano เป็น โมเดล proprietary ที่ฝังอยู่ใน Android ส่วน Gemma เป็น โมเดลเปิด ที่เอาไปใช้ที่ไหนก็ได้อย่างอิสระ แหล่งอ้างอิงอยู่ในบล็อกและวิดีโอทางการของ Google
    • Gemma เป็นโอเพนซอร์สและใช้ ไลเซนส์ apache 2.0 ถ้าจะใส่ในแอปต้องแพ็กเกจเอง ส่วน Gemini Nano เป็น Android API ที่ควบคุมเองไม่ได้ อย่างสมบูรณ์
    • ผมเดาว่าความต่างของสองโมเดลน่าจะอยู่ที่ ข้อมูลฝึกสอน ฝั่ง Gemini น่าจะถูกควบคุมเข้มงวดกว่ามาก และถ้าพยายามให้มันพ่นสิ่งที่อยู่ในข้อมูลฝึกออกมาตรง ๆ อาจเกิด 'recitation error' ได้
  • ส่วนตัวผมไม่ค่อยชอบที่ OpenAI ทำให้ การตั้งชื่อที่ยุ่งเหยิง แบบนี้กลายเป็นมาตรฐานของวงการ
    • ถ้าอย่างนั้นคุณจะตั้งชื่อว่าอะไรล่ะ
  • ผมทำเวอร์ชัน GGUF เองแล้ว ดังนั้นใครอยากลองก็ใช้ได้เลย! ./llama.cpp/llama-cli -hf unsloth/gemma-3n-E4B-it-GGUF:UD-Q4_K_XL -ngl 99 --jinja --temp 0.0 รันประมาณนี้ นอกจากนี้ผมก็กำลังทำ เดโม Colab สำหรับ inference + finetuning อยู่ด้วย Gemma 3N รองรับทั้ง เสียง ข้อความ และภาพ เลยน่าประทับใจมาก รายละเอียดดูได้ที่ https://docs.unsloth.ai/basics/gemma-3n-how-to-run-and-fine-tune
    • ผมลองทดสอบโมเดล E4B บน Ollama แล้วพบว่าการตีความภาพ ทำงานผิดทั้งหมด เอาต์พุตอิงแต่ข้อความ และผิดแบบเดิมอย่างสม่ำเสมอ ขณะที่ Gemma 3 4B รุ่นปกติกลับทำได้ดี เลยคิดว่าน่าจะเป็นปัญหาของ Ollama พอไปดูเพิ่มก็พบว่าตอนนี้รองรับ เฉพาะข้อความ[1] อยากให้มีการแจ้งเรื่องนี้ให้ชัดกว่านี้หน่อย ผมขี้เกียจคอมไพล์ llama.cpp เอง เลยคงรอจนกว่า GGUF จะรองรับ [1]: https://github.com/ollama/ollama/issues/10792#issuecomment-3009619264
    • ผมกำลังจะพิมพ์ว่าจะลองใช้เวอร์ชันของ Unsloth แต่พอเห็นว่าคุณทำและปล่อยออกมาแล้วก็ต้องทึ่งเลย ยอดเยี่ยมมาก!
    • ขอบคุณมาก! อยากรู้ว่าถ้าจะรันโมเดลพวกนี้ต้องใช้ สเปก PC ประมาณไหน
    • อยากรู้ว่า jinja ในที่นี้หมายถึงอะไร
  • พูดตรง ๆ ผมสงสัยว่า โมเดลขนาดเล็ก พวกนี้จะช่วยงานใช้งานจริงได้อย่างไร ผมลองมาหลายแบบแล้ว และรู้สึกว่าโมเดลที่เล็กกว่า 27B ใช้งานได้ยากจะเกินระดับของเล่น คือตอบดีเป็นบางครั้งเท่านั้น ผมแก้ปัญหาตัวกรองสแปมด้วย gemma3:27b-it-qat และผล benchmark ของผมก็ยืนยันว่าประมาณระดับนั้นถึงจะใช้งานได้จริง
    • ถึง ความแม่นยำจะต่ำ ก็ยังมีที่ใช้งานจริงอยู่ ผมไม่รู้ว่าในอนาคตจะมีผลิตภัณฑ์แบบไหนออกมาอีก แต่ทุกวันนี้ก็มีตัวอย่างแล้ว เช่น โมเดลภาษาเล็ก บนคีย์บอร์ด iPhone ใช้แนะนำคำถัดไป (ผู้ใช้แค่เลือกคำที่แนะนำ) และยังมีการใช้โมเดลเล็กเพื่อเพิ่มความเร็วการอนุมานของโมเดลใหญ่แบบ speculative decoding ด้วย ต่อไปก็น่าจะมีกรณีใช้งานที่ฉลาดกว่านี้อีก
    • ถ้ามองโมเดลเล็กพวกนี้เป็น โครงสร้างพื้นฐาน ก็ถือว่าใช้ประโยชน์ได้มากพอ ผมหวังว่าสักวันจะมีอนาคตที่ โทรศัพท์มือถือส่วนใหญ่มี LLM ฝังมาในเครื่อง กลายเป็นสิ่งพื้นฐานเหมือนสาธารณูปโภค
    • วิธีใช้โมเดลเล็ก (<5bn params) ที่ดีที่สุดที่ผมเจอคือเป็น เครื่องมืออ้างอิงแบบออฟไลน์ ตอนเขียนโค้ดบนเครื่องบิน ผมลง qwen ไว้ใน MacBook Air แล้วใช้แทน Google เพื่อถามเรื่องไวยากรณ์ เอกสารประกอบ และคำถามพื้นฐานต่าง ๆ ซึ่งมีประโยชน์มาก
    • โมเดลเล็กระดับ 4b หรือต่ำกว่านั้นเหมาะมากกับ การ fine-tune สำหรับงานเฉพาะทาง และอาจให้ผลลัพธ์ดีกว่าโมเดลเชิงพาณิชย์ได้ในต้นทุนที่ต่ำมาก นอกจากนี้ยังดีสำหรับ code autocomplete ด้วย ส่วนโมเดล 7b~8b ก็โอเคกับงานเขียนโค้ดที่เร็วและง่าย เช่นการรีแฟกเตอร์โค้ด (ตัวอย่าง: "เพิ่มพรีฟิกซ์ ST_ ให้ชื่อฟังก์ชันทั้งหมดที่มี type argument เป็น SomeType") ตั้งแต่โมเดล 12b ขึ้นไปก็เริ่มสร้าง ประโยคที่สม่ำเสมอ ได้แล้ว เช่น Mistral Nemo หรือ Gemma 3 12b
  • Kevin Kwok สรุปการ reverse engineer โครงสร้างโมเดลไว้ดีมาก แนะนำให้ดู: https://github.com/antimatter15/reverse-engineering-gemma-3n
  • น่าจะต้องมีข้อมูลบนเว็บไซต์ Google สักที่ที่สรุป ชื่อผลิตภัณฑ์ คำอธิบาย และฟีเจอร์ ของแต่ละตัวเป็นตารางไว้
  • แกน Y ของกราฟวาดออกมาได้น่าขำมาก
  • มีใครรู้ไหมว่าถ้าใช้งาน เวอร์ชันสำหรับดีพลอย ของ gemma 3n จริง ๆ จะมีค่าใช้จ่ายเท่าไร ในเอกสารบอกว่าสามารถใช้ gemma 3n ผ่าน gemini api ได้ แต่ราคากลับแสดงแค่ว่า "unavailable"