Google เปิดตัวโมเดลโอเพน Gemma 4
(deepmind.google)- Google DeepMind ประกาศ Gemma 4 โมเดล AI แบบโอเพนรุ่นถัดไปที่สร้างบนเทคโนโลยี Gemini 3 โดยออกแบบสถาปัตยกรรมมาเพื่อเพิ่ม ประสิทธิภาพเชิงสติปัญญาต่อพารามิเตอร์ ให้สูงสุด
- โมเดลมีให้เลือก 4 ขนาดคือ E2B, E4B, 26B, 31B และรองรับการรันได้ครอบคลุมตั้งแต่ มือถือ·IoT ไปจนถึงสภาพแวดล้อม GPU ส่วนบุคคล
- มาพร้อมความสามารถหลัก เช่น การให้เหตุผลแบบมัลติโหมด, รองรับ 140 ภาษา, เวิร์กโฟลว์แบบเอเจนต์, การปรับจูนละเอียด, สถาปัตยกรรมที่มีประสิทธิภาพ
- ประสิทธิภาพในด้าน คณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด ดีขึ้นอย่างมากเมื่อเทียบกับ Gemma 3 และยังคง มาตรฐานด้านความปลอดภัย·ความน่าเชื่อถือ ในระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google
- สามารถดาวน์โหลดน้ำหนักโมเดลได้จาก Hugging Face, Ollama, Kaggle, LM Studio, Docker เป็นต้น และรองรับการรันแบบบูรณาการทั้งใน เครื่องโลคัลและคลาวด์
Gemma 4 — โมเดล AI แบบโอเพนเจเนอเรชันถัดไป
- Gemma 4 คือโมเดลโอเพนล่าสุดจาก Google DeepMind ที่พัฒนาขึ้นบนพื้นฐานของ งานวิจัยและเทคโนโลยีของ Gemini 3 โดยมีโครงสร้างที่มุ่งเพิ่ม ประสิทธิภาพเชิงสติปัญญาต่อพารามิเตอร์ (intelligence-per-parameter) ให้สูงสุด
- โมเดลมีให้เลือก 4 ขนาดคือ E2B, E4B, 26B, 31B และสามารถรันได้ในสภาพแวดล้อมหลากหลาย ตั้งแต่มือถือ·IoT ไปจนถึงเวิร์กสเตชันส่วนบุคคล
- ฟีเจอร์หลักประกอบด้วย การให้เหตุผลแบบมัลติโหมด, รองรับ 140 ภาษา, เวิร์กโฟลว์แบบเอเจนต์, การปรับจูนละเอียด, และ สถาปัตยกรรมที่มีประสิทธิภาพ
- ใน เบนช์มาร์กด้านประสิทธิภาพ โมเดลทำได้ดีกว่า Gemma 3 โดยรวม โดยเฉพาะในด้านคณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด
- มาตรฐานด้านความปลอดภัย·ความน่าเชื่อถือ ยังคงอยู่ในระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google และสามารถดาวน์โหลดน้ำหนักโมเดลได้จาก Hugging Face, Ollama, Kaggle, LM Studio, Docker เป็นต้น
องค์ประกอบของโมเดลและประสิทธิภาพ
- Gemma 4 ออกแบบบน เทคโนโลยีของ Gemini 3 และใช้โครงสร้างโมเดลโอเพนที่เน้น ประสิทธิภาพเชิงสติปัญญาสูงสุด
- ขนาดโมเดลแบ่งเป็น 4 เวอร์ชันคือ E2B, E4B, 26B, 31B โดยแต่ละเวอร์ชันถูกปรับให้เหมาะสมตาม ทรัพยากรคอมพิวต์และประสิทธิภาพหน่วยความจำ
- E2B·E4B: สำหรับอุปกรณ์มือถือและ IoT รองรับ ประสิทธิภาพสูงสุดและการรันแบบออฟไลน์
- 26B·31B: มอบ ความสามารถด้านการให้เหตุผลระดับแนวหน้า ในสภาพแวดล้อม GPU ส่วนบุคคล
ฟีเจอร์หลัก
-
Agentic workflows
- รองรับ function calling แบบเนทีฟ ทำให้สร้างเอเจนต์อัตโนมัติที่สามารถ วางแผน·สำรวจแอป·ทำงานแทนผู้ใช้ ได้
-
Multimodal reasoning
- ผสาน ความสามารถในการเข้าใจเสียงและภาพ เพื่อรองรับการพัฒนา แอปพลิเคชันแบบมัลติโหมด ที่หลากหลาย
-
Support for 140 languages
- ไม่ได้จำกัดแค่การแปลภาษา แต่สามารถสร้างประสบการณ์หลายภาษาที่รวมถึง ความเข้าใจบริบททางวัฒนธรรม ได้
-
Fine tuning
- ผู้ใช้สามารถทำ fine-tuning เพื่อเพิ่มประสิทธิภาพในงานเฉพาะได้ด้วยเฟรมเวิร์กและเทคนิคที่ต้องการ
-
Efficient architecture
- สามารถ รันบนฮาร์ดแวร์ของตนเอง ได้ พร้อมสภาพแวดล้อมที่มีประสิทธิภาพสำหรับการพัฒนาและดีพลอย
ประสิทธิภาพ
- Gemma 4 ถูกประเมินบนพื้นฐานของ ชุดข้อมูลและตัวชี้วัดที่เกี่ยวข้องกับการสร้างข้อความ ที่หลากหลาย
- ผลเบนช์มาร์กหลัก (อ้างอิง Gemma 4 31B IT):
- Arena AI (text): 1452 (เทียบกับ 1365 ของ Gemma 3 27B)
- MMMLU (ถาม-ตอบหลายภาษา): 85.2%
- MMMU Pro (การให้เหตุผลแบบมัลติโหมด): 76.9%
- AIME 2026 (คณิตศาสตร์): 89.2%
- LiveCodeBench v6 (โจทย์เขียนโค้ด): 80.0%
- GPQA Diamond (ความรู้วิทยาศาสตร์): 84.3%
- τ2-bench (การใช้เครื่องมือของเอเจนต์): 86.4%
- โดยรวมแล้วมี ประสิทธิภาพดีขึ้นในทุกหัวข้อ เมื่อเทียบกับ Gemma 3 โดยเฉพาะในด้าน คณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด
E2B และ E4B — สำหรับมือถือและ IoT
- รองรับ เสียง·วิชัน ทำให้สามารถ ประมวลผลแบบเรียลไทม์บนอุปกรณ์ edge ได้
- ให้การรันแบบ ออฟไลน์เต็มรูปแบบ และประสิทธิภาพ latency แทบเป็นศูนย์ บน สมาร์ตโฟน, Raspberry Pi, Jetson Nano เป็นต้น
- สามารถทดลองใช้งานได้ผ่าน Google AI Edge Gallery
26B และ 31B — AI โลคัลประสิทธิภาพสูง
- ให้ความสามารถด้านการให้เหตุผลขั้นสูง เหมาะกับ IDE, ผู้ช่วยเขียนโค้ด, เวิร์กโฟลว์แบบเอเจนต์
- ปรับแต่งให้เหมาะกับ GPU สำหรับผู้บริโภค ช่วยให้นักศึกษา·นักวิจัย·นักพัฒนาสามารถสร้าง สภาพแวดล้อมเซิร์ฟเวอร์ AI แบบโลคัล ได้
- สามารถรันได้โดยตรงใน Google AI Studio
ความปลอดภัยและความน่าเชื่อถือ
- Gemma 4 ใช้ โปรโตคอลความปลอดภัยของโครงสร้างพื้นฐาน ระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google
- มอบ ฐานที่โปร่งใสและเชื่อถือได้ สำหรับการใช้งานใน องค์กรและหน่วยงานภาครัฐ
- ตอบโจทย์ มาตรฐานความปลอดภัย·ความน่าเชื่อถือระดับสูงสุด พร้อมนำเสนอ ความสามารถ AI ล่าสุด
การดาวน์โหลดและการรัน
-
ดาวน์โหลดน้ำหนักโมเดล
- มีน้ำหนักโมเดล Gemma 4 ให้ใช้งานบน Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
-
การรองรับด้านการฝึกและดีพลอย
- รองรับการบูรณาการกับแพลตฟอร์มต่าง ๆ เช่น Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
- สามารถตั้งค่าสภาพแวดล้อมสำหรับ การฝึก·การดีพลอย·การอนุมาน ได้ผ่านเอกสารทางการและ API
ชุมชน Gemmaverse
- ผ่าน Gemmaverse ผู้พัฒนาทั่วโลกสามารถสำรวจโปรเจกต์ที่สร้างด้วย Gemma ได้
- Google DeepMind ให้ข้อมูลอัปเดตล่าสุดผ่านช่องทาง X, Instagram, YouTube, LinkedIn, GitHub
- สามารถสมัครรับข้อมูลเพื่อรับ ข่าวสารนวัตกรรม AI ล่าสุด ได้
2 ความคิดเห็น
ความเห็นจาก Hacker News
มีการเผยแพร่ Gemma 4 เวอร์ชันที่รวมความสามารถด้าน reasoning, multimodal และการเรียกใช้เครื่องมือไว้ด้วยกัน
สามารถดาวน์โหลดโมเดลที่ถูก quantize ได้จาก Hugging Face collection และมี คู่มือ Unsloth ให้ด้วย
พารามิเตอร์ที่แนะนำคือ temperature=1.0, top_p=0.95, top_k=64, EOS คือ
"และ thinking trace ใช้<|channel>thought\nฉันสร้าง pipeline สำหรับ OCR·embedding·สรุปผล เพื่อทำให้สามารถค้นหาบันทึกที่ดินในช่วงคริสต์ศตวรรษที่ 1800 ได้
ด้วย GGUF และ llama.cpp ทำให้ค้นหาได้หลายภาษา และเวลารอประมวลผล 1 นาทีก็ไม่รู้สึกว่าเป็นปัญหาอะไร
--reasoning-budget 0หรือ--chat-template-kwargs '{"enable_thinking":false}'ใช้งานไม่ได้สุดท้ายพบว่าต้องใช้แฟลกใหม่
--reasoning offทดสอบ unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL บน MacBook Air M4(32GB) แล้วรู้สึกว่าประทับใจกว่า qwen3.5-35b-a3b มาก
PowerShell ติดตั้งหลายคอมโพเนนต์แล้วสั่งให้เปิด URL
localhostแต่หลังจากนั้นก็ล้มเหลวทันทีฉันไม่ใช่นักพัฒนาและไม่คุ้นกับ PowerShell เลยทำได้ยาก และอยากให้แจกจ่ายเป็น ไฟล์รันเดี่ยว (.exe) มากกว่า
ได้ทดสอบโมเดล Gemma 4 ใน LM Studio
โมเดล 2B·4B ให้ภาพนกเพลิแกนแปลก ๆ ส่วนโมเดล 26B-A4B ให้ผลลัพธ์ที่ดีที่สุดเท่าที่เคยเห็นมา
มีการแชร์ ผลการทดสอบ
โมเดล 31B บนเครื่องโลคัลพิมพ์แค่ "---\n" แต่ใน AI Studio API กลับทำงานได้ตามปกติ
เช่น clocks.brianmoore.com
มีการจัดตารางเปรียบเทียบ benchmark ของ Gemma 4 กับ Qwen 3.5
รวมตัวชี้วัดหลากหลายอย่าง เช่น MMLU-Pro, GPQA, Codeforces ELO
มีบางส่วนที่ผลลัพธ์กลับด้านเมื่อเทียบ Qwen 3.5-27B กับ Gemma 4 26B/31B
ทีม Unsloth ปล่อย GGUF ออกมาได้เร็วมากจนน่าประทับใจ และถ้า อยู่ระดับเดียวกับ Qwen 3.5 ก็ถือว่าน่าตื่นเต้นมาก
โมเดล Gemma ขนาดเล็กอ่อนกว่ารุ่นเล็กของ Qwen มาก
ดู Qwen3.5-4B และ เธรด Reddit เกี่ยวกับ Gemma 4 ประกอบ
ฉันเป็นหนึ่งในทีม Gemma และมีส่วนร่วมกับการออก major release ครั้งนี้
ถ้ามีคำถามก็ยินดีตอบ
ดู บล็อกที่เกี่ยวข้อง ได้
เดิมคาดหวังโมเดลระดับกลางที่จะแข่งกับ Qwen3.5 9B
หรือ benchmark เองอาจทำให้ การเปรียบเทียบบิดเบือน หรือไม่
ลิงก์เปรียบเทียบ
มีการเปรียบเทียบ Gemma 4 กับ Qwen 3.5 ด้วยพรอมป์ต์คำนวณ Unix timestamp
Qwen ใช้เวลาคิดเกิน 8 นาทีแล้วตอบถูก ส่วน Gemma ใช้ 30 วินาทีแต่ตอบผิด
Gemma เขียนสคริปต์ Python แต่รันไม่ได้ เลยตอบผิด
ไม่อย่างนั้นก็ทำได้แค่เดา
dateทำงานถูกต้องในสภาพแวดล้อม GNUบน macOS ต้องติดตั้ง
gdate(brew install coreutils)ดู ลิงก์ gist
ผลที่ได้จึงเป็นแค่การ “จินตนาการ” ว่ารันแล้ว
MAX nightly ของ Modular เป็น implementation แบบโอเพนซอร์สที่เร็วที่สุดบน Blackwell และ AMD MI355
ติดตั้งผ่าน pip ได้ทันทีจาก บล็อกของ Modular
benchmark ของ Gemma 4 ที่เน้น ELO เป็นหลักนั้น ชวนให้เข้าใจผิดได้
เพราะในหลายตัวชี้วัดยังด้อยกว่า Qwen 3.5 27B
แต่โมเดล 2B·4B ก็น่าสนใจสำหรับงาน ASR หรือ OCR
ฉันเชื่อคะแนน Lmarena (อิงการประเมินโดยมนุษย์) มากกว่า
ลิงก์เปรียบเทียบ
ในที่สุด release ที่รอก็มาถึง
ถ้าได้ปรับปรุงอีกแค่หนึ่งหรือสองรอบ ก็น่าจะตอบโจทย์ความต้องการส่วนใหญ่ในสภาพแวดล้อม self-hosting ได้แล้ว
แต่ก่อนแค่ถามตอบง่าย ๆ ก็พอ แต่ตอนนี้เริ่มคาดหวังระดับ coding agent แล้ว
โมเดลเปิดยังไปไม่ถึงจุดนั้น แต่ release นี้ก็น่าคาดหวัง
ใช้จัดการงานแปล การจำแนก และการจัดหมวดหมู่เกือบทั้งหมด
จุดที่ดีที่สุดของ release นี้คือ ไลเซนส์ Apache 2.0
มีโมเดล E2B·E4B(สำหรับมือถือ), 26B-A4B(MoE), 31B(dense ขนาดใหญ่)
เวอร์ชันมือถือรองรับ อินพุตเสียง และ 31B เด่นด้านงาน agent
ส่วน 26B-A4B ใช้ VRAM ใกล้เคียงกันแต่ทำ inference ได้เร็วกว่ามาก
มีการให้ Gemma 4 26B กับ Qwen 3.5 27B ทำโปรเจ็กต์ Rust ขนาดเล็กแล้วเปรียบเทียบกัน
Qwen ใช้เวลากว่าหนึ่งชั่วโมง ส่วน Gemma ยอมแพ้ใน 20 นาที
จากสรุปของ Codex, Qwen มี ความสมบูรณ์เชิงโครงสร้าง สูงกว่า ส่วน Gemma เร็วกว่าแต่ยังไม่เสร็จสมบูรณ์
ฉันเองก็เห็นด้วยกับการประเมินนั้น
ดู PR ที่เกี่ยวข้อง และ issue
ยังไม่ควรรีบตัดสินจากช่วงเปิดตัวแรก ๆ
ส่วน 26B-A4B ควรเทียบกับ Qwen 3.5 35B-A3B
ข่าวลือเรื่อง 120b น่าเสียดายที่ไม่เป็นความจริง