Google เปิดตัวโมเดลโอเพน Gemma 4

(deepmind.google)

10 คะแนน โดย GN⁺ 27 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Google DeepMind ประกาศ Gemma 4 โมเดล AI แบบโอเพนรุ่นถัดไปที่สร้างบนเทคโนโลยี Gemini 3 โดยออกแบบสถาปัตยกรรมมาเพื่อเพิ่ม ประสิทธิภาพเชิงสติปัญญาต่อพารามิเตอร์ ให้สูงสุด
โมเดลมีให้เลือก 4 ขนาดคือ E2B, E4B, 26B, 31B และรองรับการรันได้ครอบคลุมตั้งแต่ มือถือ·IoT ไปจนถึงสภาพแวดล้อม GPU ส่วนบุคคล
มาพร้อมความสามารถหลัก เช่น การให้เหตุผลแบบมัลติโหมด, รองรับ 140 ภาษา, เวิร์กโฟลว์แบบเอเจนต์, การปรับจูนละเอียด, สถาปัตยกรรมที่มีประสิทธิภาพ
ประสิทธิภาพในด้าน คณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด ดีขึ้นอย่างมากเมื่อเทียบกับ Gemma 3 และยังคง มาตรฐานด้านความปลอดภัย·ความน่าเชื่อถือ ในระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google
สามารถดาวน์โหลดน้ำหนักโมเดลได้จาก Hugging Face, Ollama, Kaggle, LM Studio, Docker เป็นต้น และรองรับการรันแบบบูรณาการทั้งใน เครื่องโลคัลและคลาวด์

Gemma 4 — โมเดล AI แบบโอเพนเจเนอเรชันถัดไป

Gemma 4 คือโมเดลโอเพนล่าสุดจาก Google DeepMind ที่พัฒนาขึ้นบนพื้นฐานของ งานวิจัยและเทคโนโลยีของ Gemini 3 โดยมีโครงสร้างที่มุ่งเพิ่ม ประสิทธิภาพเชิงสติปัญญาต่อพารามิเตอร์ (intelligence-per-parameter) ให้สูงสุด
โมเดลมีให้เลือก 4 ขนาดคือ E2B, E4B, 26B, 31B และสามารถรันได้ในสภาพแวดล้อมหลากหลาย ตั้งแต่มือถือ·IoT ไปจนถึงเวิร์กสเตชันส่วนบุคคล
ฟีเจอร์หลักประกอบด้วย การให้เหตุผลแบบมัลติโหมด, รองรับ 140 ภาษา, เวิร์กโฟลว์แบบเอเจนต์, การปรับจูนละเอียด, และ สถาปัตยกรรมที่มีประสิทธิภาพ
ใน เบนช์มาร์กด้านประสิทธิภาพ โมเดลทำได้ดีกว่า Gemma 3 โดยรวม โดยเฉพาะในด้านคณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด
มาตรฐานด้านความปลอดภัย·ความน่าเชื่อถือ ยังคงอยู่ในระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google และสามารถดาวน์โหลดน้ำหนักโมเดลได้จาก Hugging Face, Ollama, Kaggle, LM Studio, Docker เป็นต้น

องค์ประกอบของโมเดลและประสิทธิภาพ

Gemma 4 ออกแบบบน เทคโนโลยีของ Gemini 3 และใช้โครงสร้างโมเดลโอเพนที่เน้น ประสิทธิภาพเชิงสติปัญญาสูงสุด
ขนาดโมเดลแบ่งเป็น 4 เวอร์ชันคือ E2B, E4B, 26B, 31B โดยแต่ละเวอร์ชันถูกปรับให้เหมาะสมตาม ทรัพยากรคอมพิวต์และประสิทธิภาพหน่วยความจำ
- E2B·E4B: สำหรับอุปกรณ์มือถือและ IoT รองรับ ประสิทธิภาพสูงสุดและการรันแบบออฟไลน์
- 26B·31B: มอบ ความสามารถด้านการให้เหตุผลระดับแนวหน้า ในสภาพแวดล้อม GPU ส่วนบุคคล

ฟีเจอร์หลัก

Agentic workflows
- รองรับ function calling แบบเนทีฟ ทำให้สร้างเอเจนต์อัตโนมัติที่สามารถ วางแผน·สำรวจแอป·ทำงานแทนผู้ใช้ ได้
Multimodal reasoning
- ผสาน ความสามารถในการเข้าใจเสียงและภาพ เพื่อรองรับการพัฒนา แอปพลิเคชันแบบมัลติโหมด ที่หลากหลาย
Support for 140 languages
- ไม่ได้จำกัดแค่การแปลภาษา แต่สามารถสร้างประสบการณ์หลายภาษาที่รวมถึง ความเข้าใจบริบททางวัฒนธรรม ได้
Fine tuning
- ผู้ใช้สามารถทำ fine-tuning เพื่อเพิ่มประสิทธิภาพในงานเฉพาะได้ด้วยเฟรมเวิร์กและเทคนิคที่ต้องการ
Efficient architecture
- สามารถ รันบนฮาร์ดแวร์ของตนเอง ได้ พร้อมสภาพแวดล้อมที่มีประสิทธิภาพสำหรับการพัฒนาและดีพลอย

ประสิทธิภาพ

Gemma 4 ถูกประเมินบนพื้นฐานของ ชุดข้อมูลและตัวชี้วัดที่เกี่ยวข้องกับการสร้างข้อความ ที่หลากหลาย
ผลเบนช์มาร์กหลัก (อ้างอิง Gemma 4 31B IT):
- Arena AI (text): 1452 (เทียบกับ 1365 ของ Gemma 3 27B)
- MMMLU (ถาม-ตอบหลายภาษา): 85.2%
- MMMU Pro (การให้เหตุผลแบบมัลติโหมด): 76.9%
- AIME 2026 (คณิตศาสตร์): 89.2%
- LiveCodeBench v6 (โจทย์เขียนโค้ด): 80.0%
- GPQA Diamond (ความรู้วิทยาศาสตร์): 84.3%
- τ2-bench (การใช้เครื่องมือของเอเจนต์): 86.4%
โดยรวมแล้วมี ประสิทธิภาพดีขึ้นในทุกหัวข้อ เมื่อเทียบกับ Gemma 3 โดยเฉพาะในด้าน คณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด

E2B และ E4B — สำหรับมือถือและ IoT

รองรับ เสียง·วิชัน ทำให้สามารถ ประมวลผลแบบเรียลไทม์บนอุปกรณ์ edge ได้
ให้การรันแบบ ออฟไลน์เต็มรูปแบบ และประสิทธิภาพ latency แทบเป็นศูนย์ บน สมาร์ตโฟน, Raspberry Pi, Jetson Nano เป็นต้น
สามารถทดลองใช้งานได้ผ่าน Google AI Edge Gallery

26B และ 31B — AI โลคัลประสิทธิภาพสูง

ให้ความสามารถด้านการให้เหตุผลขั้นสูง เหมาะกับ IDE, ผู้ช่วยเขียนโค้ด, เวิร์กโฟลว์แบบเอเจนต์
ปรับแต่งให้เหมาะกับ GPU สำหรับผู้บริโภค ช่วยให้นักศึกษา·นักวิจัย·นักพัฒนาสามารถสร้าง สภาพแวดล้อมเซิร์ฟเวอร์ AI แบบโลคัล ได้
สามารถรันได้โดยตรงใน Google AI Studio

ความปลอดภัยและความน่าเชื่อถือ

Gemma 4 ใช้ โปรโตคอลความปลอดภัยของโครงสร้างพื้นฐาน ระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google
มอบ ฐานที่โปร่งใสและเชื่อถือได้ สำหรับการใช้งานใน องค์กรและหน่วยงานภาครัฐ
ตอบโจทย์ มาตรฐานความปลอดภัย·ความน่าเชื่อถือระดับสูงสุด พร้อมนำเสนอ ความสามารถ AI ล่าสุด

การดาวน์โหลดและการรัน

ดาวน์โหลดน้ำหนักโมเดล
- มีน้ำหนักโมเดล Gemma 4 ให้ใช้งานบน Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
การรองรับด้านการฝึกและดีพลอย
- รองรับการบูรณาการกับแพลตฟอร์มต่าง ๆ เช่น Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
- สามารถตั้งค่าสภาพแวดล้อมสำหรับ การฝึก·การดีพลอย·การอนุมาน ได้ผ่านเอกสารทางการและ API

ชุมชน Gemmaverse

ผ่าน Gemmaverse ผู้พัฒนาทั่วโลกสามารถสำรวจโปรเจกต์ที่สร้างด้วย Gemma ได้
Google DeepMind ให้ข้อมูลอัปเดตล่าสุดผ่านช่องทาง X, Instagram, YouTube, LinkedIn, GitHub
สามารถสมัครรับข้อมูลเพื่อรับ ข่าวสารนวัตกรรม AI ล่าสุด ได้

2 ความคิดเห็น

GN⁺ 27 일 전

ความเห็นจาก Hacker News

มีการเผยแพร่ Gemma 4 เวอร์ชันที่รวมความสามารถด้าน reasoning, multimodal และการเรียกใช้เครื่องมือไว้ด้วยกัน
สามารถดาวน์โหลดโมเดลที่ถูก quantize ได้จาก Hugging Face collection และมี คู่มือ Unsloth ให้ด้วย
พารามิเตอร์ที่แนะนำคือ temperature=1.0, top_p=0.95, top_k=64, EOS คือ " และ thinking trace ใช้ <|channel>thought\n
- งานของ Daniel กำลังเปลี่ยนโลก
  ฉันสร้าง pipeline สำหรับ OCR·embedding·สรุปผล เพื่อทำให้สามารถค้นหาบันทึกที่ดินในช่วงคริสต์ศตวรรษที่ 1800 ได้
  ด้วย GGUF และ llama.cpp ทำให้ค้นหาได้หลายภาษา และเวลารอประมวลผล 1 นาทีก็ไม่รู้สึกว่าเป็นปัญหาอะไร
- พยายามปิด “thinking” ใน llama.cpp แต่ --reasoning-budget 0 หรือ --chat-template-kwargs '{"enable_thinking":false}' ใช้งานไม่ได้
  สุดท้ายพบว่าต้องใช้แฟลกใหม่ --reasoning off
  ทดสอบ unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL บน MacBook Air M4(32GB) แล้วรู้สึกว่าประทับใจกว่า qwen3.5-35b-a3b มาก
- ภาพหน้าจอในขั้นตอน “Search and download Gemma 4” ของคู่มือกลับเป็นของ qwen3.5 และใน Unsloth Studio ก็เห็นแค่โมเดล Gemma 3
- เป็นคำถามมือใหม่ แต่สงสัยว่าทำไมถึงควรใช้เวอร์ชันนี้แทนโมเดลต้นฉบับ
- ตอนติดตั้ง Gemma 4 ด้วย Unsloth บน Windows 11 เกิดข้อผิดพลาดในขั้นตอนตั้งรหัสผ่าน
  PowerShell ติดตั้งหลายคอมโพเนนต์แล้วสั่งให้เปิด URL localhost แต่หลังจากนั้นก็ล้มเหลวทันที
  ฉันไม่ใช่นักพัฒนาและไม่คุ้นกับ PowerShell เลยทำได้ยาก และอยากให้แจกจ่ายเป็น ไฟล์รันเดี่ยว (.exe) มากกว่า
ได้ทดสอบโมเดล Gemma 4 ใน LM Studio
โมเดล 2B·4B ให้ภาพนกเพลิแกนแปลก ๆ ส่วนโมเดล 26B-A4B ให้ผลลัพธ์ที่ดีที่สุดเท่าที่เคยเห็นมา
มีการแชร์ ผลการทดสอบ
โมเดล 31B บนเครื่องโลคัลพิมพ์แค่ "---\n" แต่ใน AI Studio API กลับทำงานได้ตามปกติ
- เพราะ benchmark นกเพลิแกน ทำให้ทุกครั้งที่มีการออกโมเดลใหม่ ฉันต้องเข้าไปดูคอมเมนต์ใน Hacker News ตลอด
- สงสัยว่านกเพลิแกนอาจกลายเป็นส่วนหนึ่งของ ข้อมูลฝึก ไปแล้วหรือเปล่า
- อยากให้มี หน้าแกลเลอรี ที่ดูภาพนกเพลิแกนทั้งหมดได้ในที่เดียว
  เช่น clocks.brianmoore.com
- ถ้าใช้เวอร์ชัน instruction-tuned คุณภาพของนกเพลิแกนน่าจะดีขึ้นมาก
- อยากรู้ว่าใช้ สเปกโน้ตบุ๊ก แบบไหนในการรัน
มีการจัดตารางเปรียบเทียบ benchmark ของ Gemma 4 กับ Qwen 3.5
รวมตัวชี้วัดหลากหลายอย่าง เช่น MMLU-Pro, GPQA, Codeforces ELO
- คะแนน ELO แตกต่างจากกราฟของ tfa มาก
  มีบางส่วนที่ผลลัพธ์กลับด้านเมื่อเทียบ Qwen 3.5-27B กับ Gemma 4 26B/31B
  ทีม Unsloth ปล่อย GGUF ออกมาได้เร็วมากจนน่าประทับใจ และถ้า อยู่ระดับเดียวกับ Qwen 3.5 ก็ถือว่าน่าตื่นเต้นมาก
- คนที่มี GPU 24GB ดูตารางนี้แล้วก็ยังไม่ค่อยแน่ใจว่าควรเลือกโมเดลไหน
- การกลับแกนและลบบางโมเดลออกจากการเปรียบเทียบอาจทำให้ เกิดความเข้าใจผิดได้
  โมเดล Gemma ขนาดเล็กอ่อนกว่ารุ่นเล็กของ Qwen มาก
  ดู Qwen3.5-4B และ เธรด Reddit เกี่ยวกับ Gemma 4 ประกอบ
ฉันเป็นหนึ่งในทีม Gemma และมีส่วนร่วมกับการออก major release ครั้งนี้
ถ้ามีคำถามก็ยินดีตอบ
- อยากรู้ว่ามีแผนจะออกเวอร์ชัน QAT (quantization aware training) แบบเดียวกับ Gemma 3 หรือไม่
  ดู บล็อกที่เกี่ยวข้อง ได้
- สงสัยว่าทำไมรอบนี้ถึงไม่มีเวอร์ชัน 12B
  เดิมคาดหวังโมเดลระดับกลางที่จะแข่งกับ Qwen3.5 9B
- สงสัยว่า “major number release” หมายถึง การเพิ่มขนาดทรัพยากรคำนวณ จริง ๆ หรือหมายถึงการเปลี่ยนไปใช้สถาปัตยกรรมใหม่
- มีคำถามว่าทำไมประสิทธิภาพใน benchmark อื่น ๆ ถึงออกมาต่ำกว่า ELO score
  หรือ benchmark เองอาจทำให้ การเปรียบเทียบบิดเบือน หรือไม่
- จากการทดสอบส่วนตัว ประสิทธิภาพใกล้เคียง Gemini 3 Pro มาก และ ต้นทุนถูกกว่า 10 เท่า
  ลิงก์เปรียบเทียบ
มีการเปรียบเทียบ Gemma 4 กับ Qwen 3.5 ด้วยพรอมป์ต์คำนวณ Unix timestamp
Qwen ใช้เวลาคิดเกิน 8 นาทีแล้วตอบถูก ส่วน Gemma ใช้ 30 วินาทีแต่ตอบผิด
Gemma เขียนสคริปต์ Python แต่รันไม่ได้ เลยตอบผิด
- ถ้าจะให้โมเดลรันโค้ดจริง ต้องมีสภาพแวดล้อม agentic harness พร้อม sandbox และสเปกที่ชัดเจน
  ไม่อย่างนั้นก็ทำได้แค่เดา
- คำสั่ง date ทำงานถูกต้องในสภาพแวดล้อม GNU
  บน macOS ต้องติดตั้ง gdate (brew install coreutils)
- ในสภาพแวดล้อม RX 9070 XT(24GB VRAM) ก็ได้ผลลัพธ์ถูกต้องแม้รันโดยไม่ใช้เครื่องมือ
  ดู ลิงก์ gist
- ผู้เขียนคอมเมนต์ต้นฉบับไม่ได้ให้สิทธิ์โมเดลในการรันคำสั่งจริง
  ผลที่ได้จึงเป็นแค่การ “จินตนาการ” ว่ารันแล้ว
- ประโยคสุดท้ายตลกดี
MAX nightly ของ Modular เป็น implementation แบบโอเพนซอร์สที่เร็วที่สุดบน Blackwell และ AMD MI355
ติดตั้งผ่าน pip ได้ทันทีจาก บล็อกของ Modular
- มีคนถามว่าเร็วกกว่า TensorRT-LLM หรือไม่ หรือเพราะอะไรถึงไม่นับ TensorRT-LLM เป็นโอเพนซอร์ส
- อยากรู้ว่าเมื่อเทียบกับ PyTorch แล้ว อัตราเพิ่มความเร็ว อยู่ประมาณไหน
benchmark ของ Gemma 4 ที่เน้น ELO เป็นหลักนั้น ชวนให้เข้าใจผิดได้
เพราะในหลายตัวชี้วัดยังด้อยกว่า Qwen 3.5 27B
แต่โมเดล 2B·4B ก็น่าสนใจสำหรับงาน ASR หรือ OCR
- benchmark สาธารณะปรับแต่งได้ง่าย
  ฉันเชื่อคะแนน Lmarena (อิงการประเมินโดยมนุษย์) มากกว่า
- จากการทดสอบส่วนตัว ผลลัพธ์ค่อนข้างดีในด้านที่ไม่ใช่งานเขียนโค้ด
  ลิงก์เปรียบเทียบ
- โมเดลจากจีนมีผลลัพธ์ต่ำในชุดทดสอบปิดอย่าง arc-agi 2
- benchmark เอาไว้ดูเป็นแนวทางเท่านั้น วิธีที่แม่นที่สุดคือทดสอบกับ use case จริงของตัวเอง
- ยังไม่ชัดเจนว่า “ELO Score” หมายถึงตัวชี้วัดอะไรแน่
ในที่สุด release ที่รอก็มาถึง
ถ้าได้ปรับปรุงอีกแค่หนึ่งหรือสองรอบ ก็น่าจะตอบโจทย์ความต้องการส่วนใหญ่ในสภาพแวดล้อม self-hosting ได้แล้ว
- ฉันก็เห็นด้วย แต่ “ความต้องการในชีวิตประจำวัน” ของฉันซับซ้อนขึ้นทุกปี
  แต่ก่อนแค่ถามตอบง่าย ๆ ก็พอ แต่ตอนนี้เริ่มคาดหวังระดับ coding agent แล้ว
  โมเดลเปิดยังไปไม่ถึงจุดนั้น แต่ release นี้ก็น่าคาดหวัง
- Gemma3:27b และ Qwen3-vl:30b-a3b คือ local LLM ที่ฉันใช้บ่อยที่สุด
  ใช้จัดการงานแปล การจำแนก และการจัดหมวดหมู่เกือบทั้งหมด
- อยากรู้ว่าเอา self-hosting ไปใช้กับงานประเภทไหนบ้าง
จุดที่ดีที่สุดของ release นี้คือ ไลเซนส์ Apache 2.0
มีโมเดล E2B·E4B(สำหรับมือถือ), 26B-A4B(MoE), 31B(dense ขนาดใหญ่)
เวอร์ชันมือถือรองรับ อินพุตเสียง และ 31B เด่นด้านงาน agent
ส่วน 26B-A4B ใช้ VRAM ใกล้เคียงกันแต่ทำ inference ได้เร็วกว่ามาก
มีการให้ Gemma 4 26B กับ Qwen 3.5 27B ทำโปรเจ็กต์ Rust ขนาดเล็กแล้วเปรียบเทียบกัน
Qwen ใช้เวลากว่าหนึ่งชั่วโมง ส่วน Gemma ยอมแพ้ใน 20 นาที
จากสรุปของ Codex, Qwen มี ความสมบูรณ์เชิงโครงสร้าง สูงกว่า ส่วน Gemma เร็วกว่าแต่ยังไม่เสร็จสมบูรณ์
ฉันเองก็เห็นด้วยกับการประเมินนั้น
- ตอนนี้มี บั๊ก chat template ทำให้การเรียกใช้เครื่องมือยังไม่เสถียร
  ดู PR ที่เกี่ยวข้อง และ issue
  ยังไม่ควรรีบตัดสินจากช่วงเปิดตัวแรก ๆ
- Qwen 3.5 27B เป็นโมเดล dense ดังนั้นควรเทียบกับ Gemma 4 31B มากกว่า
  ส่วน 26B-A4B ควรเทียบกับ Qwen 3.5 35B-A3B
- Qwen เป็น dense ส่วน Gemma เป็นโครงสร้าง MoE จึง เปรียบเทียบตรง ๆ ได้ยาก

eoeoe 27 일 전

ข่าวลือเรื่อง 120b น่าเสียดายที่ไม่เป็นความจริง

Google เปิดตัวโมเดลโอเพน Gemma 4

Gemma 4 — โมเดล AI แบบโอเพนเจเนอเรชันถัดไป

องค์ประกอบของโมเดลและประสิทธิภาพ

ฟีเจอร์หลัก

Agentic workflows

Multimodal reasoning

Support for 140 languages

Fine tuning

Efficient architecture

ประสิทธิภาพ

E2B และ E4B — สำหรับมือถือและ IoT

26B และ 31B — AI โลคัลประสิทธิภาพสูง

ความปลอดภัยและความน่าเชื่อถือ

การดาวน์โหลดและการรัน

ดาวน์โหลดน้ำหนักโมเดล

การรองรับด้านการฝึกและดีพลอย

ชุมชน Gemmaverse

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความเห็นจาก Hacker News