10 คะแนน โดย GN⁺ 27 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Google DeepMind ประกาศ Gemma 4 โมเดล AI แบบโอเพนรุ่นถัดไปที่สร้างบนเทคโนโลยี Gemini 3 โดยออกแบบสถาปัตยกรรมมาเพื่อเพิ่ม ประสิทธิภาพเชิงสติปัญญาต่อพารามิเตอร์ ให้สูงสุด
  • โมเดลมีให้เลือก 4 ขนาดคือ E2B, E4B, 26B, 31B และรองรับการรันได้ครอบคลุมตั้งแต่ มือถือ·IoT ไปจนถึงสภาพแวดล้อม GPU ส่วนบุคคล
  • มาพร้อมความสามารถหลัก เช่น การให้เหตุผลแบบมัลติโหมด, รองรับ 140 ภาษา, เวิร์กโฟลว์แบบเอเจนต์, การปรับจูนละเอียด, สถาปัตยกรรมที่มีประสิทธิภาพ
  • ประสิทธิภาพในด้าน คณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด ดีขึ้นอย่างมากเมื่อเทียบกับ Gemma 3 และยังคง มาตรฐานด้านความปลอดภัย·ความน่าเชื่อถือ ในระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google
  • สามารถดาวน์โหลดน้ำหนักโมเดลได้จาก Hugging Face, Ollama, Kaggle, LM Studio, Docker เป็นต้น และรองรับการรันแบบบูรณาการทั้งใน เครื่องโลคัลและคลาวด์

Gemma 4 — โมเดล AI แบบโอเพนเจเนอเรชันถัดไป

  • Gemma 4 คือโมเดลโอเพนล่าสุดจาก Google DeepMind ที่พัฒนาขึ้นบนพื้นฐานของ งานวิจัยและเทคโนโลยีของ Gemini 3 โดยมีโครงสร้างที่มุ่งเพิ่ม ประสิทธิภาพเชิงสติปัญญาต่อพารามิเตอร์ (intelligence-per-parameter) ให้สูงสุด
  • โมเดลมีให้เลือก 4 ขนาดคือ E2B, E4B, 26B, 31B และสามารถรันได้ในสภาพแวดล้อมหลากหลาย ตั้งแต่มือถือ·IoT ไปจนถึงเวิร์กสเตชันส่วนบุคคล
  • ฟีเจอร์หลักประกอบด้วย การให้เหตุผลแบบมัลติโหมด, รองรับ 140 ภาษา, เวิร์กโฟลว์แบบเอเจนต์, การปรับจูนละเอียด, และ สถาปัตยกรรมที่มีประสิทธิภาพ
  • ใน เบนช์มาร์กด้านประสิทธิภาพ โมเดลทำได้ดีกว่า Gemma 3 โดยรวม โดยเฉพาะในด้านคณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด
  • มาตรฐานด้านความปลอดภัย·ความน่าเชื่อถือ ยังคงอยู่ในระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google และสามารถดาวน์โหลดน้ำหนักโมเดลได้จาก Hugging Face, Ollama, Kaggle, LM Studio, Docker เป็นต้น

องค์ประกอบของโมเดลและประสิทธิภาพ

  • Gemma 4 ออกแบบบน เทคโนโลยีของ Gemini 3 และใช้โครงสร้างโมเดลโอเพนที่เน้น ประสิทธิภาพเชิงสติปัญญาสูงสุด
  • ขนาดโมเดลแบ่งเป็น 4 เวอร์ชันคือ E2B, E4B, 26B, 31B โดยแต่ละเวอร์ชันถูกปรับให้เหมาะสมตาม ทรัพยากรคอมพิวต์และประสิทธิภาพหน่วยความจำ
    • E2B·E4B: สำหรับอุปกรณ์มือถือและ IoT รองรับ ประสิทธิภาพสูงสุดและการรันแบบออฟไลน์
    • 26B·31B: มอบ ความสามารถด้านการให้เหตุผลระดับแนวหน้า ในสภาพแวดล้อม GPU ส่วนบุคคล

ฟีเจอร์หลัก

  • Agentic workflows

    • รองรับ function calling แบบเนทีฟ ทำให้สร้างเอเจนต์อัตโนมัติที่สามารถ วางแผน·สำรวจแอป·ทำงานแทนผู้ใช้ ได้
  • Multimodal reasoning

    • ผสาน ความสามารถในการเข้าใจเสียงและภาพ เพื่อรองรับการพัฒนา แอปพลิเคชันแบบมัลติโหมด ที่หลากหลาย
  • Support for 140 languages

    • ไม่ได้จำกัดแค่การแปลภาษา แต่สามารถสร้างประสบการณ์หลายภาษาที่รวมถึง ความเข้าใจบริบททางวัฒนธรรม ได้
  • Fine tuning

    • ผู้ใช้สามารถทำ fine-tuning เพื่อเพิ่มประสิทธิภาพในงานเฉพาะได้ด้วยเฟรมเวิร์กและเทคนิคที่ต้องการ
  • Efficient architecture

    • สามารถ รันบนฮาร์ดแวร์ของตนเอง ได้ พร้อมสภาพแวดล้อมที่มีประสิทธิภาพสำหรับการพัฒนาและดีพลอย

ประสิทธิภาพ

  • Gemma 4 ถูกประเมินบนพื้นฐานของ ชุดข้อมูลและตัวชี้วัดที่เกี่ยวข้องกับการสร้างข้อความ ที่หลากหลาย
  • ผลเบนช์มาร์กหลัก (อ้างอิง Gemma 4 31B IT):
    • Arena AI (text): 1452 (เทียบกับ 1365 ของ Gemma 3 27B)
    • MMMLU (ถาม-ตอบหลายภาษา): 85.2%
    • MMMU Pro (การให้เหตุผลแบบมัลติโหมด): 76.9%
    • AIME 2026 (คณิตศาสตร์): 89.2%
    • LiveCodeBench v6 (โจทย์เขียนโค้ด): 80.0%
    • GPQA Diamond (ความรู้วิทยาศาสตร์): 84.3%
    • τ2-bench (การใช้เครื่องมือของเอเจนต์): 86.4%
  • โดยรวมแล้วมี ประสิทธิภาพดีขึ้นในทุกหัวข้อ เมื่อเทียบกับ Gemma 3 โดยเฉพาะในด้าน คณิตศาสตร์·การเขียนโค้ด·ความเข้าใจมัลติโหมด

E2B และ E4B — สำหรับมือถือและ IoT

  • รองรับ เสียง·วิชัน ทำให้สามารถ ประมวลผลแบบเรียลไทม์บนอุปกรณ์ edge ได้
  • ให้การรันแบบ ออฟไลน์เต็มรูปแบบ และประสิทธิภาพ latency แทบเป็นศูนย์ บน สมาร์ตโฟน, Raspberry Pi, Jetson Nano เป็นต้น
  • สามารถทดลองใช้งานได้ผ่าน Google AI Edge Gallery

26B และ 31B — AI โลคัลประสิทธิภาพสูง

  • ให้ความสามารถด้านการให้เหตุผลขั้นสูง เหมาะกับ IDE, ผู้ช่วยเขียนโค้ด, เวิร์กโฟลว์แบบเอเจนต์
  • ปรับแต่งให้เหมาะกับ GPU สำหรับผู้บริโภค ช่วยให้นักศึกษา·นักวิจัย·นักพัฒนาสามารถสร้าง สภาพแวดล้อมเซิร์ฟเวอร์ AI แบบโลคัล ได้
  • สามารถรันได้โดยตรงใน Google AI Studio

ความปลอดภัยและความน่าเชื่อถือ

  • Gemma 4 ใช้ โปรโตคอลความปลอดภัยของโครงสร้างพื้นฐาน ระดับเดียวกับโมเดลเชิงพาณิชย์ของ Google
  • มอบ ฐานที่โปร่งใสและเชื่อถือได้ สำหรับการใช้งานใน องค์กรและหน่วยงานภาครัฐ
  • ตอบโจทย์ มาตรฐานความปลอดภัย·ความน่าเชื่อถือระดับสูงสุด พร้อมนำเสนอ ความสามารถ AI ล่าสุด

การดาวน์โหลดและการรัน

  • ดาวน์โหลดน้ำหนักโมเดล

    • มีน้ำหนักโมเดล Gemma 4 ให้ใช้งานบน Hugging Face, Ollama, Kaggle, LM Studio, Docker Hub
  • การรองรับด้านการฝึกและดีพลอย

    • รองรับการบูรณาการกับแพลตฟอร์มต่าง ๆ เช่น Jax, Vertex AI, Keras, Google AI Edge, Google Kubernetes Engine, Ollama
    • สามารถตั้งค่าสภาพแวดล้อมสำหรับ การฝึก·การดีพลอย·การอนุมาน ได้ผ่านเอกสารทางการและ API

ชุมชน Gemmaverse

  • ผ่าน Gemmaverse ผู้พัฒนาทั่วโลกสามารถสำรวจโปรเจกต์ที่สร้างด้วย Gemma ได้
  • Google DeepMind ให้ข้อมูลอัปเดตล่าสุดผ่านช่องทาง X, Instagram, YouTube, LinkedIn, GitHub
  • สามารถสมัครรับข้อมูลเพื่อรับ ข่าวสารนวัตกรรม AI ล่าสุด ได้

2 ความคิดเห็น

 
GN⁺ 27 일 전
ความเห็นจาก Hacker News
  • มีการเผยแพร่ Gemma 4 เวอร์ชันที่รวมความสามารถด้าน reasoning, multimodal และการเรียกใช้เครื่องมือไว้ด้วยกัน
    สามารถดาวน์โหลดโมเดลที่ถูก quantize ได้จาก Hugging Face collection และมี คู่มือ Unsloth ให้ด้วย
    พารามิเตอร์ที่แนะนำคือ temperature=1.0, top_p=0.95, top_k=64, EOS คือ " และ thinking trace ใช้ <|channel>thought\n

    • งานของ Daniel กำลังเปลี่ยนโลก
      ฉันสร้าง pipeline สำหรับ OCR·embedding·สรุปผล เพื่อทำให้สามารถค้นหาบันทึกที่ดินในช่วงคริสต์ศตวรรษที่ 1800 ได้
      ด้วย GGUF และ llama.cpp ทำให้ค้นหาได้หลายภาษา และเวลารอประมวลผล 1 นาทีก็ไม่รู้สึกว่าเป็นปัญหาอะไร
    • พยายามปิด “thinking” ใน llama.cpp แต่ --reasoning-budget 0 หรือ --chat-template-kwargs '{"enable_thinking":false}' ใช้งานไม่ได้
      สุดท้ายพบว่าต้องใช้แฟลกใหม่ --reasoning off
      ทดสอบ unsloth/gemma-4-26B-A4B-it-GGUF:UD-Q4_K_XL บน MacBook Air M4(32GB) แล้วรู้สึกว่าประทับใจกว่า qwen3.5-35b-a3b มาก
    • ภาพหน้าจอในขั้นตอน “Search and download Gemma 4” ของคู่มือกลับเป็นของ qwen3.5 และใน Unsloth Studio ก็เห็นแค่โมเดล Gemma 3
    • เป็นคำถามมือใหม่ แต่สงสัยว่าทำไมถึงควรใช้เวอร์ชันนี้แทนโมเดลต้นฉบับ
    • ตอนติดตั้ง Gemma 4 ด้วย Unsloth บน Windows 11 เกิดข้อผิดพลาดในขั้นตอนตั้งรหัสผ่าน
      PowerShell ติดตั้งหลายคอมโพเนนต์แล้วสั่งให้เปิด URL localhost แต่หลังจากนั้นก็ล้มเหลวทันที
      ฉันไม่ใช่นักพัฒนาและไม่คุ้นกับ PowerShell เลยทำได้ยาก และอยากให้แจกจ่ายเป็น ไฟล์รันเดี่ยว (.exe) มากกว่า
  • ได้ทดสอบโมเดล Gemma 4 ใน LM Studio
    โมเดล 2B·4B ให้ภาพนกเพลิแกนแปลก ๆ ส่วนโมเดล 26B-A4B ให้ผลลัพธ์ที่ดีที่สุดเท่าที่เคยเห็นมา
    มีการแชร์ ผลการทดสอบ
    โมเดล 31B บนเครื่องโลคัลพิมพ์แค่ "---\n" แต่ใน AI Studio API กลับทำงานได้ตามปกติ

    • เพราะ benchmark นกเพลิแกน ทำให้ทุกครั้งที่มีการออกโมเดลใหม่ ฉันต้องเข้าไปดูคอมเมนต์ใน Hacker News ตลอด
    • สงสัยว่านกเพลิแกนอาจกลายเป็นส่วนหนึ่งของ ข้อมูลฝึก ไปแล้วหรือเปล่า
    • อยากให้มี หน้าแกลเลอรี ที่ดูภาพนกเพลิแกนทั้งหมดได้ในที่เดียว
      เช่น clocks.brianmoore.com
    • ถ้าใช้เวอร์ชัน instruction-tuned คุณภาพของนกเพลิแกนน่าจะดีขึ้นมาก
    • อยากรู้ว่าใช้ สเปกโน้ตบุ๊ก แบบไหนในการรัน
  • มีการจัดตารางเปรียบเทียบ benchmark ของ Gemma 4 กับ Qwen 3.5
    รวมตัวชี้วัดหลากหลายอย่าง เช่น MMLU-Pro, GPQA, Codeforces ELO

    • คะแนน ELO แตกต่างจากกราฟของ tfa มาก
      มีบางส่วนที่ผลลัพธ์กลับด้านเมื่อเทียบ Qwen 3.5-27B กับ Gemma 4 26B/31B
      ทีม Unsloth ปล่อย GGUF ออกมาได้เร็วมากจนน่าประทับใจ และถ้า อยู่ระดับเดียวกับ Qwen 3.5 ก็ถือว่าน่าตื่นเต้นมาก
    • คนที่มี GPU 24GB ดูตารางนี้แล้วก็ยังไม่ค่อยแน่ใจว่าควรเลือกโมเดลไหน
    • การกลับแกนและลบบางโมเดลออกจากการเปรียบเทียบอาจทำให้ เกิดความเข้าใจผิดได้
      โมเดล Gemma ขนาดเล็กอ่อนกว่ารุ่นเล็กของ Qwen มาก
      ดู Qwen3.5-4B และ เธรด Reddit เกี่ยวกับ Gemma 4 ประกอบ
  • ฉันเป็นหนึ่งในทีม Gemma และมีส่วนร่วมกับการออก major release ครั้งนี้
    ถ้ามีคำถามก็ยินดีตอบ

    • อยากรู้ว่ามีแผนจะออกเวอร์ชัน QAT (quantization aware training) แบบเดียวกับ Gemma 3 หรือไม่
      ดู บล็อกที่เกี่ยวข้อง ได้
    • สงสัยว่าทำไมรอบนี้ถึงไม่มีเวอร์ชัน 12B
      เดิมคาดหวังโมเดลระดับกลางที่จะแข่งกับ Qwen3.5 9B
    • สงสัยว่า “major number release” หมายถึง การเพิ่มขนาดทรัพยากรคำนวณ จริง ๆ หรือหมายถึงการเปลี่ยนไปใช้สถาปัตยกรรมใหม่
    • มีคำถามว่าทำไมประสิทธิภาพใน benchmark อื่น ๆ ถึงออกมาต่ำกว่า ELO score
      หรือ benchmark เองอาจทำให้ การเปรียบเทียบบิดเบือน หรือไม่
    • จากการทดสอบส่วนตัว ประสิทธิภาพใกล้เคียง Gemini 3 Pro มาก และ ต้นทุนถูกกว่า 10 เท่า
      ลิงก์เปรียบเทียบ
  • มีการเปรียบเทียบ Gemma 4 กับ Qwen 3.5 ด้วยพรอมป์ต์คำนวณ Unix timestamp
    Qwen ใช้เวลาคิดเกิน 8 นาทีแล้วตอบถูก ส่วน Gemma ใช้ 30 วินาทีแต่ตอบผิด
    Gemma เขียนสคริปต์ Python แต่รันไม่ได้ เลยตอบผิด

    • ถ้าจะให้โมเดลรันโค้ดจริง ต้องมีสภาพแวดล้อม agentic harness พร้อม sandbox และสเปกที่ชัดเจน
      ไม่อย่างนั้นก็ทำได้แค่เดา
    • คำสั่ง date ทำงานถูกต้องในสภาพแวดล้อม GNU
      บน macOS ต้องติดตั้ง gdate (brew install coreutils)
    • ในสภาพแวดล้อม RX 9070 XT(24GB VRAM) ก็ได้ผลลัพธ์ถูกต้องแม้รันโดยไม่ใช้เครื่องมือ
      ดู ลิงก์ gist
    • ผู้เขียนคอมเมนต์ต้นฉบับไม่ได้ให้สิทธิ์โมเดลในการรันคำสั่งจริง
      ผลที่ได้จึงเป็นแค่การ “จินตนาการ” ว่ารันแล้ว
    • ประโยคสุดท้ายตลกดี
  • MAX nightly ของ Modular เป็น implementation แบบโอเพนซอร์สที่เร็วที่สุดบน Blackwell และ AMD MI355
    ติดตั้งผ่าน pip ได้ทันทีจาก บล็อกของ Modular

    • มีคนถามว่าเร็วกกว่า TensorRT-LLM หรือไม่ หรือเพราะอะไรถึงไม่นับ TensorRT-LLM เป็นโอเพนซอร์ส
    • อยากรู้ว่าเมื่อเทียบกับ PyTorch แล้ว อัตราเพิ่มความเร็ว อยู่ประมาณไหน
  • benchmark ของ Gemma 4 ที่เน้น ELO เป็นหลักนั้น ชวนให้เข้าใจผิดได้
    เพราะในหลายตัวชี้วัดยังด้อยกว่า Qwen 3.5 27B
    แต่โมเดล 2B·4B ก็น่าสนใจสำหรับงาน ASR หรือ OCR

    • benchmark สาธารณะปรับแต่งได้ง่าย
      ฉันเชื่อคะแนน Lmarena (อิงการประเมินโดยมนุษย์) มากกว่า
    • จากการทดสอบส่วนตัว ผลลัพธ์ค่อนข้างดีในด้านที่ไม่ใช่งานเขียนโค้ด
      ลิงก์เปรียบเทียบ
    • โมเดลจากจีนมีผลลัพธ์ต่ำในชุดทดสอบปิดอย่าง arc-agi 2
    • benchmark เอาไว้ดูเป็นแนวทางเท่านั้น วิธีที่แม่นที่สุดคือทดสอบกับ use case จริงของตัวเอง
    • ยังไม่ชัดเจนว่า “ELO Score” หมายถึงตัวชี้วัดอะไรแน่
  • ในที่สุด release ที่รอก็มาถึง
    ถ้าได้ปรับปรุงอีกแค่หนึ่งหรือสองรอบ ก็น่าจะตอบโจทย์ความต้องการส่วนใหญ่ในสภาพแวดล้อม self-hosting ได้แล้ว

    • ฉันก็เห็นด้วย แต่ “ความต้องการในชีวิตประจำวัน” ของฉันซับซ้อนขึ้นทุกปี
      แต่ก่อนแค่ถามตอบง่าย ๆ ก็พอ แต่ตอนนี้เริ่มคาดหวังระดับ coding agent แล้ว
      โมเดลเปิดยังไปไม่ถึงจุดนั้น แต่ release นี้ก็น่าคาดหวัง
    • Gemma3:27b และ Qwen3-vl:30b-a3b คือ local LLM ที่ฉันใช้บ่อยที่สุด
      ใช้จัดการงานแปล การจำแนก และการจัดหมวดหมู่เกือบทั้งหมด
    • อยากรู้ว่าเอา self-hosting ไปใช้กับงานประเภทไหนบ้าง
  • จุดที่ดีที่สุดของ release นี้คือ ไลเซนส์ Apache 2.0
    มีโมเดล E2B·E4B(สำหรับมือถือ), 26B-A4B(MoE), 31B(dense ขนาดใหญ่)
    เวอร์ชันมือถือรองรับ อินพุตเสียง และ 31B เด่นด้านงาน agent
    ส่วน 26B-A4B ใช้ VRAM ใกล้เคียงกันแต่ทำ inference ได้เร็วกว่ามาก

  • มีการให้ Gemma 4 26B กับ Qwen 3.5 27B ทำโปรเจ็กต์ Rust ขนาดเล็กแล้วเปรียบเทียบกัน
    Qwen ใช้เวลากว่าหนึ่งชั่วโมง ส่วน Gemma ยอมแพ้ใน 20 นาที
    จากสรุปของ Codex, Qwen มี ความสมบูรณ์เชิงโครงสร้าง สูงกว่า ส่วน Gemma เร็วกว่าแต่ยังไม่เสร็จสมบูรณ์
    ฉันเองก็เห็นด้วยกับการประเมินนั้น

    • ตอนนี้มี บั๊ก chat template ทำให้การเรียกใช้เครื่องมือยังไม่เสถียร
      ดู PR ที่เกี่ยวข้อง และ issue
      ยังไม่ควรรีบตัดสินจากช่วงเปิดตัวแรก ๆ
    • Qwen 3.5 27B เป็นโมเดล dense ดังนั้นควรเทียบกับ Gemma 4 31B มากกว่า
      ส่วน 26B-A4B ควรเทียบกับ Qwen 3.5 35B-A3B
    • Qwen เป็น dense ส่วน Gemma เป็นโครงสร้าง MoE จึง เปรียบเทียบตรง ๆ ได้ยาก
 
eoeoe 27 일 전

ข่าวลือเรื่อง 120b น่าเสียดายที่ไม่เป็นความจริง