Gemma 4 12B: โมเดลมัลติโหมดแบบไร้เอนโค้ดเดอร์ที่ผสานเป็นหนึ่งเดียว

(blog.google)

10 คะแนน โดย GN⁺ 2026-06-04 | 5 ความคิดเห็น | แชร์ทาง WhatsApp

Gemma 4 12B เป็นโมเดลขนาดกลางที่ออกแบบมาเพื่อรันปัญญามัลติโหมดแบบเอเจนต์บนแล็ปท็อป โดยเข้ามาเติมช่องว่างระหว่าง E4B ที่เป็นมิตรกับ edge และ 26B MoE ที่ล้ำหน้ากว่า
ใช้ สถาปัตยกรรมแบบผสานรวมไร้เอนโค้ดเดอร์ โดยส่งอินพุตภาพและเสียงเข้า LLM backbone โดยตรงโดยไม่ต้องมีมัลติโหมดเอนโค้ดเดอร์แยกต่างหาก เพื่อลด latency และการใช้หน่วยความจำ
แม้ประสิทธิภาพบนเบนช์มาร์กมาตรฐานจะเข้าใกล้โมเดล 26B MoE ที่ใหญ่กว่า แต่การใช้หน่วยความจำรวมกลับน้อยกว่าครึ่ง และสามารถรันแบบโลคัลได้บนแล็ปท็อปผู้บริโภคที่มี RAM 16GB หรือสภาพแวดล้อม VRAM/หน่วยความจำรวม
Gemma 4 12B เป็นโมเดลขนาดกลางตัวแรกในตระกูล Gemma ที่รองรับ อินพุตเสียงแบบเนทีฟ และมุ่งลด latency ด้วย Multi-Token Prediction drafters
โมเดล Gemma 4 มียอดดาวน์โหลดเกิน 150 ล้านครั้งแล้ว และ Gemma 4 12B ก็ขยายขอบเขตการพัฒนาเอเจนต์มัลติโหมดแบบโลคัลด้วยไลเซนส์ Apache 2.0 และการรองรับเครื่องมือนักพัฒนากับช่องทางดีพลอยหลัก

คุณสมบัติหลัก

Gemma 4 12B ถูกออกแบบมาเพื่อนำปัญญามัลติโหมดประสิทธิภาพสูงมาสู่แล็ปท็อปโดยตรง โดยผสานประสิทธิภาพแบบ mobile-first เข้ากับการให้เหตุผลขั้นสูง
อยู่กึ่งกลางระหว่าง E4B ที่เป็นมิตรกับ edge และ 26B Mixture of Experts(MoE) ที่ล้ำหน้ากว่า พร้อมอัดแน่นความสามารถสูงไว้ใน memory footprint ที่ลดลง
คุณสมบัติสำคัญมีดังนี้
- สถาปัตยกรรมแบบผสานรวมที่ส่งอินพุตภาพและเสียงเข้า LLM backbone โดยตรง โดยไม่ต้องมีมัลติโหมดเอนโค้ดเดอร์
- ประสิทธิภาพบนเบนช์มาร์กที่เข้าใกล้โมเดล 26B พร้อมรองรับการให้เหตุผลหลายขั้นตอนและเวิร์กโฟลว์แบบเอเจนต์
- ความพร้อมสำหรับแล็ปท็อปที่สามารถรันแบบโลคัลได้ด้วย VRAM หรือหน่วยความจำรวมเพียง 16GB
- ไลเซนส์ Apache 2.0 และการรองรับระบบนิเวศนักพัฒนา
- การลด latency ผ่าน Multi-Token Prediction(MTP) drafters

วิธีประมวลผลมัลติโหมดแบบไร้เอนโค้ดเดอร์

โมเดลมัลติโหมดแบบเดิมมักจะแปลงภาพและเสียงผ่านเอนโค้ดเดอร์แยกก่อน แล้วจึงส่งตัวแทนเหล่านั้นต่อให้โมเดลภาษา
Gemma 4 12B ถูกฝึกให้ผสานอินพุตเสียงและภาพเข้าโดยตรง เพื่อหลีกเลี่ยงปัญหาที่เอนโค้ดเดอร์แบบแยกเพิ่ม latency และการใช้หน่วยความจำ
ในการประมวลผลภาพ Gemma 4 แทนที่ vision encoder ด้วยโมดูล embedding น้ำหนักเบาที่ประกอบด้วยการคูณเมทริกซ์เพียงครั้งเดียว, positional embedding และ normalization เพื่อให้ LLM backbone รับหน้าที่ประมวลผลภาพ
ในการประมวลผลเสียง ได้ถอด audio encoder ออกทั้งหมด และฉายสัญญาณเสียงดิบเข้าสู่สเปซมิติเดียวกับโทเคนข้อความ
รายละเอียดเชิงโครงสร้างสำหรับนักพัฒนาเพิ่มเติมดูได้ที่ Gemma 4 12B Developer Guide

เส้นทางการเริ่มใช้งาน

สามารถทดลองได้ในไม่กี่คลิกผ่าน LM Studio, Ollama, Google AI Edge Gallery App, แอป Google AI Edge Eloquent, และ LiteRT-LM CLI
ดาวน์โหลดเช็กพอยต์ทั้งแบบ pre-trained และ instruction-tuned ได้จาก Hugging Face และ Kaggle
สำหรับการผสานรวมและการฝึก สามารถใช้ developer documentation และ quick start notebook
สามารถสร้าง local inference pipeline ได้ด้วย Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM และทำการ fine-tuning อย่างมีประสิทธิภาพด้วย Unsloth
Skills Repository อย่างเป็นทางการคือไลบรารีสกิลที่ออกแบบมาเพื่อให้เอเจนต์สามารถสร้างด้วยความสามารถล่าสุดของ Gemma
สามารถดีพลอย production endpoint บน Google Cloud ผ่าน Gemini Enterprise Agent Platform Model Garden, Cloud Run, และ GKE

5 ความคิดเห็น

hmmhmmhm 2026-06-04

เมื่อเทียบกับ gemma4 26b a4b แล้ว ความเร็วก็ยังน่าเสียดายอยู่นะ อันนี้ด้วย.... จะมี a4b ออกมาได้ไหมนะ?

loblue 2026-06-04

คงต้องลองรันบน MacBook M1 แรม 32GB ของผมดูแล้วนะครับ ถ้าเป็น 12B ก็น่าจะโอเคอยู่

kaydash 2026-06-04

นี่ไม่ใช่ของที่เพิ่งออกมา แล้วทำไมถึงถูกพูดถึงตอนนี้ล่ะ?

winterjung 2026-06-04

ก่อนหน้านี้มีแค่รุ่น e และ 26b, 31b เท่านั้น ส่วนโมเดล Gemma 4 12b เพิ่งเปิดตัวใหม่ครั้งนี้

GN⁺ 2026-06-04

ความเห็นบน Hacker News

ลองเอาโมเดล Q4 quantized ไปรันด้วย llama.cpp แล้วใส่ใน Minesweeper vibe coding benchmark ที่ทำเอง: https://senko.net/vibecode-bench/2026/minesweeper-gamma-4-12...
ผลลัพธ์ถือว่าใช้ได้ แต่ต้องคอยแก้ ข้อผิดพลาดทางไวยากรณ์ แปลก ๆ และเล็กน้อยเองอยู่หลายครั้ง เช่น เติมวงเล็บปิดเกินมาหนึ่งตัว หรือพยายามคั่นนิยามฟังก์ชันด้วยเครื่องหมายจุลภาค
ถ้าดูจากเบาะแสเหล่านี้ ก็ถือว่าเป็นโมเดลเขียนโค้ดแบบรันในเครื่องที่ใช้ได้ดี และถ้าดูเฉพาะเอาต์พุตก็ใกล้เคียงกับ GPT-4.1 ที่ออกมาเมื่อราว 14 เดือนก่อน: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
บนการ์ดจอผู้บริโภคที่มี 12GB VRAM ให้ความเร็ว 5 โทเค็น/วินาทีในแบบ 4-bit GGUF แม้จะช้าไปหน่อยสำหรับการเขียนโค้ดแบบโต้ตอบ แต่ก็เป็นโมเดลที่ใช้งานได้ค่อนข้างดี
น่าสนใจที่ในเวลาเพียงปีกว่า ๆ โมเดล 12 พันล้านพารามิเตอร์ ก็เกือบไล่ทันความสามารถด้านการเขียนโค้ดที่เคยมองว่าเป็นระดับ GPT-4.1 ได้แล้วในเบนช์มาร์กเฉพาะทางนี้
รายการโมเดลหลายตัวที่ทดสอบไว้: https://senko.net/vibecode-bench/
- มีความเป็นไปได้สูงว่าไม่ได้เป็นโมเดลที่ฝึกมาเพื่อการเขียนโค้ดโดยเฉพาะ มีทั้ง อินพุตเสียงและภาพ ขนาดเพียง 12B และในประกาศก็ไม่ได้พูดถึงการเขียนโค้ดเลย
  ประสิทธิภาพการเขียนโค้ดทั่วไปน่าจะต่ำกว่าโมเดลขนาดเล็กตัวอื่นอย่าง Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B และ gpt-oss-20b
  บนโน้ตบุ๊ก 16GB นั้น Qwen 3.5 9B ยังเป็นตัวที่แข็งแกร่งที่สุดอย่างชัดเจน และอันดับบนสุดของโมเดลเขียนโค้ดขนาดเล็กคือ Gemma 4 31B แต่เพราะเป็น dense จึงต้องใช้ หน่วยความจำรวมราว 48GB หากจะใช้บริบททั้งหมด
- ถ้าได้แค่ 5 โทเค็น/วินาทีบนการ์ด 12GB VRAM ก็ดูเหมือนว่ากำลังใช้ โหมดไฮบริด ที่ผสม CPU กับ RAM ของระบบ
  ความเร็วระดับนั้นใกล้กับตอนรันโมเดลขนาดนี้แบบ 4-bit ด้วยแบนด์วิดท์ DDR4 RAM และถ้าใช้ GPU Nvidia สำหรับผู้บริโภค 12GB อย่าง RTX 2080 หรือ RTX 3060 ก็ควรจะได้มากกว่า 20 โทเค็น/วินาทีบน CUDA backend ของ llama.cpp
- ชัยชนะที่ใหญ่ที่สุดในด้านโค้ดดูเหมือนจะเป็น ความสามารถในการให้เหตุผล ดังนั้นโมเดลเล็กจึงอาจมีประสิทธิภาพการเขียนโค้ดเทียบชั้น GPT-4.1 ได้ แต่ในความรู้ทั่วไปของโลก GPT-4.1 ที่ใหญ่กว่ายังน่าจะชนะอยู่
- สงสัยว่าปัญหาไวยากรณ์พวกนี้จะแก้ได้ด้วยการ fine-tune หรือการปรับพารามิเตอร์แบบอื่นหรือไม่ ข้อผิดพลาดแบบนั้นค่อนข้างน่าหงุดหงิด
ประเด็นใหญ่ตรงนี้คือ สถาปัตยกรรมไร้เอนโค้ดเดอร์ แต่ยังไม่เข้าใจทั้งหมดนัก
คำอธิบายที่ว่า “แทนที่วิชันเอนโค้ดเดอร์ของ Gemma 4 ด้วยโมดูล embedding แบบเบาที่ประกอบด้วยการคูณเมทริกซ์ครั้งเดียว, positional embedding และ normalization” ในเชิงเทคนิคก็ยังถือเป็นการเข้ารหัสอยู่ แต่ดูเหมือนจะหมายถึงการไม่ใช้โมเดลเฉพาะทางอย่าง SigLIP
ในคู่มือนักพัฒนามีคำอธิบายเพิ่มเติมว่าเป็นเลเยอร์ 35M แต่ก็ยังสงสัยว่าจะแข็งแรงพอหรือไม่: https://developers.googleblog.com/gemma-4-12b-the-developer-...
คำว่า “รันแบบโลคัลได้บนโน้ตบุ๊กผู้บริโภคที่มี 16GB RAM” ดูเหมือนตั้งอยู่บนสมมติฐานว่ามีการ quantization และเมื่อคิดถึงการสูญเสียคุณภาพแล้วก็ค่อนข้างชวนให้เข้าใจผิดได้
- ในหน้า developer มีบทความที่อธิบาย สถาปัตยกรรมไร้เอนโค้ดเดอร์ ได้ดีอยู่: https://newsletter.maartengrootendorst.com/p/a-visual-guide-...
- โดยพื้นฐานแล้วนี่คือ early fusion
  FAIR ทำไปแล้วตั้งแต่ 2 ปีก่อน: https://arxiv.org/abs/2405.09818
  ตั้งแต่นั้นมาก็รอให้มีการเปิดโมเดลแบบนี้ออกมา จุดที่น่าหงุดหงิดคือ Chameleon ใช้หลักการเดียวกันแล้วยังทำเอาต์พุตแบบมัลติโหมดได้ด้วย แต่โมเดลนี้ทำได้แค่อินพุต
  เลยสงสัยว่าพรีเทรนโดยไม่มีเอาต์พุตมัลติโหมดได้อย่างไร หรือจริง ๆ รองรับการสร้างภาพอยู่แล้วแต่ตัดออกไป
- ในความหมายทั่วไปก็ยังเรียกว่า “การเข้ารหัส” ได้อยู่ แต่ในที่นี้น่าจะหมายถึงการไม่มี โครงข่ายประสาทเอนโค้ดเดอร์
- เรื่องใหญ่จริง ๆ น่าจะเป็น แอป Gallery: https://developers.google.com/edge/gallery
  คนที่มี Mac 16GB โดยเฉพาะนักข่าวน่าจะมีอยู่ไม่น้อย และทุกคนสามารถดาวน์โหลดแอป ติดตั้งโมเดล แล้วลองเล่นได้ทันที
  ตอนนี้น่าจะถึงเวลาที่นักข่าวจะเริ่มตั้งคำถามต่อประมาณการรายได้ฝั่งผู้บริโภคของ OpenAI
  แม้จะค่อนข้างสงสัยใน AI แต่ก็พยายามเป็นคนที่ตั้งข้อสงสัยอย่างรู้จริง เลยลองทำงานแบบเอเจนต์และการสร้างภาพจาก CAD ด้วยโมเดลโลคัลมาบ้าง และชอบ Gemma 26B มากพอสมควร
  ใช้มันเพื่อเรียนพื้นฐานและทำความคุ้นเคยกับ OpenCode โดยไม่สร้างการพึ่งพาคลาวด์ และมันก็เขียนโค้ดได้ดีพอสมควร ช่วยให้เรียนรู้ได้ตามจังหวะที่ต้องการ
  ถ้าโมเดล 12B นี้ทำได้จริงสักครึ่งหนึ่งของที่โฆษณาไว้ อย่างน้อยในระยะสั้นก็ทำให้เกิดคำถามต่อ โมเดลธุรกิจคลาวด์ สำหรับผู้บริโภค
  ยังไม่ชัดว่าแอปนี้ใช้ MTP drafter หรือไม่ และแม้จะยังรันบน Gemma โดยตรงไม่ได้ แต่การรองรับ MTP ในตัวของ Qwen 3.6 บน LM Studio นั้นยอดเยี่ยมมาก
- ถ้าเป็น 12B ก็เท่ากับ 12GB ที่ 8 บิต/พารามิเตอร์ ซึ่งแทบไม่เสียคุณภาพ และ 6GB ที่ 4 บิต/พารามิเตอร์ ซึ่งโดยทั่วไปถือว่า “ใกล้เคียงมากพอ”
  ก่อนจะกังวลเรื่อง quantization มากเกินไป ควรดูประสิทธิภาพของโมเดลตั้งต้นก่อน
ตอนนี้กำลังเข้าสู่เกมแบบ วงจรปิด แล้ว Google ไม่จำเป็นต้องพึ่งคนอื่นเพื่อเร่งความเร็วให้โมเดลของตัวเอง และเรื่องนี้ก็ใกล้เคียงกับงานหลักของบริษัทอยู่แล้ว
น่าทึ่งแต่ก็ไม่น่าประหลาดใจที่พวกเขายังคงพัฒนาการเพิ่มประสิทธิภาพแบบนี้ต่อไป เช่นเดียวกับวิวัฒนาการของซิลิคอนและสถาปัตยกรรม CPU ที่ย่อเล็กลงเรื่อย ๆ แต่ทรงพลังขึ้น AI ก็น่าจะมีประสิทธิภาพดีขึ้นอีก 100 เท่าเมื่อเวลาผ่านไป
สักวันหนึ่งคงมีขีดจำกัด แต่ในอีก 30 ปีข้างหน้าอาจก้าวหน้ามากกว่าช่วง 30 ปีที่ผ่านมา และเราอาจได้อยู่ในโลกอนาคตแบบ Blade Runner ที่การตัดต่อยีนสามารถซ่อมเซลล์และอวัยวะที่เสื่อมจากวัย รวมถึงรักษามะเร็งได้

หลังยุคชีวิตของพวกเราไปแล้ว ผู้คนน่าจะใช้ชีวิตโดยยังคงความคล่องตัวได้อย่างมั่นคงจนถึงอายุ 125 ปี และท้ายที่สุดก็คงต้องเริ่มคิดกันเรื่องอายุขัย 1000 ปี
ถ้าย้อนมอง 30 ปีก่อนแล้วมองไปอีก 30 ปีข้างหน้า ก็คงเปลี่ยนไปแบบเหลือเชื่อ ขอให้พระเจ้าคุ้มครองพวกเรา

ตอนนี้เป็นช่วงเวลาที่น่าสนใจแน่นอน แต่ในมุมของความก้าวหน้าระดับล้ำหน้า ยังมี ผลไม้ที่อยู่ต่ำ ให้เก็บอีกมาก
อย่างไรก็ตาม มีขีดจำกัดล่างสุดของ “ความรู้” ที่จะบรรจุไว้ในพารามิเตอร์จำนวนน้อยได้
ช่วงเริ่มต้นของวิทยุ การบิน หรือแม้แต่ไมโครคอมพิวเตอร์ ก็คงให้ความรู้สึกแบบนี้เหมือนกัน
ผมเลือกให้การเพิ่มประสิทธิภาพอายุขัยมาก่อนอาชีพหรืองานอดิเรก อยากเห็นอนาคต และกระแส AI นี้ก็น่าสนใจมากจริงๆ
ไม่ใช่แบบนั้น
โมเดลขนาดใหญ่ยังคงนำหน้าอยู่มาก และแม้แต่ Gemma 31B ก็ยังดีกว่า 12B โดยรวม แต่ไม่ควรหลงคิดว่ามันเข้าใกล้โมเดลใหญ่แล้ว
แน่นอนว่ายังมีพื้นที่ให้ปรับแต่ง แต่สำหรับงานที่ซับซ้อน ต้องมีความชันเล็กๆ ที่ชัดเจนและมองเห็นได้ ซึ่งถูกจับได้ระหว่างการฝึกและติดตามได้ระหว่างการอนุมาน เพื่อให้ได้ความแม่นยำ
ตัวอย่างเช่น ถ้าสั่งว่าอย่าเขียนโค้ดแต่ถามคำถามเกี่ยวกับการเขียนโปรแกรม Gemma ก็ยังเขียนโค้ดอยู่ดี แต่ Gemini หรือ Claude จะจับนัยแบบนั้นได้และทำตามคำสั่งได้ดีกว่า
สงสัยเหตุผลทางธุรกิจที่ Google ปล่อย โมเดลเปิด ออกมา แม้จะขอบคุณกับการเปิดแบบนี้ แต่อยากเข้าใจว่ามันเข้ากับภาพใหญ่ในฐานะบริษัทแสวงกำไรอย่างไร
อดคิดไม่ได้ว่ากำลังช่วยให้คู่แข่งขึ้นมาบนเทคโนโลยีใหม่ที่ตัวเองพัฒนาหรือเปล่า
เลยสงสัยว่าเป็นแค่ความหวังดีหรือการตลาด หรือมีเกมเชิงกลยุทธ์บางอย่างที่ผมมองไม่เห็น
- เหตุผลใหญ่ที่แล็บแนวหน้าได้ อัตรากำไรขั้นต้น 80% จากการอนุมาน ก็เพราะพวกเขาถือครองทรัพยากรหายากอย่างโมเดลแนวหน้าอยู่
  ถ้าการอนุมานได้รับความนิยมและมีมูลค่ามากพอจนบริษัทเหล่านั้นทำกำไรได้หลายพันล้านดอลลาร์ พวกเขาก็อาจใช้กำไรนั้นสร้างผลิตภัณฑ์และแพลตฟอร์มทดแทนที่ตัด Google ออกจากความสัมพันธ์กับลูกค้าได้
  Google มีธุรกิจที่อัตรากำไรขั้นต้น 80% ที่ใหญ่ที่สุดในโลกอยู่แล้ว และทุกคนก็อยากได้ส่วนแบ่งจากมัน
  ถ้าทำให้การอนุมานระดับแนวหน้ามีราคาใกล้ต้นทุน และปล่อยโมเดลที่ต่ำกว่าระดับแนวหน้าเป็นโอเพนซอร์สเพื่อ ทำให้โมเดลกลายเป็นสินค้าโภคภัณฑ์ ก็จะทำให้แล็บแนวหน้ารักษาอัตรากำไรขั้นต้นสูงจากการอนุมานได้ยากขึ้น
  นี่คือการป้องกันเชิงกลยุทธ์
- โมเดลนี้ไม่ได้มาแทนที่สินค้าทำเงินเชิงพาณิชย์ของตัวเองโดยตรง แต่มันช่วยให้เกิดกิจกรรมการพัฒนา และเปิดบทสนทนากับบริษัทที่เริ่มจากโมเดลนี้แล้วอยากได้มากขึ้นอีกนิด
  ตอนนี้บริษัทของผมเองก็ทุ่มกับผลิตภัณฑ์แพลตฟอร์มหลายอย่าง และ Microsoft ก็พูดเมื่อวานว่าเป้าหมายคือ “Unmetered intelligence”
  มีหลายอย่างที่โมเดลเล็กบนเครื่องทำได้ และสิ่งเหล่านั้นก็เป็นส่วนหนึ่งของสแตกที่ไปสร้างรายได้ในชั้นอื่น
- Android และ Chrome ต้องการฟีเจอร์ AI บนอุปกรณ์ Google ไม่สามารถล็อกเวตพวกนี้ไว้ได้เหมือนแมชชีนเลิร์นนิงฝั่งเซิร์ฟเวอร์
  ยังไงก็ต้องมีคนดึงเวตออกมาอยู่ดี งั้นปล่อยเป็นโอเพนซอร์สและทำให้เป็นทางการไปเลยง่ายกว่า
- Google เป็นหนึ่งในไม่กี่ตัวเลือกที่ บูรณาการแนวตั้ง ในวงการ AI มีทั้งข้อมูล โมเดล บริการคลาวด์ ซิลิคอนระดับล่างอย่าง TPU การใช้งานภายใน การใช้งานฝั่งผู้บริโภค การใช้งานแบบ B2B และช่องทางกระจายอย่างเบราว์เซอร์กับมือถือ
  ยิ่งการยอมรับ AI เพิ่มขึ้น Google ก็ยิ่งได้อานิสงส์ไปด้วย และยิ่งได้เปรียบเมื่อผู้คนเลือกโซลูชันของ Google
  ทุกโทเค็นที่ถูกส่งเข้าโมเดลของ Google ไม่ว่าจะฟรีหรือเสียเงิน ล้วนเป็นแรงกดดันให้คู่แข่งต้องเผาเงินมหาศาลเพื่อรักษาความล้ำหน้าไว้
- ถ้าเป็นแล็บ AI ก็แทบเลี่ยงไม่ได้ที่จะอยากมีทีมวิจัยด้านนี้ เพราะนี่คือจุดที่ทดลองซ้ำและสร้างการปรับปรุงได้ง่ายที่สุด แล้วค่อยนำไปสะท้อนใน โมเดลแนวหน้า ที่ใหญ่กว่าในภายหลัง
  ประเด็นคือจะเปิดโมเดลออกมาหรือใช้เพื่อวิจัยและพัฒนาอย่างเดียว
  ตอนนี้ที่อื่นก็ปล่อยโมเดลคุณภาพใกล้เคียงกันอยู่แล้ว ดังนั้นการเข้าร่วมกระแสนี้จึงไม่น่าถือว่าเป็นการยิงเท้าตัวเอง
  การกินตลาดตัวเองเพิ่มก็แทบเป็นศูนย์ และผลประโยชน์ด้านชื่อเสียงก็น่าจะคุ้มค่า
การประมวลผลภาพแย่มาก ผมลองทดสอบหลายอย่างกับ Qwen 3.5 0.8B แล้ว Qwen ที่มีขนาดแค่ 7% กลับชนะทุกครั้ง และ Gemma ก็ตอบผิดแบบหลุดไปเลยบ่อยมาก
ผมให้ภาพง่ายๆ ที่เขียนว่า “This is a test” แต่มันกลับพยายามคิดวิเคราะห์อยู่ 6 นาทีแล้วก็ล้มเหลว ขณะที่ Qwen 3.5 0.8B ตอบถูกอย่างมั่นใจในเวลาไม่ถึง 1 วินาที
เป็นไปได้ว่า Q6 quantization ที่ผมได้มามีปัญหา หรืออาจเป็นปัญหาของ LM Studio แต่ไม่ว่าแบบไหน ประสิทธิภาพของ 0.8B ก็ยังน่าทึ่งเมื่อเทียบกัน
- ดูเหมือน Google จะใส่ รั้วป้องกัน มากกว่าหรือเข้มกว่าของ Alibaba จนทำให้โมเดลเล็กสับสน
  ในโมเดล Gemma3 เองก็เคยมีบ่อยครั้งที่ปฏิเสธจะอธิบายภาพโดยบอกว่ามีภาพโป๊เปลือยหรือฉากทางเพศอยู่ในภาพ และผมก็ไม่เข้าใจว่าพฤติกรรมแบบนั้นสื่อถึงอะไร
- ผมรู้สึกมาตลอดว่าโมเดล Gemma แย่กว่า Qwen มากใน งานด้านวิสัยทัศน์ ดังนั้นจึงไม่ใช่เรื่องใหม่อะไร
แยกจากการเปลี่ยนสถาปัตยกรรม ดูเหมือนนี่จะเป็นคำตอบว่าทำไมในไลน์อัปโมเดลพรีเทรนของ Gemma4 ถึงเว้นช่วง ระหว่าง 4B กับ 26B ไว้อย่างแปลกๆ
โมเดลที่ใส่ลงใน 16GB VRAM ได้สบายแม้เผื่อคอนเท็กซ์ไว้ด้วย ถือเป็นอัปเกรดที่น่ายินดี
ถ้าไม่นับเรื่องมัลติมีเดีย อยากรู้ว่ามันดีกว่าโมเดล 1.5 บิตที่ใช้ qwen2.5 ของ prismml มากแค่ไหน
อยากรู้ กรณีใช้งานของโมเดลขนาดเล็ก แบบนี้ มีใครที่ใช้โมเดลระดับนี้ในชีวิตประจำวันแล้วช่วยแชร์ประสบการณ์จริงได้ไหม?
- ผมรัน vLLM บนเครื่อง Linux ในห้องใต้ดินแล้วเชื่อมผ่าน Tailscale ใช้โมเดลเล็กกับงานหลายอย่าง
  เช่น แปลงเอกสารสแกนเป็นข้อความที่มีรูปแบบ, ทำคำบรรยาย/คำอธิบายภาพและจัดประเภทความเหมาะสมของเนื้อหาเป้าหมาย (รวมถึงป้องกันสแปม), และจับคู่เอกสารกับหน้า Wikipedia ที่เกี่ยวข้องเพื่อทำแท็ก
  ผมไม่ได้ใช้มันแบบเดียวกับโมเดลแนวหน้า แต่จะแยกเป็น งานย่อยระดับไมโคร ให้แต่ละพรอมป์มีเป้าหมายชัดเจนเพียงอย่างเดียว
  ผมยังเขียนโค้ดกาวไว้เยอะเพื่อให้ทั้งเวิร์กโฟลว์ทำงานได้ และงานพวกนี้ก็เป็นสิ่งที่ทำกันมาก่อน LLM จะมีอยู่แล้ว
  แต่ LLM ช่วยลดโค้ดที่ซับซ้อนและทำให้เพิ่มโมเดลเข้าไปเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
  เหตุผลที่ใช้โมเดลโลคัลคือเรื่องต้นทุนและการควบคุม ผมมีเวิร์กสเตชันกับ GPU อยู่แล้ว และค่าใช้จ่ายในการรันก็มีแค่ค่าไฟ
  ผมเคยใช้โมเดลปิดของ OpenAI และ Google ด้วย แต่เคยโดนผลกระทบตอนโมเดลที่เครื่องมือพึ่งพาถูกปลดระวาง ถ้าเก็บเวตไว้ในเครื่องก็ไม่ต้องกังวลเรื่องนั้น
- ในแอปจดตามเสียงที่ผมทำเอง ผมใช้โมเดลโลคัลช่วยเกลาข้อความและแก้ไวยากรณ์ ทำได้ง่ายมาก และตอนนี้กำลังขยายไปสู่การจับภาพรายงานการประชุมและสรุปผล โดยทั้งหมดทำ บนอุปกรณ์
  ไม่นานมานี้ผมยังเห็นแอปเล็กๆ ที่ดูสกรีนช็อตแล้วเปลี่ยนชื่อไฟล์ตามเนื้อหาในไฟล์ด้วย
  ตัวอย่างเล็กๆ แบบนี้มีเยอะมาก และในหลายกรณีการใช้งานก็ไม่จำเป็นต้องใช้โมเดลแนวหน้าเลย
เคยใช้ Gemma กับงานตรวจทานและจัดหมวดหมู่งานเขียนออนไลน์หลายปี โดยใช้กับข้อความที่ผมเขียนในฟอรัมโปรเจกต์โอเพนซอร์สที่มีส่วนร่วม, HN, Reddit ฯลฯ รวมประมาณ 5 ล้านคำ และเพราะเป็นงานเขียนของผมเอง จึงลองเทรน LoRA ได้โดยไม่ต้องกังวลเรื่องจริยธรรมของแหล่งข้อมูล
ตอนนี้กำลังใช้กับการค้นหาเว็บและดึงข้อมูลของธุรกิจในอุตสาหกรรมเฉพาะ
มันฉลาดพอที่จะหาธุรกิจในอุตสาหกรรมนั้นในเมืองที่กำหนด อ่านเว็บไซต์ ดึงที่อยู่และเบอร์โทรศัพท์ รวมถึงลบข้อมูลซ้ำและตรวจสอบไขว้กับแหล่งอื่นได้
Gemma 4 ทำได้ดีกว่าอย่างน้อยก็ในแง่การตัดสินแบบละเอียดอ่อนเมื่อเทียบกับ Gemini 2.5 Flash ส่วน Gemini 3.5 Flash ตัวใหม่ดีมากแต่แพงเกินจริง
ถ้าไม่ต้องการความเร็วระดับสูงมาก Gemma 4 ที่โฮสต์เองชนะในหลายงาน
Qwen 3.6 27B ก็เก่งอย่างน่าประหลาดในการหาบั๊กด้านความปลอดภัยเมื่อเทียบกับขนาดของมัน เอาชนะโมเดลที่ใหญ่กว่าหลายตัวและใกล้เคียง Gemini Pro 3.1 แต่ Gemini 3.5 Flash กลับดีกว่าอย่างชัดเจนแบบน่าประหลาดใจ
มีแค่ค่าไฟ และไฟของผมก็ถูกและเป็นพลังงานหมุนเวียน 100% เลยใช้ได้กว้างกว่าโมเดลที่ต้องเช่าโฮสต์
ถึงอย่างนั้น ทางเลือกที่คุ้มเงินจริงตอนนี้ก็ยังเป็นการซื้่อโทเคนที่ผู้ให้บริการปล่อยออกมาราคาถูกเหมือนอุดหนุน
ตอนนี้การจ่ายค่าสมาชิก Claude หรือ Codex 100 ดอลลาร์เพื่อใช้โมเดลระดับท็อปในราคาที่ลดลงมาก ยังคุ้มกว่าการซื้อฮาร์ดแวร์มารันโมเดลขนาดเกิน 30GB
ถ้าต้องใช้ API สำหรับงานอัตโนมัติ DeepSeek/MiMo ถูกกว่าโมเดลท็อปของ Anthropic หรือ OpenAI อยู่หนึ่งถึงสองหลัก
ผมใช้เงินไปราว 4,000 ดอลลาร์กับเครื่องอนุมานสองเครื่อง ซึ่งเงินก้อนนี้ซื้อโทเคนสำหรับโมเดลเล็กแบบนี้ได้เป็นปี ๆ
แต่ผมชอบเล่นกับฮาร์ดแวร์อยู่แล้ว แค่นั้นก็ถือว่าคุ้ม และถ้าเอาคืนได้บางส่วนก็เป็นโบนัส
ถ้าผู้ให้บริการรายใหญ่หยุดเผาเงินกับโทเคนอุดหนุนแล้วเริ่มคิดราคาจริงจัง การคำนวณก็อาจเปลี่ยนไป และผมอาจโชคดีที่ซื้ออุปกรณ์ไว้ก่อนที่ราคา RAM จะขึ้น 2~3 เท่า
ถ้าไม่ได้ตั้งใจจะเรียนรู้เทคโนโลยีหรือทดลองเทรนด้วยตัวเอง โดยมากแล้วน่าจะไม่คุ้มที่จะพยายามรันแบบโลคัล
- โมเดลเล็กมีจุดเด่นเฉพาะทางที่ดีมากสำหรับ งานบางประเภท ฝั่งประมวลผลเอกสารของแอปเดสก์ท็อปที่ผมพัฒนาใช้ Phi-4 เวอร์ชันที่ fine-tune แล้ว ซึ่งยังเล็กกว่าโมเดลนี้และใช้ RAM แค่ราว 3.5GB ไม่ใช่ VRAM
  ถ้ามีไอเดียที่เฉพาะเจาะจงมากพอสำหรับการใช้โมเดลโลคัล ก็ทำให้มันทำงานได้ดีโดยไม่ต้องมีการ์ดจอหรือ NPU
  แต่ต้องจำกัดวิธีใช้อย่างมาก มันไม่เหมาะเป็นแชตบอตอเนกประสงค์ และแม้ผมจะชอบ local LLM แต่ถ้าเป็นงานนั้นผมก็จะใช้โมเดลโฮสต์รุ่นใหม่สุด
- ไม่แน่ใจเกี่ยวกับโมเดลนี้ แต่ 31B รุ่นก่อนหน้ากำลังใช้อยู่ใน OpenCode เป็น ผู้ช่วยเขียนโค้ดแบบเอเจนต์
  ถ้างานง่ายพอที่จะโยนให้ Sonnet ได้ ผมก็โยนให้ Gemma 4 เหมือนกัน และมันทำได้ดีมาก
  ผมประหลาดใจในทางบวกบ่อยกว่าผิดหวังในทางลบมาก
  และก็เจอสถานการณ์อยู่ไม่น้อยที่ Gemma 4 ล้มเหลว เลยสลับไป Opus 4.7 แต่ Opus ก็ยังล้มเหลว
เป็นอัปเดตที่ค่อนข้างดี แต่เดโมวิดีโอก็ตลกดี
พอผู้ทดสอบขอให้เปลี่ยนโน้ตรีลีสเป็นรายการหัวข้อย่อย โมเดลก็ทำได้ดี
แต่พอขอให้ร่างอีเมลจากเนื้อหานั้นต่อ มันกลับเปลี่ยนหัวข้อย่อยเป็นย่อหน้าเองทั้งที่ไม่ได้ขอ เหมือนลบผลงานดี ๆ ที่เพิ่งทำไป
ไม่รู้ว่าอีเมลมีมารยาทห้ามใช้หัวข้อย่อยหรือเปล่า
ลองปล่อยและตรวจ benchmark ภาษาเยอรมันอย่างเร็วแล้ว ผลเฉพาะภาษาเยอรมันของ CohereLabs/include-base-44 สำหรับ Gemma 4 12B อยู่ที่ประมาณ 0.618
Gemma 4 26B (A4B MoE) ได้ 0.647, Qwen 3 14B ได้ 0.621, Gemma 4 12B ได้ 0.618, Ministral 14B 2512 ได้ 0.604 และ Gemma 3 12B ได้ 0.547
ความต่างระหว่าง Qwen 3 14B กับ Gemma 4 12B ยังอยู่ในช่วงความผันผวนแบบสุ่ม และในการรันซ้ำก็เคยได้คะแนนเท่ากันเป๊ะ
ส่วน Gemma 4 31B ซึ่งเป็นขั้นถัดไป ได้ 0.676 ใน benchmark นี้ และ Qwen 3 14B ที่เปิดให้ใช้การอนุมานก็ได้ 0.676 เช่นกัน
พรุ่งนี้ตั้งใจจะรัน benchmark ป้องกันการโกงด้วย เพื่อดูว่า Qwen ยังนำอยู่หรือไม่