- Gemma 4 12B เป็นโมเดลขนาดกลางที่ออกแบบมาเพื่อรันปัญญามัลติโหมดแบบเอเจนต์บนแล็ปท็อป โดยเข้ามาเติมช่องว่างระหว่าง E4B ที่เป็นมิตรกับ edge และ 26B MoE ที่ล้ำหน้ากว่า
- ใช้ สถาปัตยกรรมแบบผสานรวมไร้เอนโค้ดเดอร์ โดยส่งอินพุตภาพและเสียงเข้า LLM backbone โดยตรงโดยไม่ต้องมีมัลติโหมดเอนโค้ดเดอร์แยกต่างหาก เพื่อลด latency และการใช้หน่วยความจำ
- แม้ประสิทธิภาพบนเบนช์มาร์กมาตรฐานจะเข้าใกล้โมเดล 26B MoE ที่ใหญ่กว่า แต่การใช้หน่วยความจำรวมกลับน้อยกว่าครึ่ง และสามารถรันแบบโลคัลได้บนแล็ปท็อปผู้บริโภคที่มี RAM 16GB หรือสภาพแวดล้อม VRAM/หน่วยความจำรวม
- Gemma 4 12B เป็นโมเดลขนาดกลางตัวแรกในตระกูล Gemma ที่รองรับ อินพุตเสียงแบบเนทีฟ และมุ่งลด latency ด้วย Multi-Token Prediction drafters
- โมเดล Gemma 4 มียอดดาวน์โหลดเกิน 150 ล้านครั้งแล้ว และ Gemma 4 12B ก็ขยายขอบเขตการพัฒนาเอเจนต์มัลติโหมดแบบโลคัลด้วยไลเซนส์ Apache 2.0 และการรองรับเครื่องมือนักพัฒนากับช่องทางดีพลอยหลัก
คุณสมบัติหลัก
- Gemma 4 12B ถูกออกแบบมาเพื่อนำปัญญามัลติโหมดประสิทธิภาพสูงมาสู่แล็ปท็อปโดยตรง โดยผสานประสิทธิภาพแบบ mobile-first เข้ากับการให้เหตุผลขั้นสูง
- อยู่กึ่งกลางระหว่าง E4B ที่เป็นมิตรกับ edge และ 26B Mixture of Experts(MoE) ที่ล้ำหน้ากว่า พร้อมอัดแน่นความสามารถสูงไว้ใน memory footprint ที่ลดลง
- คุณสมบัติสำคัญมีดังนี้
- สถาปัตยกรรมแบบผสานรวมที่ส่งอินพุตภาพและเสียงเข้า LLM backbone โดยตรง โดยไม่ต้องมีมัลติโหมดเอนโค้ดเดอร์
- ประสิทธิภาพบนเบนช์มาร์กที่เข้าใกล้โมเดล 26B พร้อมรองรับการให้เหตุผลหลายขั้นตอนและเวิร์กโฟลว์แบบเอเจนต์
- ความพร้อมสำหรับแล็ปท็อปที่สามารถรันแบบโลคัลได้ด้วย VRAM หรือหน่วยความจำรวมเพียง 16GB
- ไลเซนส์ Apache 2.0 และการรองรับระบบนิเวศนักพัฒนา
- การลด latency ผ่าน Multi-Token Prediction(MTP) drafters
วิธีประมวลผลมัลติโหมดแบบไร้เอนโค้ดเดอร์
- โมเดลมัลติโหมดแบบเดิมมักจะแปลงภาพและเสียงผ่านเอนโค้ดเดอร์แยกก่อน แล้วจึงส่งตัวแทนเหล่านั้นต่อให้โมเดลภาษา
- Gemma 4 12B ถูกฝึกให้ผสานอินพุตเสียงและภาพเข้าโดยตรง เพื่อหลีกเลี่ยงปัญหาที่เอนโค้ดเดอร์แบบแยกเพิ่ม latency และการใช้หน่วยความจำ
- ในการประมวลผลภาพ Gemma 4 แทนที่ vision encoder ด้วยโมดูล embedding น้ำหนักเบาที่ประกอบด้วยการคูณเมทริกซ์เพียงครั้งเดียว, positional embedding และ normalization เพื่อให้ LLM backbone รับหน้าที่ประมวลผลภาพ
- ในการประมวลผลเสียง ได้ถอด audio encoder ออกทั้งหมด และฉายสัญญาณเสียงดิบเข้าสู่สเปซมิติเดียวกับโทเคนข้อความ
- รายละเอียดเชิงโครงสร้างสำหรับนักพัฒนาเพิ่มเติมดูได้ที่ Gemma 4 12B Developer Guide
เส้นทางการเริ่มใช้งาน
- สามารถทดลองได้ในไม่กี่คลิกผ่าน LM Studio, Ollama, Google AI Edge Gallery App, แอป Google AI Edge Eloquent, และ LiteRT-LM CLI
- ดาวน์โหลดเช็กพอยต์ทั้งแบบ pre-trained และ instruction-tuned ได้จาก Hugging Face และ Kaggle
- สำหรับการผสานรวมและการฝึก สามารถใช้ developer documentation และ quick start notebook
- สามารถสร้าง local inference pipeline ได้ด้วย Hugging Face Transformers, llama.cpp, MLX, SGLang, vLLM และทำการ fine-tuning อย่างมีประสิทธิภาพด้วย Unsloth
- Skills Repository อย่างเป็นทางการคือไลบรารีสกิลที่ออกแบบมาเพื่อให้เอเจนต์สามารถสร้างด้วยความสามารถล่าสุดของ Gemma
- สามารถดีพลอย production endpoint บน Google Cloud ผ่าน Gemini Enterprise Agent Platform Model Garden, Cloud Run, และ GKE
4 ความคิดเห็น
คงต้องลองรันบน MacBook M1 แรม 32GB ของผมดูแล้วนะครับ ถ้าเป็น 12B ก็น่าจะโอเคอยู่
นี่ไม่ใช่ของที่เพิ่งออกมา แล้วทำไมถึงถูกพูดถึงตอนนี้ล่ะ?
ก่อนหน้านี้มีแค่รุ่น e และ 26b, 31b เท่านั้น ส่วนโมเดล Gemma 4 12b เพิ่งเปิดตัวใหม่ครั้งนี้
ความเห็นบน Hacker News
ผลลัพธ์ถือว่าใช้ได้ แต่ต้องคอยแก้ ข้อผิดพลาดทางไวยากรณ์ แปลก ๆ และเล็กน้อยเองอยู่หลายครั้ง เช่น เติมวงเล็บปิดเกินมาหนึ่งตัว หรือพยายามคั่นนิยามฟังก์ชันด้วยเครื่องหมายจุลภาค
ถ้าดูจากเบาะแสเหล่านี้ ก็ถือว่าเป็นโมเดลเขียนโค้ดแบบรันในเครื่องที่ใช้ได้ดี และถ้าดูเฉพาะเอาต์พุตก็ใกล้เคียงกับ GPT-4.1 ที่ออกมาเมื่อราว 14 เดือนก่อน: https://senko.net/vibecode-bench/2025/minesweeper-gpt-4.1.ht...
บนการ์ดจอผู้บริโภคที่มี 12GB VRAM ให้ความเร็ว 5 โทเค็น/วินาทีในแบบ 4-bit GGUF แม้จะช้าไปหน่อยสำหรับการเขียนโค้ดแบบโต้ตอบ แต่ก็เป็นโมเดลที่ใช้งานได้ค่อนข้างดี
น่าสนใจที่ในเวลาเพียงปีกว่า ๆ โมเดล 12 พันล้านพารามิเตอร์ ก็เกือบไล่ทันความสามารถด้านการเขียนโค้ดที่เคยมองว่าเป็นระดับ GPT-4.1 ได้แล้วในเบนช์มาร์กเฉพาะทางนี้
รายการโมเดลหลายตัวที่ทดสอบไว้: https://senko.net/vibecode-bench/
ประสิทธิภาพการเขียนโค้ดทั่วไปน่าจะต่ำกว่าโมเดลขนาดเล็กตัวอื่นอย่าง Qwen 3.6 35B A3B, Gemma 4 26B A4B, Nvidia Nemotron 3 Nano 30B-A3B และ gpt-oss-20b
บนโน้ตบุ๊ก 16GB นั้น Qwen 3.5 9B ยังเป็นตัวที่แข็งแกร่งที่สุดอย่างชัดเจน และอันดับบนสุดของโมเดลเขียนโค้ดขนาดเล็กคือ Gemma 4 31B แต่เพราะเป็น dense จึงต้องใช้ หน่วยความจำรวมราว 48GB หากจะใช้บริบททั้งหมด
ความเร็วระดับนั้นใกล้กับตอนรันโมเดลขนาดนี้แบบ 4-bit ด้วยแบนด์วิดท์ DDR4 RAM และถ้าใช้ GPU Nvidia สำหรับผู้บริโภค 12GB อย่าง RTX 2080 หรือ RTX 3060 ก็ควรจะได้มากกว่า 20 โทเค็น/วินาทีบน CUDA backend ของ llama.cpp
คำอธิบายที่ว่า “แทนที่วิชันเอนโค้ดเดอร์ของ Gemma 4 ด้วยโมดูล embedding แบบเบาที่ประกอบด้วยการคูณเมทริกซ์ครั้งเดียว, positional embedding และ normalization” ในเชิงเทคนิคก็ยังถือเป็นการเข้ารหัสอยู่ แต่ดูเหมือนจะหมายถึงการไม่ใช้โมเดลเฉพาะทางอย่าง SigLIP
ในคู่มือนักพัฒนามีคำอธิบายเพิ่มเติมว่าเป็นเลเยอร์ 35M แต่ก็ยังสงสัยว่าจะแข็งแรงพอหรือไม่: https://developers.googleblog.com/gemma-4-12b-the-developer-...
คำว่า “รันแบบโลคัลได้บนโน้ตบุ๊กผู้บริโภคที่มี 16GB RAM” ดูเหมือนตั้งอยู่บนสมมติฐานว่ามีการ quantization และเมื่อคิดถึงการสูญเสียคุณภาพแล้วก็ค่อนข้างชวนให้เข้าใจผิดได้
FAIR ทำไปแล้วตั้งแต่ 2 ปีก่อน: https://arxiv.org/abs/2405.09818
ตั้งแต่นั้นมาก็รอให้มีการเปิดโมเดลแบบนี้ออกมา จุดที่น่าหงุดหงิดคือ Chameleon ใช้หลักการเดียวกันแล้วยังทำเอาต์พุตแบบมัลติโหมดได้ด้วย แต่โมเดลนี้ทำได้แค่อินพุต
เลยสงสัยว่าพรีเทรนโดยไม่มีเอาต์พุตมัลติโหมดได้อย่างไร หรือจริง ๆ รองรับการสร้างภาพอยู่แล้วแต่ตัดออกไป
คนที่มี Mac 16GB โดยเฉพาะนักข่าวน่าจะมีอยู่ไม่น้อย และทุกคนสามารถดาวน์โหลดแอป ติดตั้งโมเดล แล้วลองเล่นได้ทันที
ตอนนี้น่าจะถึงเวลาที่นักข่าวจะเริ่มตั้งคำถามต่อประมาณการรายได้ฝั่งผู้บริโภคของ OpenAI
แม้จะค่อนข้างสงสัยใน AI แต่ก็พยายามเป็นคนที่ตั้งข้อสงสัยอย่างรู้จริง เลยลองทำงานแบบเอเจนต์และการสร้างภาพจาก CAD ด้วยโมเดลโลคัลมาบ้าง และชอบ Gemma 26B มากพอสมควร
ใช้มันเพื่อเรียนพื้นฐานและทำความคุ้นเคยกับ OpenCode โดยไม่สร้างการพึ่งพาคลาวด์ และมันก็เขียนโค้ดได้ดีพอสมควร ช่วยให้เรียนรู้ได้ตามจังหวะที่ต้องการ
ถ้าโมเดล 12B นี้ทำได้จริงสักครึ่งหนึ่งของที่โฆษณาไว้ อย่างน้อยในระยะสั้นก็ทำให้เกิดคำถามต่อ โมเดลธุรกิจคลาวด์ สำหรับผู้บริโภค
ยังไม่ชัดว่าแอปนี้ใช้ MTP drafter หรือไม่ และแม้จะยังรันบน Gemma โดยตรงไม่ได้ แต่การรองรับ MTP ในตัวของ Qwen 3.6 บน LM Studio นั้นยอดเยี่ยมมาก
ก่อนจะกังวลเรื่อง quantization มากเกินไป ควรดูประสิทธิภาพของโมเดลตั้งต้นก่อน
น่าทึ่งแต่ก็ไม่น่าประหลาดใจที่พวกเขายังคงพัฒนาการเพิ่มประสิทธิภาพแบบนี้ต่อไป เช่นเดียวกับวิวัฒนาการของซิลิคอนและสถาปัตยกรรม CPU ที่ย่อเล็กลงเรื่อย ๆ แต่ทรงพลังขึ้น AI ก็น่าจะมีประสิทธิภาพดีขึ้นอีก 100 เท่าเมื่อเวลาผ่านไป
สักวันหนึ่งคงมีขีดจำกัด แต่ในอีก 30 ปีข้างหน้าอาจก้าวหน้ามากกว่าช่วง 30 ปีที่ผ่านมา และเราอาจได้อยู่ในโลกอนาคตแบบ Blade Runner ที่การตัดต่อยีนสามารถซ่อมเซลล์และอวัยวะที่เสื่อมจากวัย รวมถึงรักษามะเร็งได้
หลังยุคชีวิตของพวกเราไปแล้ว ผู้คนน่าจะใช้ชีวิตโดยยังคงความคล่องตัวได้อย่างมั่นคงจนถึงอายุ 125 ปี และท้ายที่สุดก็คงต้องเริ่มคิดกันเรื่องอายุขัย 1000 ปี
ถ้าย้อนมอง 30 ปีก่อนแล้วมองไปอีก 30 ปีข้างหน้า ก็คงเปลี่ยนไปแบบเหลือเชื่อ ขอให้พระเจ้าคุ้มครองพวกเรา
ตอนนี้เป็นช่วงเวลาที่น่าสนใจแน่นอน แต่ในมุมของความก้าวหน้าระดับล้ำหน้า ยังมี ผลไม้ที่อยู่ต่ำ ให้เก็บอีกมาก
อย่างไรก็ตาม มีขีดจำกัดล่างสุดของ “ความรู้” ที่จะบรรจุไว้ในพารามิเตอร์จำนวนน้อยได้
ช่วงเริ่มต้นของวิทยุ การบิน หรือแม้แต่ไมโครคอมพิวเตอร์ ก็คงให้ความรู้สึกแบบนี้เหมือนกัน
ผมเลือกให้การเพิ่มประสิทธิภาพอายุขัยมาก่อนอาชีพหรืองานอดิเรก อยากเห็นอนาคต และกระแส AI นี้ก็น่าสนใจมากจริงๆ
ไม่ใช่แบบนั้น
โมเดลขนาดใหญ่ยังคงนำหน้าอยู่มาก และแม้แต่ Gemma 31B ก็ยังดีกว่า 12B โดยรวม แต่ไม่ควรหลงคิดว่ามันเข้าใกล้โมเดลใหญ่แล้ว
แน่นอนว่ายังมีพื้นที่ให้ปรับแต่ง แต่สำหรับงานที่ซับซ้อน ต้องมีความชันเล็กๆ ที่ชัดเจนและมองเห็นได้ ซึ่งถูกจับได้ระหว่างการฝึกและติดตามได้ระหว่างการอนุมาน เพื่อให้ได้ความแม่นยำ
ตัวอย่างเช่น ถ้าสั่งว่าอย่าเขียนโค้ดแต่ถามคำถามเกี่ยวกับการเขียนโปรแกรม Gemma ก็ยังเขียนโค้ดอยู่ดี แต่ Gemini หรือ Claude จะจับนัยแบบนั้นได้และทำตามคำสั่งได้ดีกว่า
สงสัยเหตุผลทางธุรกิจที่ Google ปล่อย โมเดลเปิด ออกมา แม้จะขอบคุณกับการเปิดแบบนี้ แต่อยากเข้าใจว่ามันเข้ากับภาพใหญ่ในฐานะบริษัทแสวงกำไรอย่างไร
อดคิดไม่ได้ว่ากำลังช่วยให้คู่แข่งขึ้นมาบนเทคโนโลยีใหม่ที่ตัวเองพัฒนาหรือเปล่า
เลยสงสัยว่าเป็นแค่ความหวังดีหรือการตลาด หรือมีเกมเชิงกลยุทธ์บางอย่างที่ผมมองไม่เห็น
ถ้าการอนุมานได้รับความนิยมและมีมูลค่ามากพอจนบริษัทเหล่านั้นทำกำไรได้หลายพันล้านดอลลาร์ พวกเขาก็อาจใช้กำไรนั้นสร้างผลิตภัณฑ์และแพลตฟอร์มทดแทนที่ตัด Google ออกจากความสัมพันธ์กับลูกค้าได้
Google มีธุรกิจที่อัตรากำไรขั้นต้น 80% ที่ใหญ่ที่สุดในโลกอยู่แล้ว และทุกคนก็อยากได้ส่วนแบ่งจากมัน
ถ้าทำให้การอนุมานระดับแนวหน้ามีราคาใกล้ต้นทุน และปล่อยโมเดลที่ต่ำกว่าระดับแนวหน้าเป็นโอเพนซอร์สเพื่อ ทำให้โมเดลกลายเป็นสินค้าโภคภัณฑ์ ก็จะทำให้แล็บแนวหน้ารักษาอัตรากำไรขั้นต้นสูงจากการอนุมานได้ยากขึ้น
นี่คือการป้องกันเชิงกลยุทธ์
ตอนนี้บริษัทของผมเองก็ทุ่มกับผลิตภัณฑ์แพลตฟอร์มหลายอย่าง และ Microsoft ก็พูดเมื่อวานว่าเป้าหมายคือ “Unmetered intelligence”
มีหลายอย่างที่โมเดลเล็กบนเครื่องทำได้ และสิ่งเหล่านั้นก็เป็นส่วนหนึ่งของสแตกที่ไปสร้างรายได้ในชั้นอื่น
ยังไงก็ต้องมีคนดึงเวตออกมาอยู่ดี งั้นปล่อยเป็นโอเพนซอร์สและทำให้เป็นทางการไปเลยง่ายกว่า
ยิ่งการยอมรับ AI เพิ่มขึ้น Google ก็ยิ่งได้อานิสงส์ไปด้วย และยิ่งได้เปรียบเมื่อผู้คนเลือกโซลูชันของ Google
ทุกโทเค็นที่ถูกส่งเข้าโมเดลของ Google ไม่ว่าจะฟรีหรือเสียเงิน ล้วนเป็นแรงกดดันให้คู่แข่งต้องเผาเงินมหาศาลเพื่อรักษาความล้ำหน้าไว้
ประเด็นคือจะเปิดโมเดลออกมาหรือใช้เพื่อวิจัยและพัฒนาอย่างเดียว
ตอนนี้ที่อื่นก็ปล่อยโมเดลคุณภาพใกล้เคียงกันอยู่แล้ว ดังนั้นการเข้าร่วมกระแสนี้จึงไม่น่าถือว่าเป็นการยิงเท้าตัวเอง
การกินตลาดตัวเองเพิ่มก็แทบเป็นศูนย์ และผลประโยชน์ด้านชื่อเสียงก็น่าจะคุ้มค่า
การประมวลผลภาพแย่มาก ผมลองทดสอบหลายอย่างกับ Qwen 3.5 0.8B แล้ว Qwen ที่มีขนาดแค่ 7% กลับชนะทุกครั้ง และ Gemma ก็ตอบผิดแบบหลุดไปเลยบ่อยมาก
ผมให้ภาพง่ายๆ ที่เขียนว่า “This is a test” แต่มันกลับพยายามคิดวิเคราะห์อยู่ 6 นาทีแล้วก็ล้มเหลว ขณะที่ Qwen 3.5 0.8B ตอบถูกอย่างมั่นใจในเวลาไม่ถึง 1 วินาที
เป็นไปได้ว่า Q6 quantization ที่ผมได้มามีปัญหา หรืออาจเป็นปัญหาของ LM Studio แต่ไม่ว่าแบบไหน ประสิทธิภาพของ 0.8B ก็ยังน่าทึ่งเมื่อเทียบกัน
ในโมเดล Gemma3 เองก็เคยมีบ่อยครั้งที่ปฏิเสธจะอธิบายภาพโดยบอกว่ามีภาพโป๊เปลือยหรือฉากทางเพศอยู่ในภาพ และผมก็ไม่เข้าใจว่าพฤติกรรมแบบนั้นสื่อถึงอะไร
แยกจากการเปลี่ยนสถาปัตยกรรม ดูเหมือนนี่จะเป็นคำตอบว่าทำไมในไลน์อัปโมเดลพรีเทรนของ Gemma4 ถึงเว้นช่วง ระหว่าง 4B กับ 26B ไว้อย่างแปลกๆ
โมเดลที่ใส่ลงใน 16GB VRAM ได้สบายแม้เผื่อคอนเท็กซ์ไว้ด้วย ถือเป็นอัปเกรดที่น่ายินดี
ถ้าไม่นับเรื่องมัลติมีเดีย อยากรู้ว่ามันดีกว่าโมเดล 1.5 บิตที่ใช้ qwen2.5 ของ prismml มากแค่ไหน
อยากรู้ กรณีใช้งานของโมเดลขนาดเล็ก แบบนี้ มีใครที่ใช้โมเดลระดับนี้ในชีวิตประจำวันแล้วช่วยแชร์ประสบการณ์จริงได้ไหม?
เช่น แปลงเอกสารสแกนเป็นข้อความที่มีรูปแบบ, ทำคำบรรยาย/คำอธิบายภาพและจัดประเภทความเหมาะสมของเนื้อหาเป้าหมาย (รวมถึงป้องกันสแปม), และจับคู่เอกสารกับหน้า Wikipedia ที่เกี่ยวข้องเพื่อทำแท็ก
ผมไม่ได้ใช้มันแบบเดียวกับโมเดลแนวหน้า แต่จะแยกเป็น งานย่อยระดับไมโคร ให้แต่ละพรอมป์มีเป้าหมายชัดเจนเพียงอย่างเดียว
ผมยังเขียนโค้ดกาวไว้เยอะเพื่อให้ทั้งเวิร์กโฟลว์ทำงานได้ และงานพวกนี้ก็เป็นสิ่งที่ทำกันมาก่อน LLM จะมีอยู่แล้ว
แต่ LLM ช่วยลดโค้ดที่ซับซ้อนและทำให้เพิ่มโมเดลเข้าไปเพื่อให้ได้ผลลัพธ์ที่ดีขึ้น
เหตุผลที่ใช้โมเดลโลคัลคือเรื่องต้นทุนและการควบคุม ผมมีเวิร์กสเตชันกับ GPU อยู่แล้ว และค่าใช้จ่ายในการรันก็มีแค่ค่าไฟ
ผมเคยใช้โมเดลปิดของ OpenAI และ Google ด้วย แต่เคยโดนผลกระทบตอนโมเดลที่เครื่องมือพึ่งพาถูกปลดระวาง ถ้าเก็บเวตไว้ในเครื่องก็ไม่ต้องกังวลเรื่องนั้น
ไม่นานมานี้ผมยังเห็นแอปเล็กๆ ที่ดูสกรีนช็อตแล้วเปลี่ยนชื่อไฟล์ตามเนื้อหาในไฟล์ด้วย
ตัวอย่างเล็กๆ แบบนี้มีเยอะมาก และในหลายกรณีการใช้งานก็ไม่จำเป็นต้องใช้โมเดลแนวหน้าเลย
เคยใช้ Gemma กับงานตรวจทานและจัดหมวดหมู่งานเขียนออนไลน์หลายปี โดยใช้กับข้อความที่ผมเขียนในฟอรัมโปรเจกต์โอเพนซอร์สที่มีส่วนร่วม, HN, Reddit ฯลฯ รวมประมาณ 5 ล้านคำ และเพราะเป็นงานเขียนของผมเอง จึงลองเทรน LoRA ได้โดยไม่ต้องกังวลเรื่องจริยธรรมของแหล่งข้อมูล
ตอนนี้กำลังใช้กับการค้นหาเว็บและดึงข้อมูลของธุรกิจในอุตสาหกรรมเฉพาะ
มันฉลาดพอที่จะหาธุรกิจในอุตสาหกรรมนั้นในเมืองที่กำหนด อ่านเว็บไซต์ ดึงที่อยู่และเบอร์โทรศัพท์ รวมถึงลบข้อมูลซ้ำและตรวจสอบไขว้กับแหล่งอื่นได้
Gemma 4 ทำได้ดีกว่าอย่างน้อยก็ในแง่การตัดสินแบบละเอียดอ่อนเมื่อเทียบกับ Gemini 2.5 Flash ส่วน Gemini 3.5 Flash ตัวใหม่ดีมากแต่แพงเกินจริง
ถ้าไม่ต้องการความเร็วระดับสูงมาก Gemma 4 ที่โฮสต์เองชนะในหลายงาน
Qwen 3.6 27B ก็เก่งอย่างน่าประหลาดในการหาบั๊กด้านความปลอดภัยเมื่อเทียบกับขนาดของมัน เอาชนะโมเดลที่ใหญ่กว่าหลายตัวและใกล้เคียง Gemini Pro 3.1 แต่ Gemini 3.5 Flash กลับดีกว่าอย่างชัดเจนแบบน่าประหลาดใจ
มีแค่ค่าไฟ และไฟของผมก็ถูกและเป็นพลังงานหมุนเวียน 100% เลยใช้ได้กว้างกว่าโมเดลที่ต้องเช่าโฮสต์
ถึงอย่างนั้น ทางเลือกที่คุ้มเงินจริงตอนนี้ก็ยังเป็นการซื้่อโทเคนที่ผู้ให้บริการปล่อยออกมาราคาถูกเหมือนอุดหนุน
ตอนนี้การจ่ายค่าสมาชิก Claude หรือ Codex 100 ดอลลาร์เพื่อใช้โมเดลระดับท็อปในราคาที่ลดลงมาก ยังคุ้มกว่าการซื้อฮาร์ดแวร์มารันโมเดลขนาดเกิน 30GB
ถ้าต้องใช้ API สำหรับงานอัตโนมัติ DeepSeek/MiMo ถูกกว่าโมเดลท็อปของ Anthropic หรือ OpenAI อยู่หนึ่งถึงสองหลัก
ผมใช้เงินไปราว 4,000 ดอลลาร์กับเครื่องอนุมานสองเครื่อง ซึ่งเงินก้อนนี้ซื้อโทเคนสำหรับโมเดลเล็กแบบนี้ได้เป็นปี ๆ
แต่ผมชอบเล่นกับฮาร์ดแวร์อยู่แล้ว แค่นั้นก็ถือว่าคุ้ม และถ้าเอาคืนได้บางส่วนก็เป็นโบนัส
ถ้าผู้ให้บริการรายใหญ่หยุดเผาเงินกับโทเคนอุดหนุนแล้วเริ่มคิดราคาจริงจัง การคำนวณก็อาจเปลี่ยนไป และผมอาจโชคดีที่ซื้ออุปกรณ์ไว้ก่อนที่ราคา RAM จะขึ้น 2~3 เท่า
ถ้าไม่ได้ตั้งใจจะเรียนรู้เทคโนโลยีหรือทดลองเทรนด้วยตัวเอง โดยมากแล้วน่าจะไม่คุ้มที่จะพยายามรันแบบโลคัล
ถ้ามีไอเดียที่เฉพาะเจาะจงมากพอสำหรับการใช้โมเดลโลคัล ก็ทำให้มันทำงานได้ดีโดยไม่ต้องมีการ์ดจอหรือ NPU
แต่ต้องจำกัดวิธีใช้อย่างมาก มันไม่เหมาะเป็นแชตบอตอเนกประสงค์ และแม้ผมจะชอบ local LLM แต่ถ้าเป็นงานนั้นผมก็จะใช้โมเดลโฮสต์รุ่นใหม่สุด
ถ้างานง่ายพอที่จะโยนให้ Sonnet ได้ ผมก็โยนให้ Gemma 4 เหมือนกัน และมันทำได้ดีมาก
ผมประหลาดใจในทางบวกบ่อยกว่าผิดหวังในทางลบมาก
และก็เจอสถานการณ์อยู่ไม่น้อยที่ Gemma 4 ล้มเหลว เลยสลับไป Opus 4.7 แต่ Opus ก็ยังล้มเหลว
เป็นอัปเดตที่ค่อนข้างดี แต่เดโมวิดีโอก็ตลกดี
พอผู้ทดสอบขอให้เปลี่ยนโน้ตรีลีสเป็นรายการหัวข้อย่อย โมเดลก็ทำได้ดี
แต่พอขอให้ร่างอีเมลจากเนื้อหานั้นต่อ มันกลับเปลี่ยนหัวข้อย่อยเป็นย่อหน้าเองทั้งที่ไม่ได้ขอ เหมือนลบผลงานดี ๆ ที่เพิ่งทำไป
ไม่รู้ว่าอีเมลมีมารยาทห้ามใช้หัวข้อย่อยหรือเปล่า
ลองปล่อยและตรวจ benchmark ภาษาเยอรมันอย่างเร็วแล้ว ผลเฉพาะภาษาเยอรมันของ CohereLabs/include-base-44 สำหรับ Gemma 4 12B อยู่ที่ประมาณ 0.618
Gemma 4 26B (A4B MoE) ได้ 0.647, Qwen 3 14B ได้ 0.621, Gemma 4 12B ได้ 0.618, Ministral 14B 2512 ได้ 0.604 และ Gemma 3 12B ได้ 0.547
ความต่างระหว่าง Qwen 3 14B กับ Gemma 4 12B ยังอยู่ในช่วงความผันผวนแบบสุ่ม และในการรันซ้ำก็เคยได้คะแนนเท่ากันเป๊ะ
ส่วน Gemma 4 31B ซึ่งเป็นขั้นถัดไป ได้ 0.676 ใน benchmark นี้ และ Qwen 3 14B ที่เปิดให้ใช้การอนุมานก็ได้ 0.676 เช่นกัน
พรุ่งนี้ตั้งใจจะรัน benchmark ป้องกันการโกงด้วย เพื่อดูว่า Qwen ยังนำอยู่หรือไม่