- Gemma 3 คือโมเดลตระกูลโอเพนรุ่นใหม่แบบน้ำหนักเบาจาก Google DeepMind โดยมีขนาดพารามิเตอร์หลากหลายตั้งแต่ 1B ถึง 27B
- การปรับปรุงสำคัญ:
- เพิ่มความสามารถแบบ มัลติโหมด → รองรับความเข้าใจด้านภาพ
- รองรับบริบทยาว → ประมวลผลได้สูงสุด 128K โทเค็น
- เสริมการรองรับ หลายภาษา → ประสิทธิภาพดีขึ้นในหลายภาษา
- ปรับการใช้หน่วยความจำให้เหมาะสม → ลดการใช้หน่วยความจำ KV-cache ด้วยการปรับสัดส่วนเลเยอร์ local และ global attention (5:1)
- ฝึกด้วยวิธี Knowledge Distillation → ประสิทธิภาพดีขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า
# สถาปัตยกรรมโมเดล
- ยังคงใช้สถาปัตยกรรม decoder-only Transformer
- นำ Grouped-Query Attention (GQA) มาใช้ → ใช้กลไก attention ที่มีประสิทธิภาพมากขึ้น
- ตั้งค่า สัดส่วน local/global attention เป็น 5:1 → คงขนาด local window ไว้ที่ 1024 โทเค็น
- ขยายความถี่ฐานของ RoPE (Rotary Position Embedding) จาก 10K เป็น 1M → รองรับบริบทยาวได้ดีขึ้น
- ตัวเข้ารหัสภาพ: ใช้ตัวเข้ารหัสที่อิงกับ SigLIP (พารามิเตอร์ 400M)
# โมดาลิตีด้านภาพ
- ตัวเข้ารหัสภาพ: ทำงานที่ความละเอียด 896 x 896
- ใช้เทคนิค Pan & Scan (P&S) → รองรับภาพที่มีอัตราส่วนไม่เป็นมาตรฐาน
- ตัวเข้ารหัสภาพถูกใช้ร่วมกันในโมเดล 4B, 12B และ 27B → คงสถานะแบบ fixed ระหว่างการฝึก
# การฝึกล่วงหน้า (Pre-training)
- ฝึกด้วยวิธี Knowledge Distillation
- จำนวนโทเค็นที่ใช้ในการฝึก:
- 1B → 2T โทเค็น
- 4B → 4T โทเค็น
- 12B → 12T โทเค็น
- 27B → 14T โทเค็น
- ปรับปรุงประสิทธิภาพด้านหลายภาษา → รวมทั้งข้อมูลภาษาเดี่ยวและข้อมูลขนาน
- กระบวนการคัดกรองข้อมูล → ลบข้อมูลส่วนบุคคลและข้อมูลอ่อนไหว
# การฝึกแบบตระหนักถึงการควอนไทซ์ (Quantization Aware Training)
- ทำการควอนไทซ์หลังการฝึก → มีให้เลือกหลายรูปแบบ เช่น int4, fp8
- ผลด้านการประหยัดหน่วยความจำ:
- อิงจากโมเดล 27B:
- ต้นฉบับ: 54GB → หลังควอนไทซ์: ต่ำสุด 14.1GB
# การจูนคำสั่ง (Instruction Tuning)
- ใช้ทั้งการเสริมกำลังการเรียนรู้และ Knowledge Distillation ควบคู่กัน
- เสริมความสามารถด้าน ความเป็นประโยชน์ คณิตศาสตร์ การเขียนโค้ด การให้เหตุผล และหลายภาษา
- เทคโนโลยีหลักที่ใช้ในการเสริมกำลังการเรียนรู้:
- BOND, WARM, WARP → ใช้เทคนิค reinforcement learning แบบอิงรางวัล
- คัดกรองข้อมูล → ลบข้อมูลที่ไม่จำเป็นและข้อมูลอ่อนไหว
# การประเมินประสิทธิภาพ
ผลการประเมิน LMSYS Chatbot Arena
- โมเดล Gemma 3 27B IT ได้ คะแนน Elo: 1338 → ประสิทธิภาพติด 10 อันดับแรก
- ทำผลงานได้ใกล้เคียงกับ GPT-4.5 และ Grok-3-Preview
- สูงกว่า Gemma 2 27B รุ่นก่อนหน้า 118 คะแนน
ประสิทธิภาพบนเบนช์มาร์กมาตรฐาน
- MMLU-Pro: 67.5 (สูงกว่า Gemma 2 ราว 10 คะแนน)
- MATH: 89.0 (สูงกว่า Gemma 2 ราว 34 คะแนน)
- LiveCodeBench: 29.7 (สูงกว่า Gemma 2 ราว 9 คะแนน)
# การวิเคราะห์ประสิทธิภาพตามการเปลี่ยนแปลงโครงสร้าง
- สัดส่วน local:global attention → 5:1 เหมาะสมที่สุดทั้งด้านประสิทธิภาพและการใช้หน่วยความจำ
- ขนาด sliding window → 1024 โทเค็นยังคงประสิทธิภาพได้โดยไม่ลดทอน พร้อมรักษาประสิทธิภาพด้านหน่วยความจำ
- การลดหน่วยความจำ KV cache → ลดลง 15% เมื่อเทียบกับ attention แบบ global-only
# เสริมการรองรับบริบทยาว
- ระหว่างการฝึกเริ่มจาก 32K โทเค็น → จากนั้นขยายเป็น 128K โทเค็น
- ปรับความถี่ของ RoPE → ขยายบริบทได้โดยไม่ทำให้ประสิทธิภาพลดลง
# การประเมินประสิทธิภาพของตัวเข้ารหัสภาพ
- ประสิทธิภาพดีขึ้นเมื่อเพิ่มความละเอียดอินพุต:
- ที่ความละเอียด 256 → 896 ประสิทธิภาพเพิ่มขึ้นได้สูงสุด 20%
- ประสิทธิภาพเพิ่มขึ้นเมื่อใช้เทคนิค Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%
# หน่วยความจำและการคุ้มครองความเป็นส่วนตัว
- อัตราการจดจำข้อมูล (Memorization Rate) ลดลง:
- Gemma 3 ใช้หน่วยความจำน้อยกว่า Gemma 2
- ความเสี่ยงการรั่วไหลของข้อมูลส่วนบุคคลต่ำ
# ความรับผิดชอบ ความปลอดภัย และความมั่นคงปลอดภัย
- ป้องกันเนื้อหาที่เป็นอันตรายตามนโยบายความปลอดภัยของ Google:
- ป้องกันการล่วงละเมิดเด็ก คำพูดแสดงความเกลียดชัง การรั่วไหลของข้อมูลส่วนบุคคล เป็นต้น
- ใช้การเสริมกำลังการเรียนรู้ที่เข้มข้นขึ้นและ RLHF → ลดการสร้างเนื้อหาที่เป็นอันตรายให้น้อยที่สุด
# บทสรุป
- Gemma 3 ดีขึ้นอย่างมากจาก Gemma 2 เดิมในด้าน มัลติโหมด หลายภาษา และบริบทยาว
- ความเข้าใจภาพ รวมถึงความสามารถด้านคณิตศาสตร์และการเขียนโค้ดดีขึ้น
- การใช้หน่วยความจำที่เหมาะสมยิ่งขึ้น ทำให้ทั้งประสิทธิภาพและความคุ้มค่าดีขึ้น
ยังไม่มีความคิดเห็น