รายงานทางเทคนิคของ Gemma 3 จาก Google DeepMind [pdf]

(storage.googleapis.com)

2 คะแนน โดย GN⁺ 2025-03-13 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Gemma 3 คือโมเดลตระกูลโอเพนรุ่นใหม่แบบน้ำหนักเบาจาก Google DeepMind โดยมีขนาดพารามิเตอร์หลากหลายตั้งแต่ 1B ถึง 27B
การปรับปรุงสำคัญ:
- เพิ่มความสามารถแบบ มัลติโหมด → รองรับความเข้าใจด้านภาพ
- รองรับบริบทยาว → ประมวลผลได้สูงสุด 128K โทเค็น
- เสริมการรองรับ หลายภาษา → ประสิทธิภาพดีขึ้นในหลายภาษา
- ปรับการใช้หน่วยความจำให้เหมาะสม → ลดการใช้หน่วยความจำ KV-cache ด้วยการปรับสัดส่วนเลเยอร์ local และ global attention (5:1)
ฝึกด้วยวิธี Knowledge Distillation → ประสิทธิภาพดีขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า

# สถาปัตยกรรมโมเดล

ยังคงใช้สถาปัตยกรรม decoder-only Transformer
นำ Grouped-Query Attention (GQA) มาใช้ → ใช้กลไก attention ที่มีประสิทธิภาพมากขึ้น
ตั้งค่า สัดส่วน local/global attention เป็น 5:1 → คงขนาด local window ไว้ที่ 1024 โทเค็น
ขยายความถี่ฐานของ RoPE (Rotary Position Embedding) จาก 10K เป็น 1M → รองรับบริบทยาวได้ดีขึ้น
ตัวเข้ารหัสภาพ: ใช้ตัวเข้ารหัสที่อิงกับ SigLIP (พารามิเตอร์ 400M)

# โมดาลิตีด้านภาพ

ตัวเข้ารหัสภาพ: ทำงานที่ความละเอียด 896 x 896
ใช้เทคนิค Pan & Scan (P&S) → รองรับภาพที่มีอัตราส่วนไม่เป็นมาตรฐาน
ตัวเข้ารหัสภาพถูกใช้ร่วมกันในโมเดล 4B, 12B และ 27B → คงสถานะแบบ fixed ระหว่างการฝึก

# การฝึกล่วงหน้า (Pre-training)

ฝึกด้วยวิธี Knowledge Distillation
จำนวนโทเค็นที่ใช้ในการฝึก:
- 1B → 2T โทเค็น
- 4B → 4T โทเค็น
- 12B → 12T โทเค็น
- 27B → 14T โทเค็น
ปรับปรุงประสิทธิภาพด้านหลายภาษา → รวมทั้งข้อมูลภาษาเดี่ยวและข้อมูลขนาน
กระบวนการคัดกรองข้อมูล → ลบข้อมูลส่วนบุคคลและข้อมูลอ่อนไหว

# การฝึกแบบตระหนักถึงการควอนไทซ์ (Quantization Aware Training)

ทำการควอนไทซ์หลังการฝึก → มีให้เลือกหลายรูปแบบ เช่น int4, fp8
ผลด้านการประหยัดหน่วยความจำ:
- อิงจากโมเดล 27B:
  - ต้นฉบับ: 54GB → หลังควอนไทซ์: ต่ำสุด 14.1GB

# การจูนคำสั่ง (Instruction Tuning)

ใช้ทั้งการเสริมกำลังการเรียนรู้และ Knowledge Distillation ควบคู่กัน
เสริมความสามารถด้าน ความเป็นประโยชน์ คณิตศาสตร์ การเขียนโค้ด การให้เหตุผล และหลายภาษา
เทคโนโลยีหลักที่ใช้ในการเสริมกำลังการเรียนรู้:
- BOND, WARM, WARP → ใช้เทคนิค reinforcement learning แบบอิงรางวัล
คัดกรองข้อมูล → ลบข้อมูลที่ไม่จำเป็นและข้อมูลอ่อนไหว

# การประเมินประสิทธิภาพ

ผลการประเมิน LMSYS Chatbot Arena

โมเดล Gemma 3 27B IT ได้ คะแนน Elo: 1338 → ประสิทธิภาพติด 10 อันดับแรก
ทำผลงานได้ใกล้เคียงกับ GPT-4.5 และ Grok-3-Preview
สูงกว่า Gemma 2 27B รุ่นก่อนหน้า 118 คะแนน

ประสิทธิภาพบนเบนช์มาร์กมาตรฐาน

MMLU-Pro: 67.5 (สูงกว่า Gemma 2 ราว 10 คะแนน)
MATH: 89.0 (สูงกว่า Gemma 2 ราว 34 คะแนน)
LiveCodeBench: 29.7 (สูงกว่า Gemma 2 ราว 9 คะแนน)

# การวิเคราะห์ประสิทธิภาพตามการเปลี่ยนแปลงโครงสร้าง

สัดส่วน local:global attention → 5:1 เหมาะสมที่สุดทั้งด้านประสิทธิภาพและการใช้หน่วยความจำ
ขนาด sliding window → 1024 โทเค็นยังคงประสิทธิภาพได้โดยไม่ลดทอน พร้อมรักษาประสิทธิภาพด้านหน่วยความจำ
การลดหน่วยความจำ KV cache → ลดลง 15% เมื่อเทียบกับ attention แบบ global-only

# เสริมการรองรับบริบทยาว

ระหว่างการฝึกเริ่มจาก 32K โทเค็น → จากนั้นขยายเป็น 128K โทเค็น
ปรับความถี่ของ RoPE → ขยายบริบทได้โดยไม่ทำให้ประสิทธิภาพลดลง

# การประเมินประสิทธิภาพของตัวเข้ารหัสภาพ

ประสิทธิภาพดีขึ้นเมื่อเพิ่มความละเอียดอินพุต:
- ที่ความละเอียด 256 → 896 ประสิทธิภาพเพิ่มขึ้นได้สูงสุด 20%
ประสิทธิภาพเพิ่มขึ้นเมื่อใช้เทคนิค Pan & Scan:
- DocVQA → +4.8%
- InfoVQA → +17.0%
โฆษณา

# หน่วยความจำและการคุ้มครองความเป็นส่วนตัว

อัตราการจดจำข้อมูล (Memorization Rate) ลดลง:
- Gemma 3 ใช้หน่วยความจำน้อยกว่า Gemma 2
- ความเสี่ยงการรั่วไหลของข้อมูลส่วนบุคคลต่ำ

# ความรับผิดชอบ ความปลอดภัย และความมั่นคงปลอดภัย

ป้องกันเนื้อหาที่เป็นอันตรายตามนโยบายความปลอดภัยของ Google:
- ป้องกันการล่วงละเมิดเด็ก คำพูดแสดงความเกลียดชัง การรั่วไหลของข้อมูลส่วนบุคคล เป็นต้น
ใช้การเสริมกำลังการเรียนรู้ที่เข้มข้นขึ้นและ RLHF → ลดการสร้างเนื้อหาที่เป็นอันตรายให้น้อยที่สุด

# บทสรุป

Gemma 3 ดีขึ้นอย่างมากจาก Gemma 2 เดิมในด้าน มัลติโหมด หลายภาษา และบริบทยาว
ความเข้าใจภาพ รวมถึงความสามารถด้านคณิตศาสตร์และการเขียนโค้ดดีขึ้น
การใช้หน่วยความจำที่เหมาะสมยิ่งขึ้น ทำให้ทั้งประสิทธิภาพและความคุ้มค่าดีขึ้น

รายงานทางเทคนิคของ Gemma 3 จาก Google DeepMind [pdf]

# สถาปัตยกรรมโมเดล

# โมดาลิตีด้านภาพ

# การฝึกล่วงหน้า (Pre-training)

# การฝึกแบบตระหนักถึงการควอนไทซ์ (Quantization Aware Training)

# การจูนคำสั่ง (Instruction Tuning)

# การประเมินประสิทธิภาพ

ผลการประเมิน LMSYS Chatbot Arena

ประสิทธิภาพบนเบนช์มาร์กมาตรฐาน

# การวิเคราะห์ประสิทธิภาพตามการเปลี่ยนแปลงโครงสร้าง

# เสริมการรองรับบริบทยาว

# การประเมินประสิทธิภาพของตัวเข้ารหัสภาพ

# หน่วยความจำและการคุ้มครองความเป็นส่วนตัว

# ความรับผิดชอบ ความปลอดภัย และความมั่นคงปลอดภัย

# บทสรุป

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น