• Gemma 3 คือโมเดลตระกูลโอเพนรุ่นใหม่แบบน้ำหนักเบาจาก Google DeepMind โดยมีขนาดพารามิเตอร์หลากหลายตั้งแต่ 1B ถึง 27B
  • การปรับปรุงสำคัญ:
    • เพิ่มความสามารถแบบ มัลติโหมด → รองรับความเข้าใจด้านภาพ
    • รองรับบริบทยาว → ประมวลผลได้สูงสุด 128K โทเค็น
    • เสริมการรองรับ หลายภาษา → ประสิทธิภาพดีขึ้นในหลายภาษา
    • ปรับการใช้หน่วยความจำให้เหมาะสม → ลดการใช้หน่วยความจำ KV-cache ด้วยการปรับสัดส่วนเลเยอร์ local และ global attention (5:1)
  • ฝึกด้วยวิธี Knowledge Distillation → ประสิทธิภาพดีขึ้นเมื่อเทียบกับเวอร์ชันก่อนหน้า

# สถาปัตยกรรมโมเดล

  • ยังคงใช้สถาปัตยกรรม decoder-only Transformer
  • นำ Grouped-Query Attention (GQA) มาใช้ → ใช้กลไก attention ที่มีประสิทธิภาพมากขึ้น
  • ตั้งค่า สัดส่วน local/global attention เป็น 5:1 → คงขนาด local window ไว้ที่ 1024 โทเค็น
  • ขยายความถี่ฐานของ RoPE (Rotary Position Embedding) จาก 10K เป็น 1M → รองรับบริบทยาวได้ดีขึ้น
  • ตัวเข้ารหัสภาพ: ใช้ตัวเข้ารหัสที่อิงกับ SigLIP (พารามิเตอร์ 400M)

# โมดาลิตีด้านภาพ

  • ตัวเข้ารหัสภาพ: ทำงานที่ความละเอียด 896 x 896
  • ใช้เทคนิค Pan & Scan (P&S) → รองรับภาพที่มีอัตราส่วนไม่เป็นมาตรฐาน
  • ตัวเข้ารหัสภาพถูกใช้ร่วมกันในโมเดล 4B, 12B และ 27B → คงสถานะแบบ fixed ระหว่างการฝึก

# การฝึกล่วงหน้า (Pre-training)

  • ฝึกด้วยวิธี Knowledge Distillation
  • จำนวนโทเค็นที่ใช้ในการฝึก:
    • 1B → 2T โทเค็น
    • 4B → 4T โทเค็น
    • 12B → 12T โทเค็น
    • 27B → 14T โทเค็น
  • ปรับปรุงประสิทธิภาพด้านหลายภาษา → รวมทั้งข้อมูลภาษาเดี่ยวและข้อมูลขนาน
  • กระบวนการคัดกรองข้อมูล → ลบข้อมูลส่วนบุคคลและข้อมูลอ่อนไหว

# การฝึกแบบตระหนักถึงการควอนไทซ์ (Quantization Aware Training)

  • ทำการควอนไทซ์หลังการฝึก → มีให้เลือกหลายรูปแบบ เช่น int4, fp8
  • ผลด้านการประหยัดหน่วยความจำ:
    • อิงจากโมเดล 27B:
      • ต้นฉบับ: 54GB → หลังควอนไทซ์: ต่ำสุด 14.1GB

# การจูนคำสั่ง (Instruction Tuning)

  • ใช้ทั้งการเสริมกำลังการเรียนรู้และ Knowledge Distillation ควบคู่กัน
  • เสริมความสามารถด้าน ความเป็นประโยชน์ คณิตศาสตร์ การเขียนโค้ด การให้เหตุผล และหลายภาษา
  • เทคโนโลยีหลักที่ใช้ในการเสริมกำลังการเรียนรู้:
    • BOND, WARM, WARP → ใช้เทคนิค reinforcement learning แบบอิงรางวัล
  • คัดกรองข้อมูล → ลบข้อมูลที่ไม่จำเป็นและข้อมูลอ่อนไหว

# การประเมินประสิทธิภาพ

ผลการประเมิน LMSYS Chatbot Arena

  • โมเดล Gemma 3 27B IT ได้ คะแนน Elo: 1338 → ประสิทธิภาพติด 10 อันดับแรก
  • ทำผลงานได้ใกล้เคียงกับ GPT-4.5 และ Grok-3-Preview
  • สูงกว่า Gemma 2 27B รุ่นก่อนหน้า 118 คะแนน

ประสิทธิภาพบนเบนช์มาร์กมาตรฐาน

  • MMLU-Pro: 67.5 (สูงกว่า Gemma 2 ราว 10 คะแนน)
  • MATH: 89.0 (สูงกว่า Gemma 2 ราว 34 คะแนน)
  • LiveCodeBench: 29.7 (สูงกว่า Gemma 2 ราว 9 คะแนน)

# การวิเคราะห์ประสิทธิภาพตามการเปลี่ยนแปลงโครงสร้าง

  • สัดส่วน local:global attention → 5:1 เหมาะสมที่สุดทั้งด้านประสิทธิภาพและการใช้หน่วยความจำ
  • ขนาด sliding window → 1024 โทเค็นยังคงประสิทธิภาพได้โดยไม่ลดทอน พร้อมรักษาประสิทธิภาพด้านหน่วยความจำ
  • การลดหน่วยความจำ KV cache → ลดลง 15% เมื่อเทียบกับ attention แบบ global-only

# เสริมการรองรับบริบทยาว

  • ระหว่างการฝึกเริ่มจาก 32K โทเค็น → จากนั้นขยายเป็น 128K โทเค็น
  • ปรับความถี่ของ RoPE → ขยายบริบทได้โดยไม่ทำให้ประสิทธิภาพลดลง

# การประเมินประสิทธิภาพของตัวเข้ารหัสภาพ

  • ประสิทธิภาพดีขึ้นเมื่อเพิ่มความละเอียดอินพุต:
    • ที่ความละเอียด 256 → 896 ประสิทธิภาพเพิ่มขึ้นได้สูงสุด 20%
  • ประสิทธิภาพเพิ่มขึ้นเมื่อใช้เทคนิค Pan & Scan:
    • DocVQA → +4.8%
    • InfoVQA → +17.0%

# หน่วยความจำและการคุ้มครองความเป็นส่วนตัว

  • อัตราการจดจำข้อมูล (Memorization Rate) ลดลง:
    • Gemma 3 ใช้หน่วยความจำน้อยกว่า Gemma 2
    • ความเสี่ยงการรั่วไหลของข้อมูลส่วนบุคคลต่ำ

# ความรับผิดชอบ ความปลอดภัย และความมั่นคงปลอดภัย

  • ป้องกันเนื้อหาที่เป็นอันตรายตามนโยบายความปลอดภัยของ Google:
    • ป้องกันการล่วงละเมิดเด็ก คำพูดแสดงความเกลียดชัง การรั่วไหลของข้อมูลส่วนบุคคล เป็นต้น
  • ใช้การเสริมกำลังการเรียนรู้ที่เข้มข้นขึ้นและ RLHF → ลดการสร้างเนื้อหาที่เป็นอันตรายให้น้อยที่สุด

# บทสรุป

  • Gemma 3 ดีขึ้นอย่างมากจาก Gemma 2 เดิมในด้าน มัลติโหมด หลายภาษา และบริบทยาว
  • ความเข้าใจภาพ รวมถึงความสามารถด้านคณิตศาสตร์และการเขียนโค้ดดีขึ้น
  • การใช้หน่วยความจำที่เหมาะสมยิ่งขึ้น ทำให้ทั้งประสิทธิภาพและความคุ้มค่าดีขึ้น

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น