โมเดล Gemma 3 QAT: นำ AI ระดับล้ำสมัยมาสู่ GPU สำหรับผู้บริโภค
(developers.googleblog.com)- Gemma 3 ที่ประกาศเมื่อเดือนที่แล้วเป็นโมเดล AI แบบเปิดที่มอบประสิทธิภาพล้ำสมัย และสามารถ รันได้บน GPU ประสิทธิภาพสูงเพียงตัวเดียว อย่าง NVIDIA H100
- มีการเปิดตัว เวอร์ชันน้ำหนักเบา ที่ใช้เทคนิค QAT(Quantization-Aware Training) ทำให้ตอนนี้สามารถรันได้บน GPU สำหรับผู้บริโภค ด้วย
- ด้วย การทำ quantization แบบ int4 จึง ลดการใช้หน่วยความจำลงได้อย่างมาก พร้อมลดผลกระทบต่อประสิทธิภาพให้น้อยที่สุด
- โมเดล QAT สามารถ รันได้บน GPU ทั่วไปอย่าง RTX 3090, RTX 4060 และใช้งานได้ทันทีผ่าน Hugging Face, Ollama, LM Studio เป็นต้น
- ยังมี โมเดล PTQ จากคอมมูนิตี้ หลายแบบให้ใช้งานร่วมกัน เพื่อให้เลือกได้อย่างยืดหยุ่น
แนะนำ Gemma 3 และภาพรวมประสิทธิภาพ
- Gemma 3 โมเดลเปิดรุ่นล่าสุดจาก Google เป็น โมเดลภาษาขนาดใหญ่ ที่มีประสิทธิภาพโดดเด่น
- สามารถ รันบน NVIDIA H100 GPU ได้ ด้วยความละเอียด BF16 (floating point 16 บิต) และทำคะแนน Chatbot Arena Elo ได้อย่างยอดเยี่ยม
- เหตุผลที่ใช้ BF16 คือเพื่อให้การเปรียบเทียบประสิทธิภาพระหว่างโมเดลมีความเป็นธรรม โดยสามารถเทียบประสิทธิภาพดั้งเดิมของโมเดลได้ในสภาวะที่ตัดวิธีปรับแต่งแบบต่าง ๆ ออก
Quantization บนพื้นฐาน QAT เพื่อเพิ่มการเข้าถึง
- เดิมทีโมเดลขนาดใหญ่ต้องการสภาพแวดล้อมคลาวด์สเปกสูง แต่ได้ใช้เทคนิค QAT เพื่อ ทำให้สามารถรันได้บนฮาร์ดแวร์สำหรับผู้บริโภคด้วย
- Quantization คือการลดความละเอียดเชิงตัวเลขภายในโมเดลเพื่อ ลดการใช้หน่วยความจำและทำให้รันได้เร็วขึ้น
- ตัวอย่าง: หากใช้รูปแบบ int4 แทน BF16 จะได้ผลของการ บีบอัดมากกว่า 4 เท่า
รักษาคุณภาพด้วย QAT
- แทนที่จะใช้การทำ quantization ภายหลังแบบง่าย ๆ ได้เลือกใช้วิธี QAT(Quantization-Aware Training) ที่สะท้อนการทำ quantization ระหว่างการฝึก
- ระหว่างการฝึก ได้ ใช้ความน่าจะเป็นของการทำนายจาก checkpoint ที่ไม่ผ่าน quantization เป็นค่าเป้าหมายราว 5,000 สเต็ป
- ด้วยวิธีนี้ จึงทำได้ถึง ลดอัตราการลดลงของ Perplexity ลง 54% เมื่อทำ quantization แบบ Q4_0
การลดการใช้ VRAM อย่างก้าวกระโดด
-
ผลของ การประหยัด VRAM จาก quantization แบบ int4 มีขนาดมาก โดยการลดลงของแต่ละโมเดลมีดังนี้:
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
-
ตัวเลขนี้รวมเฉพาะ VRAM ที่จำเป็นสำหรับการโหลดน้ำหนักโมเดลเท่านั้น ส่วน KV cache ที่ต้องใช้ระหว่างการรันจะต้องใช้ VRAM แยกต่างหาก
รันได้บนอุปกรณ์หลากหลาย
- Gemma 3 27B (int4): สามารถรันแบบโลคัลได้บน RTX 3090 (24GB VRAM)
- Gemma 3 12B (int4): รันได้อย่างไม่มีปัญหาบน RTX 4060 Laptop (8GB VRAM)
- Gemma 3 4B, 1B: สามารถทำงานได้บนสมาร์ตโฟนและอุปกรณ์สเปกต่ำ
ผสานรวมและใช้งานได้ง่าย
-
โมเดล QAT สามารถ ใช้งานได้ทันทีบนหลายแพลตฟอร์มและเครื่องมือ:
- Ollama: รันได้ด้วยคำสั่งบรรทัดเดียว
- LM Studio: ดาวน์โหลดและรันได้ในสภาพแวดล้อม GUI
- MLX: รองรับการอนุมานประสิทธิภาพสูงบน Apple Silicon
- Gemma.cpp: รันประสิทธิภาพสูงในสภาพแวดล้อม CPU
- llama.cpp: ผสานรวมได้ง่ายด้วยฟอร์แมต GGUF
โมเดลคอมมูนิตี้ใน Gemmaverse
- นอกจากโมเดล QAT อย่างเป็นทางการแล้ว ยังมี โมเดล PTQ จากคอมมูนิตี้ ให้เลือกหลากหลาย
- ผู้มีส่วนร่วมหลัก: Bartowski, Unsloth, GGML
- โมเดลหลากหลายเหล่านี้สามารถ เลือกใช้ตามสมดุลของความเร็ว ขนาด และคุณภาพ ได้
เริ่มต้นได้ทันที
- นี่คือ ก้าวสำคัญสู่การทำให้ AI เข้าถึงคนจำนวนมาก โดย Gemma 3 เวอร์ชัน QAT ทำให้ทุกคนสามารถรันแบบโลคัลได้
- วิธีเริ่มใช้งาน:
- PC: Ollama
- ดาวน์โหลดโมเดล: Hugging Face, Kaggle
- รันบนมือถือ: ใช้ Google AI Edge
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
โมเดล gemma-3-27b-it-qat-4bit เป็นโมเดลตัวเลือกใหม่ที่ชื่นชอบร่วมกับ Mistral Small 3.1 24B
สำหรับคำถามแนว "เช็กบรรยากาศ" แบบส่วนตัว โมเดล 4bit QAT 27B ให้คำตอบได้อย่างแม่นยำ
กราฟแรกเป็นการเปรียบเทียบ "Elo Score" ที่ความแม่นยำ BF16 และกราฟที่สองเป็นการเปรียบเทียบการใช้ VRAM
กำลังใช้ gemma3:27b-it-qat แทน qwen2.5 เพื่อทำงานประจำวันบน Mac หน่วยความจำ 32G
กำลังรันบน CPU AMD 3950x แบบ 16 คอร์ และน่าประทับใจมากในงานแปลภาษาและการอธิบายภาพ
หลังดาวน์โหลด QAT gemma3:27b เวอร์ชันล่าสุดแล้ว ประสิทธิภาพดีขึ้น 1.47 เท่า
จำเป็นที่ local LLM จะต้องได้รับการปฏิบัติในฐานะพลเมืองชั้นหนึ่งจากบริษัทต่าง ๆ
Microsoft และ Apple โปรโมต AI PC และ Apple Intelligence แต่ในความเป็นจริง โมเดลที่ใช้งานได้บน GPU สำหรับผู้บริโภคกลับทำได้เฉพาะบน GPU ระดับสูงเท่านั้น
Gemma 3 เหนือกว่า Llama 4 อย่างมาก
ใช้งานได้บน Ollama