โมเดล Gemma 3 QAT: นำ AI ระดับล้ำสมัยมาสู่ GPU สำหรับผู้บริโภค

(developers.googleblog.com)

12 คะแนน โดย GN⁺ 2025-04-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Gemma 3 ที่ประกาศเมื่อเดือนที่แล้วเป็นโมเดล AI แบบเปิดที่มอบประสิทธิภาพล้ำสมัย และสามารถ รันได้บน GPU ประสิทธิภาพสูงเพียงตัวเดียว อย่าง NVIDIA H100
มีการเปิดตัว เวอร์ชันน้ำหนักเบา ที่ใช้เทคนิค QAT(Quantization-Aware Training) ทำให้ตอนนี้สามารถรันได้บน GPU สำหรับผู้บริโภค ด้วย
ด้วย การทำ quantization แบบ int4 จึง ลดการใช้หน่วยความจำลงได้อย่างมาก พร้อมลดผลกระทบต่อประสิทธิภาพให้น้อยที่สุด
โมเดล QAT สามารถ รันได้บน GPU ทั่วไปอย่าง RTX 3090, RTX 4060 และใช้งานได้ทันทีผ่าน Hugging Face, Ollama, LM Studio เป็นต้น
ยังมี โมเดล PTQ จากคอมมูนิตี้ หลายแบบให้ใช้งานร่วมกัน เพื่อให้เลือกได้อย่างยืดหยุ่น

แนะนำ Gemma 3 และภาพรวมประสิทธิภาพ

Gemma 3 โมเดลเปิดรุ่นล่าสุดจาก Google เป็น โมเดลภาษาขนาดใหญ่ ที่มีประสิทธิภาพโดดเด่น
สามารถ รันบน NVIDIA H100 GPU ได้ ด้วยความละเอียด BF16 (floating point 16 บิต) และทำคะแนน Chatbot Arena Elo ได้อย่างยอดเยี่ยม
เหตุผลที่ใช้ BF16 คือเพื่อให้การเปรียบเทียบประสิทธิภาพระหว่างโมเดลมีความเป็นธรรม โดยสามารถเทียบประสิทธิภาพดั้งเดิมของโมเดลได้ในสภาวะที่ตัดวิธีปรับแต่งแบบต่าง ๆ ออก

Quantization บนพื้นฐาน QAT เพื่อเพิ่มการเข้าถึง

เดิมทีโมเดลขนาดใหญ่ต้องการสภาพแวดล้อมคลาวด์สเปกสูง แต่ได้ใช้เทคนิค QAT เพื่อ ทำให้สามารถรันได้บนฮาร์ดแวร์สำหรับผู้บริโภคด้วย
Quantization คือการลดความละเอียดเชิงตัวเลขภายในโมเดลเพื่อ ลดการใช้หน่วยความจำและทำให้รันได้เร็วขึ้น
ตัวอย่าง: หากใช้รูปแบบ int4 แทน BF16 จะได้ผลของการ บีบอัดมากกว่า 4 เท่า

รักษาคุณภาพด้วย QAT

แทนที่จะใช้การทำ quantization ภายหลังแบบง่าย ๆ ได้เลือกใช้วิธี QAT(Quantization-Aware Training) ที่สะท้อนการทำ quantization ระหว่างการฝึก
ระหว่างการฝึก ได้ ใช้ความน่าจะเป็นของการทำนายจาก checkpoint ที่ไม่ผ่าน quantization เป็นค่าเป้าหมายราว 5,000 สเต็ป
ด้วยวิธีนี้ จึงทำได้ถึง ลดอัตราการลดลงของ Perplexity ลง 54% เมื่อทำ quantization แบบ Q4_0

การลดการใช้ VRAM อย่างก้าวกระโดด

ผลของ การประหยัด VRAM จาก quantization แบบ int4 มีขนาดมาก โดยการลดลงของแต่ละโมเดลมีดังนี้:
โฆษณา
- Gemma 3 27B: 54GB → 14.1GB
- Gemma 3 12B: 24GB → 6.6GB
- Gemma 3 4B: 8GB → 2.6GB
- Gemma 3 1B: 2GB → 0.5GB
ตัวเลขนี้รวมเฉพาะ VRAM ที่จำเป็นสำหรับการโหลดน้ำหนักโมเดลเท่านั้น ส่วน KV cache ที่ต้องใช้ระหว่างการรันจะต้องใช้ VRAM แยกต่างหาก

รันได้บนอุปกรณ์หลากหลาย

Gemma 3 27B (int4): สามารถรันแบบโลคัลได้บน RTX 3090 (24GB VRAM)
Gemma 3 12B (int4): รันได้อย่างไม่มีปัญหาบน RTX 4060 Laptop (8GB VRAM)
Gemma 3 4B, 1B: สามารถทำงานได้บนสมาร์ตโฟนและอุปกรณ์สเปกต่ำ

ผสานรวมและใช้งานได้ง่าย

โมเดล QAT สามารถ ใช้งานได้ทันทีบนหลายแพลตฟอร์มและเครื่องมือ:
โฆษณา
- Ollama: รันได้ด้วยคำสั่งบรรทัดเดียว
- LM Studio: ดาวน์โหลดและรันได้ในสภาพแวดล้อม GUI
- MLX: รองรับการอนุมานประสิทธิภาพสูงบน Apple Silicon
- Gemma.cpp: รันประสิทธิภาพสูงในสภาพแวดล้อม CPU
- llama.cpp: ผสานรวมได้ง่ายด้วยฟอร์แมต GGUF

โมเดลคอมมูนิตี้ใน Gemmaverse

นอกจากโมเดล QAT อย่างเป็นทางการแล้ว ยังมี โมเดล PTQ จากคอมมูนิตี้ ให้เลือกหลากหลาย
ผู้มีส่วนร่วมหลัก: Bartowski, Unsloth, GGML
โมเดลหลากหลายเหล่านี้สามารถ เลือกใช้ตามสมดุลของความเร็ว ขนาด และคุณภาพ ได้

เริ่มต้นได้ทันที

นี่คือ ก้าวสำคัญสู่การทำให้ AI เข้าถึงคนจำนวนมาก โดย Gemma 3 เวอร์ชัน QAT ทำให้ทุกคนสามารถรันแบบโลคัลได้
วิธีเริ่มใช้งาน:
- PC: Ollama
- ดาวน์โหลดโมเดล: Hugging Face, Kaggle
- รันบนมือถือ: ใช้ Google AI Edge

1 ความคิดเห็น

GN⁺ 2025-04-21

ความคิดเห็นจาก Hacker News

โมเดล gemma-3-27b-it-qat-4bit เป็นโมเดลตัวเลือกใหม่ที่ชื่นชอบร่วมกับ Mistral Small 3.1 24B
- กำลังใช้งานบน M2 64GB ผ่าน Ollama และ MLX และใช้หน่วยความจำน้อย จึงเหลือพื้นที่พอสำหรับรันแอปอื่นได้สบาย
- ได้ผลลัพธ์ที่ดีในการเขียนปลั๊กอินสำหรับเครื่องมือ LLM
สำหรับคำถามแนว "เช็กบรรยากาศ" แบบส่วนตัว โมเดล 4bit QAT 27B ให้คำตอบได้อย่างแม่นยำ
- รู้สึกทึ่งกับความหนาแน่นของข้อมูลที่บรรจุอยู่ในน้ำหนักขนาด 13GB
- โมเดล Gemma 3 27B ของ Deepmind เป็นโมเดลโอเพนซอร์สที่น่าประทับใจที่สุด
กราฟแรกเป็นการเปรียบเทียบ "Elo Score" ที่ความแม่นยำ BF16 และกราฟที่สองเป็นการเปรียบเทียบการใช้ VRAM
- น่าเสียดายที่ไม่มีกราฟเปรียบเทียบคุณภาพระหว่าง BF16 กับ QAT
กำลังใช้ gemma3:27b-it-qat แทน qwen2.5 เพื่อทำงานประจำวันบน Mac หน่วยความจำ 32G
- มีประโยชน์มากสำหรับการพัฒนา Python, Haskell และ Common Lisp
- รู้สึกพึงพอใจที่ได้รันโมเดลโอเพนซอร์สแบบโลคัล
กำลังรันบน CPU AMD 3950x แบบ 16 คอร์ และน่าประทับใจมากในงานแปลภาษาและการอธิบายภาพ
- เวลาทำงานแปลจะปรับคำสั่งเพื่อหลีกเลี่ยงการวิเคราะห์ภาษาของอินพุต
หลังดาวน์โหลด QAT gemma3:27b เวอร์ชันล่าสุดแล้ว ประสิทธิภาพดีขึ้น 1.47 เท่า
จำเป็นที่ local LLM จะต้องได้รับการปฏิบัติในฐานะพลเมืองชั้นหนึ่งจากบริษัทต่าง ๆ
- กราฟแรกอาจทำให้เข้าใจผิดเกี่ยวกับจำนวน H100 ที่จำเป็นสำหรับการรัน FP16 ของ DeepSeek r1
Microsoft และ Apple โปรโมต AI PC และ Apple Intelligence แต่ในความเป็นจริง โมเดลที่ใช้งานได้บน GPU สำหรับผู้บริโภคกลับทำได้เฉพาะบน GPU ระดับสูงเท่านั้น
Gemma 3 เหนือกว่า Llama 4 อย่างมาก
- Meta อาจเสี่ยงสูญเสียตำแหน่งในตลาด LLM
- ขนาดโมเดลของ Llama 4 ใหญ่เกินไป ทำให้ผู้ใช้ถูกจำกัด
- Gemma 3 ใช้งานได้อย่างกว้างขวางกับฮาร์ดแวร์ทุกขนาด
ใช้งานได้บน Ollama

โมเดล Gemma 3 QAT: นำ AI ระดับล้ำสมัยมาสู่ GPU สำหรับผู้บริโภค

แนะนำ Gemma 3 และภาพรวมประสิทธิภาพ

Quantization บนพื้นฐาน QAT เพื่อเพิ่มการเข้าถึง

รักษาคุณภาพด้วย QAT

การลดการใช้ VRAM อย่างก้าวกระโดด

รันได้บนอุปกรณ์หลากหลาย

ผสานรวมและใช้งานได้ง่าย

โมเดลคอมมูนิตี้ใน Gemmaverse

เริ่มต้นได้ทันที

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News