12 คะแนน โดย GN⁺ 2025-04-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Gemma 3 ที่ประกาศเมื่อเดือนที่แล้วเป็นโมเดล AI แบบเปิดที่มอบประสิทธิภาพล้ำสมัย และสามารถ รันได้บน GPU ประสิทธิภาพสูงเพียงตัวเดียว อย่าง NVIDIA H100
  • มีการเปิดตัว เวอร์ชันน้ำหนักเบา ที่ใช้เทคนิค QAT(Quantization-Aware Training) ทำให้ตอนนี้สามารถรันได้บน GPU สำหรับผู้บริโภค ด้วย
  • ด้วย การทำ quantization แบบ int4 จึง ลดการใช้หน่วยความจำลงได้อย่างมาก พร้อมลดผลกระทบต่อประสิทธิภาพให้น้อยที่สุด
  • โมเดล QAT สามารถ รันได้บน GPU ทั่วไปอย่าง RTX 3090, RTX 4060 และใช้งานได้ทันทีผ่าน Hugging Face, Ollama, LM Studio เป็นต้น
  • ยังมี โมเดล PTQ จากคอมมูนิตี้ หลายแบบให้ใช้งานร่วมกัน เพื่อให้เลือกได้อย่างยืดหยุ่น

แนะนำ Gemma 3 และภาพรวมประสิทธิภาพ

  • Gemma 3 โมเดลเปิดรุ่นล่าสุดจาก Google เป็น โมเดลภาษาขนาดใหญ่ ที่มีประสิทธิภาพโดดเด่น
  • สามารถ รันบน NVIDIA H100 GPU ได้ ด้วยความละเอียด BF16 (floating point 16 บิต) และทำคะแนน Chatbot Arena Elo ได้อย่างยอดเยี่ยม
  • เหตุผลที่ใช้ BF16 คือเพื่อให้การเปรียบเทียบประสิทธิภาพระหว่างโมเดลมีความเป็นธรรม โดยสามารถเทียบประสิทธิภาพดั้งเดิมของโมเดลได้ในสภาวะที่ตัดวิธีปรับแต่งแบบต่าง ๆ ออก

Quantization บนพื้นฐาน QAT เพื่อเพิ่มการเข้าถึง

  • เดิมทีโมเดลขนาดใหญ่ต้องการสภาพแวดล้อมคลาวด์สเปกสูง แต่ได้ใช้เทคนิค QAT เพื่อ ทำให้สามารถรันได้บนฮาร์ดแวร์สำหรับผู้บริโภคด้วย
  • Quantization คือการลดความละเอียดเชิงตัวเลขภายในโมเดลเพื่อ ลดการใช้หน่วยความจำและทำให้รันได้เร็วขึ้น
  • ตัวอย่าง: หากใช้รูปแบบ int4 แทน BF16 จะได้ผลของการ บีบอัดมากกว่า 4 เท่า

รักษาคุณภาพด้วย QAT

  • แทนที่จะใช้การทำ quantization ภายหลังแบบง่าย ๆ ได้เลือกใช้วิธี QAT(Quantization-Aware Training) ที่สะท้อนการทำ quantization ระหว่างการฝึก
  • ระหว่างการฝึก ได้ ใช้ความน่าจะเป็นของการทำนายจาก checkpoint ที่ไม่ผ่าน quantization เป็นค่าเป้าหมายราว 5,000 สเต็ป
  • ด้วยวิธีนี้ จึงทำได้ถึง ลดอัตราการลดลงของ Perplexity ลง 54% เมื่อทำ quantization แบบ Q4_0

การลดการใช้ VRAM อย่างก้าวกระโดด

  • ผลของ การประหยัด VRAM จาก quantization แบบ int4 มีขนาดมาก โดยการลดลงของแต่ละโมเดลมีดังนี้:

    โฆษณา
    • Gemma 3 27B: 54GB → 14.1GB
    • Gemma 3 12B: 24GB → 6.6GB
    • Gemma 3 4B: 8GB → 2.6GB
    • Gemma 3 1B: 2GB → 0.5GB
  • ตัวเลขนี้รวมเฉพาะ VRAM ที่จำเป็นสำหรับการโหลดน้ำหนักโมเดลเท่านั้น ส่วน KV cache ที่ต้องใช้ระหว่างการรันจะต้องใช้ VRAM แยกต่างหาก

รันได้บนอุปกรณ์หลากหลาย

  • Gemma 3 27B (int4): สามารถรันแบบโลคัลได้บน RTX 3090 (24GB VRAM)
  • Gemma 3 12B (int4): รันได้อย่างไม่มีปัญหาบน RTX 4060 Laptop (8GB VRAM)
  • Gemma 3 4B, 1B: สามารถทำงานได้บนสมาร์ตโฟนและอุปกรณ์สเปกต่ำ

ผสานรวมและใช้งานได้ง่าย

  • โมเดล QAT สามารถ ใช้งานได้ทันทีบนหลายแพลตฟอร์มและเครื่องมือ:

    โฆษณา
    • Ollama: รันได้ด้วยคำสั่งบรรทัดเดียว
    • LM Studio: ดาวน์โหลดและรันได้ในสภาพแวดล้อม GUI
    • MLX: รองรับการอนุมานประสิทธิภาพสูงบน Apple Silicon
    • Gemma.cpp: รันประสิทธิภาพสูงในสภาพแวดล้อม CPU
    • llama.cpp: ผสานรวมได้ง่ายด้วยฟอร์แมต GGUF

โมเดลคอมมูนิตี้ใน Gemmaverse

  • นอกจากโมเดล QAT อย่างเป็นทางการแล้ว ยังมี โมเดล PTQ จากคอมมูนิตี้ ให้เลือกหลากหลาย
  • ผู้มีส่วนร่วมหลัก: Bartowski, Unsloth, GGML
  • โมเดลหลากหลายเหล่านี้สามารถ เลือกใช้ตามสมดุลของความเร็ว ขนาด และคุณภาพ ได้

เริ่มต้นได้ทันที

  • นี่คือ ก้าวสำคัญสู่การทำให้ AI เข้าถึงคนจำนวนมาก โดย Gemma 3 เวอร์ชัน QAT ทำให้ทุกคนสามารถรันแบบโลคัลได้
  • วิธีเริ่มใช้งาน:

1 ความคิดเห็น

 
GN⁺ 2025-04-21
ความคิดเห็นจาก Hacker News
  • โมเดล gemma-3-27b-it-qat-4bit เป็นโมเดลตัวเลือกใหม่ที่ชื่นชอบร่วมกับ Mistral Small 3.1 24B

    • กำลังใช้งานบน M2 64GB ผ่าน Ollama และ MLX และใช้หน่วยความจำน้อย จึงเหลือพื้นที่พอสำหรับรันแอปอื่นได้สบาย
    • ได้ผลลัพธ์ที่ดีในการเขียนปลั๊กอินสำหรับเครื่องมือ LLM
  • สำหรับคำถามแนว "เช็กบรรยากาศ" แบบส่วนตัว โมเดล 4bit QAT 27B ให้คำตอบได้อย่างแม่นยำ

    • รู้สึกทึ่งกับความหนาแน่นของข้อมูลที่บรรจุอยู่ในน้ำหนักขนาด 13GB
    • โมเดล Gemma 3 27B ของ Deepmind เป็นโมเดลโอเพนซอร์สที่น่าประทับใจที่สุด
  • กราฟแรกเป็นการเปรียบเทียบ "Elo Score" ที่ความแม่นยำ BF16 และกราฟที่สองเป็นการเปรียบเทียบการใช้ VRAM

    • น่าเสียดายที่ไม่มีกราฟเปรียบเทียบคุณภาพระหว่าง BF16 กับ QAT
  • กำลังใช้ gemma3:27b-it-qat แทน qwen2.5 เพื่อทำงานประจำวันบน Mac หน่วยความจำ 32G

    • มีประโยชน์มากสำหรับการพัฒนา Python, Haskell และ Common Lisp
    • รู้สึกพึงพอใจที่ได้รันโมเดลโอเพนซอร์สแบบโลคัล
  • กำลังรันบน CPU AMD 3950x แบบ 16 คอร์ และน่าประทับใจมากในงานแปลภาษาและการอธิบายภาพ

    • เวลาทำงานแปลจะปรับคำสั่งเพื่อหลีกเลี่ยงการวิเคราะห์ภาษาของอินพุต
  • หลังดาวน์โหลด QAT gemma3:27b เวอร์ชันล่าสุดแล้ว ประสิทธิภาพดีขึ้น 1.47 เท่า

  • จำเป็นที่ local LLM จะต้องได้รับการปฏิบัติในฐานะพลเมืองชั้นหนึ่งจากบริษัทต่าง ๆ

    • กราฟแรกอาจทำให้เข้าใจผิดเกี่ยวกับจำนวน H100 ที่จำเป็นสำหรับการรัน FP16 ของ DeepSeek r1
  • Microsoft และ Apple โปรโมต AI PC และ Apple Intelligence แต่ในความเป็นจริง โมเดลที่ใช้งานได้บน GPU สำหรับผู้บริโภคกลับทำได้เฉพาะบน GPU ระดับสูงเท่านั้น

  • Gemma 3 เหนือกว่า Llama 4 อย่างมาก

    • Meta อาจเสี่ยงสูญเสียตำแหน่งในตลาด LLM
    • ขนาดโมเดลของ Llama 4 ใหญ่เกินไป ทำให้ผู้ใช้ถูกจำกัด
    • Gemma 3 ใช้งานได้อย่างกว้างขวางกับฮาร์ดแวร์ทุกขนาด
  • ใช้งานได้บน Ollama