• Meta เปิดตัวโมเดล Llama แบบ quantized ที่ทำให้มีขนาดเบาลงและสามารถรันบนอุปกรณ์พกพาได้
  • ปรับแต่งมาสำหรับแอปพลิเคชันที่ใช้คอนเท็กซ์สั้นไม่เกิน 8K
  • โมเดลที่ผ่านการ quantize ให้ความเร็วเพิ่มขึ้น 2-4 เท่า พร้อมลดขนาดโมเดลลง 56% และลดการใช้หน่วยความจำลง 41%
  • เทคนิคการ quantization
    • ใช้เทคนิค Quantization-Aware Training(QAT) และ SpinQuant กับโมเดล Llama 3.2 ขนาด 1B และ 3B
    • QAT ให้ความสำคัญกับความแม่นยำ ส่วน SpinQuant ให้ความสำคัญกับการพกพาไปใช้งานข้ามสภาพแวดล้อม
    • รองรับเทคนิค quantization ทั้งสองแบบผ่านเฟรมเวิร์ก ExecuTorch ของ PyTorch
  • การปรับให้เหมาะกับอุปกรณ์พกพา
    • ออกแบบมาให้รันได้บน SoC ของ Qualcomm และ MediaTek
    • ผลการทดสอบบน Android รุ่น OnePlus 12 แสดงให้เห็นว่าขนาดโมเดลและการใช้หน่วยความจำลดลงอย่างมาก
    • ปรับประสิทธิภาพโดยใช้ทั้ง CPU และ NPU ของอุปกรณ์พกพา
  • การตั้งค่า quantization
    • ออกแบบโดยคำนึงถึงเฟรมเวิร์กอนุมาน ExecuTorch ของ PyTorch และแบ็กเอนด์ Arm CPU
    • ทำ quantize ทุก linear layer แบบ 4 บิตเป็นกลุ่ม และใช้ 8-bit dynamic quantization สำหรับ activation
  • Quantization-Aware Training(QAT) และ LoRA
    • ใช้ QAT ที่จำลองผลของการ quantization ระหว่างการฝึกโมเดล Llama 3.2 เพื่อเพิ่มประสิทธิภาพในสภาพแวดล้อมความแม่นยำต่ำ
    • ใช้เช็กพอยต์ BF16 ของโมเดล Llama 3.2 สำหรับเริ่มต้น QAT และทำการฝึก SFT เพิ่มเติมด้วย QAT
    • ตรึง backbone ของโมเดล QAT แล้วทำ SFT อีกครั้งโดยใช้ LoRA adapter
    • ใช้ torchao API ในการทำ QAT
  • SpinQuant
    • แม่นยำน้อยกว่า QAT + LoRA แต่ทำงานได้โดยไม่ต้องเข้าถึงชุดข้อมูล จึงมีความยืดหยุ่นในการย้ายไปใช้งานสูง
    • สามารถ quantize โมเดลให้เหมาะกับฮาร์ดแวร์เป้าหมายและกรณีการใช้งานที่หลากหลายได้
  • ผลลัพธ์
    • แนวทาง QLoRA ให้คุณภาพดีที่สุดในทุกด้าน
    • เมื่อเทียบกับ BF16 ค่า decode latency ดีขึ้นเฉลี่ย 2.5 เท่า และค่า prefill latency ดีขึ้น 4.2 เท่า
    • ขนาดโมเดลลดลงเฉลี่ย 56% และการใช้หน่วยความจำลดลง 41%
    • วัดผลบนอุปกรณ์ Android OnePlus 12 และบนอุปกรณ์ iOS พบว่าความแม่นยำใกล้เคียงกัน แต่ยังไม่ได้ประเมินประสิทธิภาพ

สรุปโดย GN⁺

  • โมเดล Llama แบบ quantized ของ Meta มีเป้าหมายเพื่อทำให้โมเดลเบาลงและเพิ่มประสิทธิภาพสำหรับการรันบนอุปกรณ์พกพา
  • ใช้เทคนิค QAT และ SpinQuant เพื่อมอบโมเดลที่คำนึงถึงทั้งความแม่นยำและความยืดหยุ่นในการย้ายไปใช้งาน
  • ใช้ CPU และ NPU ของอุปกรณ์พกพาเพื่อรีดประสิทธิภาพสูงสุด และรองรับการใช้งานบนฮาร์ดแวร์ที่หลากหลาย
  • จากความร่วมมืออย่างใกล้ชิดกับหลายแพลตฟอร์มและพาร์ตเนอร์ด้านอุปกรณ์พกพา ดูเหมือนว่าจะได้โซลูชันที่พร้อมนำไปใช้ในผลิตภัณฑ์จริง
  • โมเดล Llama ของ Meta ถูกประเมินว่ามีความสามารถในการแข่งขันในด้านความเปิดกว้าง ความสามารถในการปรับแต่ง และความคุ้มค่า และคาดว่าจะมอบประสบการณ์ AI บนมือถือที่ทรงพลังยิ่งขึ้นผ่านนวัตกรรมอย่างต่อเนื่อง

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น