Meta เปิดตัวโมเดล Llama แบบ Quantized ที่เร็วขึ้นและใช้หน่วยความจำน้อยลง

(ai.meta.com)

2 คะแนน โดย GN⁺ 2024-10-25 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Meta เปิดตัวโมเดล Llama แบบ quantized ที่ทำให้มีขนาดเบาลงและสามารถรันบนอุปกรณ์พกพาได้
ปรับแต่งมาสำหรับแอปพลิเคชันที่ใช้คอนเท็กซ์สั้นไม่เกิน 8K
โมเดลที่ผ่านการ quantize ให้ความเร็วเพิ่มขึ้น 2-4 เท่า พร้อมลดขนาดโมเดลลง 56% และลดการใช้หน่วยความจำลง 41%
เทคนิคการ quantization
- ใช้เทคนิค Quantization-Aware Training(QAT) และ SpinQuant กับโมเดล Llama 3.2 ขนาด 1B และ 3B
- QAT ให้ความสำคัญกับความแม่นยำ ส่วน SpinQuant ให้ความสำคัญกับการพกพาไปใช้งานข้ามสภาพแวดล้อม
- รองรับเทคนิค quantization ทั้งสองแบบผ่านเฟรมเวิร์ก ExecuTorch ของ PyTorch
การปรับให้เหมาะกับอุปกรณ์พกพา
- ออกแบบมาให้รันได้บน SoC ของ Qualcomm และ MediaTek
- ผลการทดสอบบน Android รุ่น OnePlus 12 แสดงให้เห็นว่าขนาดโมเดลและการใช้หน่วยความจำลดลงอย่างมาก
- ปรับประสิทธิภาพโดยใช้ทั้ง CPU และ NPU ของอุปกรณ์พกพา
การตั้งค่า quantization
- ออกแบบโดยคำนึงถึงเฟรมเวิร์กอนุมาน ExecuTorch ของ PyTorch และแบ็กเอนด์ Arm CPU
- ทำ quantize ทุก linear layer แบบ 4 บิตเป็นกลุ่ม และใช้ 8-bit dynamic quantization สำหรับ activation
Quantization-Aware Training(QAT) และ LoRA
- ใช้ QAT ที่จำลองผลของการ quantization ระหว่างการฝึกโมเดล Llama 3.2 เพื่อเพิ่มประสิทธิภาพในสภาพแวดล้อมความแม่นยำต่ำ
- ใช้เช็กพอยต์ BF16 ของโมเดล Llama 3.2 สำหรับเริ่มต้น QAT และทำการฝึก SFT เพิ่มเติมด้วย QAT
- ตรึง backbone ของโมเดล QAT แล้วทำ SFT อีกครั้งโดยใช้ LoRA adapter
- ใช้ torchao API ในการทำ QAT
SpinQuant
- แม่นยำน้อยกว่า QAT + LoRA แต่ทำงานได้โดยไม่ต้องเข้าถึงชุดข้อมูล จึงมีความยืดหยุ่นในการย้ายไปใช้งานสูง
- สามารถ quantize โมเดลให้เหมาะกับฮาร์ดแวร์เป้าหมายและกรณีการใช้งานที่หลากหลายได้
ผลลัพธ์
- แนวทาง QLoRA ให้คุณภาพดีที่สุดในทุกด้าน
- เมื่อเทียบกับ BF16 ค่า decode latency ดีขึ้นเฉลี่ย 2.5 เท่า และค่า prefill latency ดีขึ้น 4.2 เท่า
- ขนาดโมเดลลดลงเฉลี่ย 56% และการใช้หน่วยความจำลดลง 41%
- วัดผลบนอุปกรณ์ Android OnePlus 12 และบนอุปกรณ์ iOS พบว่าความแม่นยำใกล้เคียงกัน แต่ยังไม่ได้ประเมินประสิทธิภาพ

สรุปโดย GN⁺

โมเดล Llama แบบ quantized ของ Meta มีเป้าหมายเพื่อทำให้โมเดลเบาลงและเพิ่มประสิทธิภาพสำหรับการรันบนอุปกรณ์พกพา
ใช้เทคนิค QAT และ SpinQuant เพื่อมอบโมเดลที่คำนึงถึงทั้งความแม่นยำและความยืดหยุ่นในการย้ายไปใช้งาน
ใช้ CPU และ NPU ของอุปกรณ์พกพาเพื่อรีดประสิทธิภาพสูงสุด และรองรับการใช้งานบนฮาร์ดแวร์ที่หลากหลาย
จากความร่วมมืออย่างใกล้ชิดกับหลายแพลตฟอร์มและพาร์ตเนอร์ด้านอุปกรณ์พกพา ดูเหมือนว่าจะได้โซลูชันที่พร้อมนำไปใช้ในผลิตภัณฑ์จริง
โมเดล Llama ของ Meta ถูกประเมินว่ามีความสามารถในการแข่งขันในด้านความเปิดกว้าง ความสามารถในการปรับแต่ง และความคุ้มค่า และคาดว่าจะมอบประสบการณ์ AI บนมือถือที่ทรงพลังยิ่งขึ้นผ่านนวัตกรรมอย่างต่อเนื่อง

Meta เปิดตัวโมเดล Llama แบบ Quantized ที่เร็วขึ้นและใช้หน่วยความจำน้อยลง

สรุปโดย GN⁺

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น