- LLM ต้องใช้หน่วยความจำและทรัพยากรการประมวลผลค่อนข้างมาก
- ตระกูล ZeRO ของ DeepSpeed นำเสนอแนวทางแก้ปัญหานี้ และถูกใช้งานใน TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 เป็นต้น
- แต่ในสถานการณ์ขนาดใหญ่ที่ใช้ GPU จำนวนมาก จะเกิดโอเวอร์เฮดจากความจำเป็นต้องสื่อสารระหว่าง GPU บ่อยครั้ง
- ZeRO++ ถูกออกแบบมาสำหรับกรณีเช่นนี้ โดยลดปริมาณการสื่อสารโดยรวมลง 4 เท่าโดยไม่กระทบต่อคุณภาพของโมเดล
- เร่งความเร็วทั้งการพรีเทรนและการไฟน์จูนโมเดลขนาดใหญ่
- แบตช์ขนาดเล็กต่อ GPU: throughput สูงกว่า ZeRO 2.2 เท่า
- แม้ในคลัสเตอร์แบนด์วิดท์ต่ำ ก็ให้ประสิทธิภาพใกล้เคียงกับแบนด์วิดท์ที่สูงกว่า 4 เท่า
- เร่งความเร็วให้กับโมเดลแบบ ChatGPT ที่ใช้ RLHF ได้ด้วย
ยังไม่มีความคิดเห็น