• LLM ต้องใช้หน่วยความจำและทรัพยากรการประมวลผลค่อนข้างมาก
  • ตระกูล ZeRO ของ DeepSpeed นำเสนอแนวทางแก้ปัญหานี้ และถูกใช้งานใน TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 เป็นต้น
  • แต่ในสถานการณ์ขนาดใหญ่ที่ใช้ GPU จำนวนมาก จะเกิดโอเวอร์เฮดจากความจำเป็นต้องสื่อสารระหว่าง GPU บ่อยครั้ง
  • ZeRO++ ถูกออกแบบมาสำหรับกรณีเช่นนี้ โดยลดปริมาณการสื่อสารโดยรวมลง 4 เท่าโดยไม่กระทบต่อคุณภาพของโมเดล
    • เร่งความเร็วทั้งการพรีเทรนและการไฟน์จูนโมเดลขนาดใหญ่
      • แบตช์ขนาดเล็กต่อ GPU: throughput สูงกว่า ZeRO 2.2 เท่า
      • แม้ในคลัสเตอร์แบนด์วิดท์ต่ำ ก็ให้ประสิทธิภาพใกล้เคียงกับแบนด์วิดท์ที่สูงกว่า 4 เท่า
    • เร่งความเร็วให้กับโมเดลแบบ ChatGPT ที่ใช้ RLHF ได้ด้วย

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น