DeepSpeed ZeRO++ : ยกระดับความเร็วการเทรน LLM และโมเดลแชตอย่างก้าวกระโดด พร้อมลดปริมาณการสื่อสารลง 4 เท่า

xguru · 2023-06-28T10:03:01+09:00

LLM ต้องใช้หน่วยความจำและทรัพยากรการประมวลผลค่อนข้างมาก ตระกูล ZeRO ของ DeepSpeed นำเสนอแนวทางแก้ปัญหานี้ และถูกใช้งานใน TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 เป็นต้น แต่ในสถานการณ์ขนาดใหญ่ที่ใช้ GPU จำนวนมาก จะเกิดโอเวอร์เฮดจากความจำเป็นต้องสื่อสารระหว่าง GPU บ่อยครั้ง ZeRO++ ถูกออกแบบมาสำหรับกรณีเช่นนี้ โดยลดปริมาณการสื่อสารโดยรวมลง 4 เท่าโดยไม่กระทบต่อคุณภาพของโมเดล เร่งความเร็วทั้งการพรีเทรนและการไฟน์จูนโมเดลขนาดใหญ่ แบตช์ขนาดเล็กต่อ GPU: throughput สูงกว่า ZeRO 2.2 เท่า แม้ในคลัสเตอร์แบนด์วิดท์ต่ำ ก็ให้ประสิทธิภาพใกล้เคียงกับแบนด์วิดท์ที่สูงกว่า 4 เท่า เร่งความเร็วให้กับโมเดลแบบ ChatGPT ที่ใช้ RLHF ได้ด้วย

(microsoft.com)

10 คะแนน โดย xguru 2023-06-28 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

LLM ต้องใช้หน่วยความจำและทรัพยากรการประมวลผลค่อนข้างมาก
ตระกูล ZeRO ของ DeepSpeed นำเสนอแนวทางแก้ปัญหานี้ และถูกใช้งานใน TNLG-17B, Bloom-176B, MPT-7B, Jurrasic-1 เป็นต้น
แต่ในสถานการณ์ขนาดใหญ่ที่ใช้ GPU จำนวนมาก จะเกิดโอเวอร์เฮดจากความจำเป็นต้องสื่อสารระหว่าง GPU บ่อยครั้ง
ZeRO++ ถูกออกแบบมาสำหรับกรณีเช่นนี้ โดยลดปริมาณการสื่อสารโดยรวมลง 4 เท่าโดยไม่กระทบต่อคุณภาพของโมเดล
- เร่งความเร็วทั้งการพรีเทรนและการไฟน์จูนโมเดลขนาดใหญ่
  - แบตช์ขนาดเล็กต่อ GPU: throughput สูงกว่า ZeRO 2.2 เท่า
  - แม้ในคลัสเตอร์แบนด์วิดท์ต่ำ ก็ให้ประสิทธิภาพใกล้เคียงกับแบนด์วิดท์ที่สูงกว่า 4 เท่า
- เร่งความเร็วให้กับโมเดลแบบ ChatGPT ที่ใช้ RLHF ได้ด้วย

DeepSpeed ZeRO++ : ยกระดับความเร็วการเทรน LLM และโมเดลแชตอย่างก้าวกระโดด พร้อมลดปริมาณการสื่อสารลง 4 เท่า

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น