DeepSpeed Ulysses: การปรับแต่งระบบสำหรับการฝึกโมเดล Transformer ที่มีลำดับยาว

xguru · 2023-08-31T11:03:01+09:00

ให้ความยาวลำดับได้ยาวกว่าระบบเดิม 4 เท่า สามารถฝึกด้วยลำดับที่มีโทเคนมากกว่าหนึ่งล้านโทเคนได้ ลดการสื่อสารลงมากกว่า 10 เท่า ทำให้ throughput เพิ่มขึ้นได้สูงสุด 2.5 เท่า โดยยังคง throughput มากกว่า 175 TFlops/GPU Attention ที่ general อย่างสมบูรณ์และ agnostic ต่อการนำไปใช้งานจริง (ทำงานได้กับ implementation อย่าง FlashAttention 2 เช่นกัน) รองรับการฝึกโมเดลขนาดใหญ่: ทำงานร่วมกับ ZeRO-3 เพื่อรองรับลำดับ/ขนาดโมเดลขนาดใหญ่ ใช้งานง่ายและพกพาได้ดี ลดการเปลี่ยนแปลงกับเฟรมเวิร์กเดิมให้น้อยที่สุด

(github.com/microsoft)

5 คะแนน โดย xguru 2023-08-31 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ให้ความยาวลำดับได้ยาวกว่าระบบเดิม 4 เท่า สามารถฝึกด้วยลำดับที่มีโทเคนมากกว่าหนึ่งล้านโทเคนได้
ลดการสื่อสารลงมากกว่า 10 เท่า ทำให้ throughput เพิ่มขึ้นได้สูงสุด 2.5 เท่า โดยยังคง throughput มากกว่า 175 TFlops/GPU
Attention ที่ general อย่างสมบูรณ์และ agnostic ต่อการนำไปใช้งานจริง (ทำงานได้กับ implementation อย่าง FlashAttention 2 เช่นกัน)
รองรับการฝึกโมเดลขนาดใหญ่: ทำงานร่วมกับ ZeRO-3 เพื่อรองรับลำดับ/ขนาดโมเดลขนาดใหญ่
ใช้งานง่ายและพกพาได้ดี ลดการเปลี่ยนแปลงกับเฟรมเวิร์กเดิมให้น้อยที่สุด

DeepSpeed Ulysses: การปรับแต่งระบบสำหรับการฝึกโมเดล Transformer ที่มีลำดับยาว

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น