DeepSpeed Ulysses: การปรับแต่งระบบสำหรับการฝึกโมเดล Transformer ที่มีลำดับยาว
(github.com/microsoft)- ให้ความยาวลำดับได้ยาวกว่าระบบเดิม 4 เท่า สามารถฝึกด้วยลำดับที่มีโทเคนมากกว่าหนึ่งล้านโทเคนได้
- ลดการสื่อสารลงมากกว่า 10 เท่า ทำให้ throughput เพิ่มขึ้นได้สูงสุด 2.5 เท่า โดยยังคง throughput มากกว่า 175 TFlops/GPU
- Attention ที่ general อย่างสมบูรณ์และ agnostic ต่อการนำไปใช้งานจริง (ทำงานได้กับ implementation อย่าง FlashAttention 2 เช่นกัน)
- รองรับการฝึกโมเดลขนาดใหญ่: ทำงานร่วมกับ ZeRO-3 เพื่อรองรับลำดับ/ขนาดโมเดลขนาดใหญ่
- ใช้งานง่ายและพกพาได้ดี ลดการเปลี่ยนแปลงกับเฟรมเวิร์กเดิมให้น้อยที่สุด
ยังไม่มีความคิดเห็น