• ให้ความยาวลำดับได้ยาวกว่าระบบเดิม 4 เท่า สามารถฝึกด้วยลำดับที่มีโทเคนมากกว่าหนึ่งล้านโทเคนได้
  • ลดการสื่อสารลงมากกว่า 10 เท่า ทำให้ throughput เพิ่มขึ้นได้สูงสุด 2.5 เท่า โดยยังคง throughput มากกว่า 175 TFlops/GPU
  • Attention ที่ general อย่างสมบูรณ์และ agnostic ต่อการนำไปใช้งานจริง (ทำงานได้กับ implementation อย่าง FlashAttention 2 เช่นกัน)
  • รองรับการฝึกโมเดลขนาดใหญ่: ทำงานร่วมกับ ZeRO-3 เพื่อรองรับลำดับ/ขนาดโมเดลขนาดใหญ่
  • ใช้งานง่ายและพกพาได้ดี ลดการเปลี่ยนแปลงกับเฟรมเวิร์กเดิมให้น้อยที่สุด

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น