DeepSeek เปิดซอร์สโค้ด FlashMLA (1 จาก 5)
(github.com/deepseek-ai)- เคอร์เนลถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ GPU Hopper
- ปรับแต่งให้เหมาะสำหรับการให้บริการซีเควนซ์ความยาวแปรผัน
- สิ่งที่เปิดตัวในขณะนี้
- BF16
- Paged kvcache ขนาดบล็อก 64
- เบนช์มาร์ก: ใช้ CUDA 12.6 บน H800 SXM5 ทำได้สูงสุด 3000GB/s ในคอนฟิกที่ติดข้อจำกัดด้านหน่วยความจำ และ 580 TFLOPS ในคอนฟิกที่ติดข้อจำกัดด้านการคำนวณ
- ได้แรงบันดาลใจจาก FlashAttention 2&3 และ cutlass
- เป็นชิ้นแรกจาก โอเพ่นซอร์ส 5 โครงการที่เปิดเผยผ่าน DeepSeek Open Infra
2 ความคิดเห็น
ความคิดเห็นจาก Hacker News
FlashAttention-2: Attention ที่เร็วขึ้นด้วยการประมวลผลแบบขนานและการแบ่งงานที่ดียิ่งขึ้น
FlashAttention-3: Attention ที่รวดเร็วและแม่นยำด้วยอะซิงโครนัสและความแม่นยำต่ำ