DeepSeek เปิดซอร์สโค้ด FlashMLA (1 จาก 5)

xguru · 2025-02-24T15:14:21+09:00

เคอร์เนลถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ GPU Hopper ปรับแต่งให้เหมาะสำหรับการให้บริการซีเควนซ์ความยาวแปรผัน สิ่งที่เปิดตัวในขณะนี้ BF16 Paged kvcache ขนาดบล็อก 64 เบนช์มาร์ก: ใช้ CUDA 12.6 บน H800 SXM5 ทำได้สูงสุด 3000GB/s ในคอนฟิกที่ติดข้อจำกัดด้านหน่วยความจำ และ 580 TFLOPS ในคอนฟิกที่ติดข้อจำกัดด้านการคำนวณ ได้แรงบันดาลใจจาก FlashAttention 2&3 และ cutlass เป็นชิ้นแรกจาก โอเพ่นซอร์ส 5 โครงการที่เปิดเผยผ่าน DeepSeek Open Infra

(github.com/deepseek-ai)

5 คะแนน โดย xguru 2025-02-24 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

เคอร์เนลถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ GPU Hopper
ปรับแต่งให้เหมาะสำหรับการให้บริการซีเควนซ์ความยาวแปรผัน
สิ่งที่เปิดตัวในขณะนี้
- BF16
- Paged kvcache ขนาดบล็อก 64
เบนช์มาร์ก: ใช้ CUDA 12.6 บน H800 SXM5 ทำได้สูงสุด 3000GB/s ในคอนฟิกที่ติดข้อจำกัดด้านหน่วยความจำ และ 580 TFLOPS ในคอนฟิกที่ติดข้อจำกัดด้านการคำนวณ
ได้แรงบันดาลใจจาก FlashAttention 2&3 และ cutlass
เป็นชิ้นแรกจาก โอเพ่นซอร์ส 5 โครงการที่เปิดเผยผ่าน DeepSeek Open Infra

2 ความคิดเห็น

GN⁺ 2025-02-25

ความคิดเห็นจาก Hacker News

vLLM เริ่มรองรับ MLA สำหรับโมเดล DeepSeek ตั้งแต่ 3 สัปดาห์ก่อน ซึ่งให้ประสิทธิภาพการสร้างผลลัพธ์สูงขึ้น 3 เท่า และความจุหน่วยความจำโทเคนมากขึ้น 10 เท่า
- แต่ MHA ยังเร็วกว่าในสภาพแวดล้อมที่มี QPS ต่ำ
- จากหลักฐานเชิงทฤษฎี ภายใต้โอเวอร์เฮดของ KV cache เท่ากัน MLA ให้ความสามารถในการแทนค่าที่สูงกว่า GQA อย่างสม่ำเสมอ
- สามารถแปลงโมเดลพรีเทรนที่ใช้ GQA อย่างแพร่หลาย (LLaMA, Qwen, Mixtral เป็นต้น) ให้เป็นโมเดลที่ใช้ MLA ได้
- MLA มีแนวโน้มสูงที่จะกลายเป็นมาตรฐาน
ถ้า DeepSeek R1 ใช้ MHA มาตรฐาน จะต้องใช้ 1749KB ต่อโทเคนสำหรับเก็บ KV cache
- เมื่อบทสนทนายาวถึงประมาณ 46,000 โทเคน KV cache จะเกินความจุทั้งหมดของ H100 หนึ่งตัว
- หากใช้ MLA แต่ละโทเคนจะใช้ 125KB ซึ่งยังไปได้จนกว่าจะเกินประมาณ 640,000 โทเคน (2 เท่าของ Ulysses)
รองรับ BF16, paged KV cache (ขนาดบล็อก 64), และบน H800 ได้ memory-bound 3000 GB/s กับ compute-bound 580 TFLOPS
- เรื่องนี้น่าจะช่วยนักพัฒนาหลายคนในกลุ่ม FANG ประหยัดเวลาไปได้มาก
- ที่น่าเสียดายคือรองรับเฉพาะ forward pass เท่านั้น ความลับที่แท้จริงอยู่ที่ backward pass
- อยากรู้ว่าพวกเขา implement ตัว dualpipe scheduler อย่างไร
MLA น่าจะหมายถึง Multi-head latent attention
สับสนว่าน่าจะมีมาตรการคว่ำบาตร Hopper GPU ต่อบริษัทจีนไม่ใช่หรือ แล้วนี่คือยอมรับว่ายังเข้าถึง H100 ได้แม้มีมาตรการของสหรัฐหรือเปล่า?
หวังจริง ๆ ว่า AI จะช่วยพาเกม Flash กลับมาได้อีกครั้ง
แล้วเราจะเอาสิ่งนี้ไปทำอะไรได้บ้าง?
OpenAI กลับมาแล้ว

xguru 2025-02-24

FlashAttention-2: Attention ที่เร็วขึ้นด้วยการประมวลผลแบบขนานและการแบ่งงานที่ดียิ่งขึ้น
FlashAttention-3: Attention ที่รวดเร็วและแม่นยำด้วยอะซิงโครนัสและความแม่นยำต่ำ

DeepSeek เปิดซอร์สโค้ด FlashMLA (1 จาก 5)

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นจาก Hacker News