5 คะแนน โดย xguru 2025-02-24 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • เคอร์เนลถอดรหัส MLA ที่มีประสิทธิภาพสำหรับ GPU Hopper
  • ปรับแต่งให้เหมาะสำหรับการให้บริการซีเควนซ์ความยาวแปรผัน
  • สิ่งที่เปิดตัวในขณะนี้
    • BF16
    • Paged kvcache ขนาดบล็อก 64
  • เบนช์มาร์ก: ใช้ CUDA 12.6 บน H800 SXM5 ทำได้สูงสุด 3000GB/s ในคอนฟิกที่ติดข้อจำกัดด้านหน่วยความจำ และ 580 TFLOPS ในคอนฟิกที่ติดข้อจำกัดด้านการคำนวณ
  • ได้แรงบันดาลใจจาก FlashAttention 2&3 และ cutlass
  • เป็นชิ้นแรกจาก โอเพ่นซอร์ส 5 โครงการที่เปิดเผยผ่าน DeepSeek Open Infra

2 ความคิดเห็น

 
GN⁺ 2025-02-25

ความคิดเห็นจาก Hacker News

  • vLLM เริ่มรองรับ MLA สำหรับโมเดล DeepSeek ตั้งแต่ 3 สัปดาห์ก่อน ซึ่งให้ประสิทธิภาพการสร้างผลลัพธ์สูงขึ้น 3 เท่า และความจุหน่วยความจำโทเคนมากขึ้น 10 เท่า
    • แต่ MHA ยังเร็วกว่าในสภาพแวดล้อมที่มี QPS ต่ำ
    • จากหลักฐานเชิงทฤษฎี ภายใต้โอเวอร์เฮดของ KV cache เท่ากัน MLA ให้ความสามารถในการแทนค่าที่สูงกว่า GQA อย่างสม่ำเสมอ
    • สามารถแปลงโมเดลพรีเทรนที่ใช้ GQA อย่างแพร่หลาย (LLaMA, Qwen, Mixtral เป็นต้น) ให้เป็นโมเดลที่ใช้ MLA ได้
    • MLA มีแนวโน้มสูงที่จะกลายเป็นมาตรฐาน
  • ถ้า DeepSeek R1 ใช้ MHA มาตรฐาน จะต้องใช้ 1749KB ต่อโทเคนสำหรับเก็บ KV cache
    • เมื่อบทสนทนายาวถึงประมาณ 46,000 โทเคน KV cache จะเกินความจุทั้งหมดของ H100 หนึ่งตัว
    • หากใช้ MLA แต่ละโทเคนจะใช้ 125KB ซึ่งยังไปได้จนกว่าจะเกินประมาณ 640,000 โทเคน (2 เท่าของ Ulysses)
  • รองรับ BF16, paged KV cache (ขนาดบล็อก 64), และบน H800 ได้ memory-bound 3000 GB/s กับ compute-bound 580 TFLOPS
    • เรื่องนี้น่าจะช่วยนักพัฒนาหลายคนในกลุ่ม FANG ประหยัดเวลาไปได้มาก
    • ที่น่าเสียดายคือรองรับเฉพาะ forward pass เท่านั้น ความลับที่แท้จริงอยู่ที่ backward pass
    • อยากรู้ว่าพวกเขา implement ตัว dualpipe scheduler อย่างไร
  • MLA น่าจะหมายถึง Multi-head latent attention
  • สับสนว่าน่าจะมีมาตรการคว่ำบาตร Hopper GPU ต่อบริษัทจีนไม่ใช่หรือ แล้วนี่คือยอมรับว่ายังเข้าถึง H100 ได้แม้มีมาตรการของสหรัฐหรือเปล่า?
  • หวังจริง ๆ ว่า AI จะช่วยพาเกม Flash กลับมาได้อีกครั้ง
  • แล้วเราจะเอาสิ่งนี้ไปทำอะไรได้บ้าง?
  • OpenAI กลับมาแล้ว