4 คะแนน โดย GN⁺ 2024-07-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • "วิธีเผาเงินประมาณ $10M(13 พันล้านวอน) กับพรีพรินต์บน arXiv"
  • เมื่อไม่นานมานี้ DeepMind (GDM) ได้เผยแพร่งานวิจัยชั้นยอดชื่อ "Scaling Exponents Across Parameterizations and Optimizers"
    • งานวิจัยฉบับนี้รันการเทรน LLM มากกว่า 10,000 ครั้ง เพื่อหาค่าไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดในสภาพแวดล้อมที่หลากหลาย
  • หลังจากอ่านงานวิจัยแล้ว จึงลองรวบรวมผลการทดลองทั้งหมดเพื่อคำนวณต้นทุนรวมด้านปริมาณการคำนวณที่ต้องใช้ในการทำซ้ำงานวิจัยนี้
  • ผลลัพธ์คือ ต้องใช้ FLOPS รวม 5.42e24 และมีต้นทุน $12.9M(17.8 พันล้านวอน) (เมื่อคิดที่ $3/H100/ชั่วโมง)
    • ถ้ามองในภาพใหญ่ 5.42e24 ถือว่าเป็นขนาดที่ "ไม่ได้ใหญ่ขนาดนั้น"
    • ตัวเลขนี้ยังไม่ถึง 15% ของคอมพิวต์ที่ใช้กับ Llama 3 และถ้ามีคลัสเตอร์ H100 จำนวน 100,000 ตัว ก็สามารถรันการทดลองทั้งหมดนี้ได้ภายในเวลาเพียง 2 วัน

คำอธิบายเพิ่มเติมเกี่ยวกับมูลค่าของ H100

  • เนื่องจากเป็นงานวิจัยจากอดีตทีม Google DeepMind จึงแทบจะแน่นอนว่าใช้ TPU ในการทดลอง
  • ในงานวิจัยไม่มีการกล่าวถึงการใช้ int8 จึงคาดว่าน่าจะใช้ความแม่นยำแบบ bfloat16
  • H100-SXM มีสมรรถนะการประมวลผลเทนเซอร์แบบ 16 บิตที่ 989.40TFLOP/s
  • บล็อกของ PyTorch และ torchtitan ล่าสุดรายงานว่า H100 มี MFU อยู่ราว 40%
  • ต้นทุนของโหนด H100 ประเมินได้ราว $3 ต่อชั่วโมง (เป็นค่าเฉลี่ย เพราะจะแตกต่างกันเล็กน้อยตามผู้ให้บริการ)

1 ความคิดเห็น

 
parkindani 2024-08-01

ทำให้อยากรู้ปริมาณพลังงานทั้งหมดที่ใช้ไปมากกว่าราคาเสียอีก