- "วิธีเผาเงินประมาณ $10M(13 พันล้านวอน) กับพรีพรินต์บน arXiv"
- เมื่อไม่นานมานี้ DeepMind (GDM) ได้เผยแพร่งานวิจัยชั้นยอดชื่อ "Scaling Exponents Across Parameterizations and Optimizers"
- งานวิจัยฉบับนี้รันการเทรน LLM มากกว่า 10,000 ครั้ง เพื่อหาค่าไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดในสภาพแวดล้อมที่หลากหลาย
- หลังจากอ่านงานวิจัยแล้ว จึงลองรวบรวมผลการทดลองทั้งหมดเพื่อคำนวณต้นทุนรวมด้านปริมาณการคำนวณที่ต้องใช้ในการทำซ้ำงานวิจัยนี้
- ผลลัพธ์คือ ต้องใช้ FLOPS รวม 5.42e24 และมีต้นทุน $12.9M(17.8 พันล้านวอน) (เมื่อคิดที่ $3/H100/ชั่วโมง)
- ถ้ามองในภาพใหญ่ 5.42e24 ถือว่าเป็นขนาดที่ "ไม่ได้ใหญ่ขนาดนั้น"
- ตัวเลขนี้ยังไม่ถึง 15% ของคอมพิวต์ที่ใช้กับ Llama 3 และถ้ามีคลัสเตอร์ H100 จำนวน 100,000 ตัว ก็สามารถรันการทดลองทั้งหมดนี้ได้ภายในเวลาเพียง 2 วัน
คำอธิบายเพิ่มเติมเกี่ยวกับมูลค่าของ H100
- เนื่องจากเป็นงานวิจัยจากอดีตทีม Google DeepMind จึงแทบจะแน่นอนว่าใช้ TPU ในการทดลอง
- ในงานวิจัยไม่มีการกล่าวถึงการใช้ int8 จึงคาดว่าน่าจะใช้ความแม่นยำแบบ bfloat16
- H100-SXM มีสมรรถนะการประมวลผลเทนเซอร์แบบ 16 บิตที่ 989.40TFLOP/s
- บล็อกของ PyTorch และ torchtitan ล่าสุดรายงานว่า H100 มี MFU อยู่ราว 40%
- ต้นทุนของโหนด H100 ประเมินได้ราว $3 ต่อชั่วโมง (เป็นค่าเฉลี่ย เพราะจะแตกต่างกันเล็กน้อยตามผู้ให้บริการ)
1 ความคิดเห็น
ทำให้อยากรู้ปริมาณพลังงานทั้งหมดที่ใช้ไปมากกว่าราคาเสียอีก