ลองคำนวณต้นทุนของงานวิจัย Google DeepMind

(152334H.github.io)

4 คะแนน โดย GN⁺ 2024-07-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

"วิธีเผาเงินประมาณ $10M(13 พันล้านวอน) กับพรีพรินต์บน arXiv"
เมื่อไม่นานมานี้ DeepMind (GDM) ได้เผยแพร่งานวิจัยชั้นยอดชื่อ "Scaling Exponents Across Parameterizations and Optimizers"
- งานวิจัยฉบับนี้รันการเทรน LLM มากกว่า 10,000 ครั้ง เพื่อหาค่าไฮเปอร์พารามิเตอร์ที่เหมาะสมที่สุดในสภาพแวดล้อมที่หลากหลาย
หลังจากอ่านงานวิจัยแล้ว จึงลองรวบรวมผลการทดลองทั้งหมดเพื่อคำนวณต้นทุนรวมด้านปริมาณการคำนวณที่ต้องใช้ในการทำซ้ำงานวิจัยนี้
ผลลัพธ์คือ ต้องใช้ FLOPS รวม 5.42e24 และมีต้นทุน $12.9M(17.8 พันล้านวอน) (เมื่อคิดที่ $3/H100/ชั่วโมง)
- ถ้ามองในภาพใหญ่ 5.42e24 ถือว่าเป็นขนาดที่ "ไม่ได้ใหญ่ขนาดนั้น"
- ตัวเลขนี้ยังไม่ถึง 15% ของคอมพิวต์ที่ใช้กับ Llama 3 และถ้ามีคลัสเตอร์ H100 จำนวน 100,000 ตัว ก็สามารถรันการทดลองทั้งหมดนี้ได้ภายในเวลาเพียง 2 วัน

คำอธิบายเพิ่มเติมเกี่ยวกับมูลค่าของ H100

เนื่องจากเป็นงานวิจัยจากอดีตทีม Google DeepMind จึงแทบจะแน่นอนว่าใช้ TPU ในการทดลอง
ในงานวิจัยไม่มีการกล่าวถึงการใช้ int8 จึงคาดว่าน่าจะใช้ความแม่นยำแบบ bfloat16
H100-SXM มีสมรรถนะการประมวลผลเทนเซอร์แบบ 16 บิตที่ 989.40TFLOP/s
บล็อกของ PyTorch และ torchtitan ล่าสุดรายงานว่า H100 มี MFU อยู่ราว 40%
ต้นทุนของโหนด H100 ประเมินได้ราว $3 ต่อชั่วโมง (เป็นค่าเฉลี่ย เพราะจะแตกต่างกันเล็กน้อยตามผู้ให้บริการ)

1 ความคิดเห็น

parkindani 2024-08-01

ทำให้อยากรู้ปริมาณพลังงานทั้งหมดที่ใช้ไปมากกว่าราคาเสียอีก

ลองคำนวณต้นทุนของงานวิจัย Google DeepMind

คำอธิบายเพิ่มเติมเกี่ยวกับมูลค่าของ H100

บทความที่เกี่ยวข้อง

1 ความคิดเห็น