- Meta ต้องใช้พลังประมวลผลขนาดมหาศาลเพื่อฝึกโมเดลภาษาขนาดใหญ่ (LLM)
- การฝึกโมเดล AI แบบดั้งเดิมในอดีตต้องฝึกโมเดลจำนวนมาก แต่ใช้ GPU ค่อนข้างน้อย
- เมื่อ Generative AI (GenAI) เข้ามา จำนวนงานลดลง แต่แต่ละงานมีขนาดใหญ่มาก
ความท้าทายของการฝึกโมเดลขนาดใหญ่
- ความน่าเชื่อถือของฮาร์ดแวร์: ต้องมีการทดสอบและควบคุมคุณภาพอย่างเข้มงวดเพื่อลดการหยุดชะงักของการฝึกจากความขัดข้องของฮาร์ดแวร์
- การกู้คืนอย่างรวดเร็วเมื่อเกิดความขัดข้อง: เมื่อฮาร์ดแวร์ขัดข้อง ต้องสามารถกู้คืนได้อย่างรวดเร็ว ต้องลดโอเวอร์เฮดจากการจัดตารางใหม่และเริ่มต้นการฝึกใหม่ได้อย่างรวดเร็ว
- การเก็บรักษาสถานะการฝึกอย่างมีประสิทธิภาพ: เมื่อเกิดความขัดข้อง ต้องสามารถบันทึกและกู้คืนสถานะการฝึกได้อย่างมีประสิทธิภาพ
- การเชื่อมต่อระหว่าง GPU ที่เหมาะสมที่สุด: การฝึกโมเดลขนาดใหญ่ให้ความสำคัญกับการส่งข้อมูลระหว่าง GPU จึงต้องมีโครงสร้างพื้นฐานเครือข่ายความเร็วสูงและโปรโตคอลการส่งข้อมูลที่มีประสิทธิภาพ
การปรับปรุงทุกชั้นของสแตกโครงสร้างพื้นฐานเป็นสิ่งสำคัญ
ซอฟต์แวร์ฝึกโมเดล
- สนับสนุนให้นักวิจัยใช้โอเพนซอร์สอย่าง PyTorch เพื่อเปลี่ยนจากงานวิจัยสู่การใช้งานจริงได้อย่างรวดเร็ว
- พัฒนาอัลกอริทึมและเทคนิคใหม่สำหรับการฝึกขนาดใหญ่ และผสานรวมเครื่องมือซอฟต์แวร์กับเฟรมเวิร์กใหม่ ๆ
การจัดตารางงาน
- ใช้อัลกอริทึมที่ซับซ้อนเพื่อเพิ่มประสิทธิภาพการใช้ทรัพยากร โดยจัดสรรทรัพยากรตามความต้องการของงานและจัดตารางแบบไดนามิก
ฮาร์ดแวร์
- ต้องใช้ฮาร์ดแวร์สมรรถนะสูงเพื่อรองรับการฝึกโมเดลขนาดใหญ่
- ปรับแต่งฮาร์ดแวร์เดิมให้เหมาะสม และดัดแปลงแพลตฟอร์ม Grand Teton ที่ใช้ NVIDIA H100 GPU โดยเพิ่ม TDP ของ GPU เป็น 700W และเปลี่ยนไปใช้ HBM3
การจัดวางในดาต้าเซ็นเตอร์
- จัดวาง GPU และระบบในดาต้าเซ็นเตอร์ให้เหมาะสมที่สุดเพื่อเพิ่มประสิทธิภาพการใช้ทรัพยากร เช่น พลังงาน การระบายความร้อน และเครือข่าย
- วางแร็ก GPU ให้ได้มากที่สุดเพื่อให้ได้ความหนาแน่นการประมวลผลสูงสุด
ความน่าเชื่อถือ
- วางแผนการตรวจจับและการกู้คืนเพื่อลดเวลาหยุดทำงานให้น้อยที่สุดเมื่อฮาร์ดแวร์ขัดข้อง
- รูปแบบความขัดข้องที่พบบ่อย: GPU ไม่ถูกตรวจพบ, DRAM & SRAM UCE, ปัญหาสายเคเบิลเครือข่ายของฮาร์ดแวร์
เครือข่าย
- ต้องมีโครงสร้างพื้นฐานเครือข่ายความเร็วสูงและโปรโตคอลการส่งข้อมูลที่มีประสิทธิภาพสำหรับการฝึกโมเดลขนาดใหญ่
- สร้างคลัสเตอร์เครือข่าย 2 แบบคือ RoCE และ InfiniBand และเรียนรู้ผ่านประสบการณ์จากการปฏิบัติการจริง
สตอเรจ
- ลงทุนในเทคโนโลยีสตอเรจความจุสูงและความเร็วสูงสำหรับจัดเก็บข้อมูลขนาดใหญ่ และพัฒนาโซลูชันการจัดเก็บข้อมูลใหม่ที่เหมาะกับงานเฉพาะทาง
แนวโน้มในอนาคต
- จะใช้ GPU หลายแสนตัวเพื่อประมวลผลข้อมูลให้มากขึ้น และรองรับระยะทางที่ไกลขึ้นกับค่าหน่วงเวลาที่สูงขึ้น
- มีแผนนำเทคโนโลยีฮาร์ดแวร์ใหม่และสถาปัตยกรรม GPU รุ่นใหม่มาใช้ พร้อมพัฒนาโครงสร้างพื้นฐานต่อไป
- จะพยายามก้าวข้ามขีดจำกัดของสิ่งที่เป็นไปได้ พร้อมสำรวจภูมิทัศน์ AI ที่เปลี่ยนแปลงอยู่เสมอ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News