วิธีที่ Meta ฝึกโมเดลภาษาขนาดใหญ่ในระดับมหาศาล

(engineering.fb.com)

6 คะแนน โดย GN⁺ 2024-06-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Meta ต้องใช้พลังประมวลผลขนาดมหาศาลเพื่อฝึกโมเดลภาษาขนาดใหญ่ (LLM)
การฝึกโมเดล AI แบบดั้งเดิมในอดีตต้องฝึกโมเดลจำนวนมาก แต่ใช้ GPU ค่อนข้างน้อย
เมื่อ Generative AI (GenAI) เข้ามา จำนวนงานลดลง แต่แต่ละงานมีขนาดใหญ่มาก

ความท้าทายของการฝึกโมเดลขนาดใหญ่

ความน่าเชื่อถือของฮาร์ดแวร์: ต้องมีการทดสอบและควบคุมคุณภาพอย่างเข้มงวดเพื่อลดการหยุดชะงักของการฝึกจากความขัดข้องของฮาร์ดแวร์
การกู้คืนอย่างรวดเร็วเมื่อเกิดความขัดข้อง: เมื่อฮาร์ดแวร์ขัดข้อง ต้องสามารถกู้คืนได้อย่างรวดเร็ว ต้องลดโอเวอร์เฮดจากการจัดตารางใหม่และเริ่มต้นการฝึกใหม่ได้อย่างรวดเร็ว
การเก็บรักษาสถานะการฝึกอย่างมีประสิทธิภาพ: เมื่อเกิดความขัดข้อง ต้องสามารถบันทึกและกู้คืนสถานะการฝึกได้อย่างมีประสิทธิภาพ
การเชื่อมต่อระหว่าง GPU ที่เหมาะสมที่สุด: การฝึกโมเดลขนาดใหญ่ให้ความสำคัญกับการส่งข้อมูลระหว่าง GPU จึงต้องมีโครงสร้างพื้นฐานเครือข่ายความเร็วสูงและโปรโตคอลการส่งข้อมูลที่มีประสิทธิภาพ

การปรับปรุงทุกชั้นของสแตกโครงสร้างพื้นฐานเป็นสิ่งสำคัญ

ซอฟต์แวร์ฝึกโมเดล

สนับสนุนให้นักวิจัยใช้โอเพนซอร์สอย่าง PyTorch เพื่อเปลี่ยนจากงานวิจัยสู่การใช้งานจริงได้อย่างรวดเร็ว
พัฒนาอัลกอริทึมและเทคนิคใหม่สำหรับการฝึกขนาดใหญ่ และผสานรวมเครื่องมือซอฟต์แวร์กับเฟรมเวิร์กใหม่ ๆ

การจัดตารางงาน

ใช้อัลกอริทึมที่ซับซ้อนเพื่อเพิ่มประสิทธิภาพการใช้ทรัพยากร โดยจัดสรรทรัพยากรตามความต้องการของงานและจัดตารางแบบไดนามิก

ฮาร์ดแวร์

ต้องใช้ฮาร์ดแวร์สมรรถนะสูงเพื่อรองรับการฝึกโมเดลขนาดใหญ่
ปรับแต่งฮาร์ดแวร์เดิมให้เหมาะสม และดัดแปลงแพลตฟอร์ม Grand Teton ที่ใช้ NVIDIA H100 GPU โดยเพิ่ม TDP ของ GPU เป็น 700W และเปลี่ยนไปใช้ HBM3

การจัดวางในดาต้าเซ็นเตอร์

จัดวาง GPU และระบบในดาต้าเซ็นเตอร์ให้เหมาะสมที่สุดเพื่อเพิ่มประสิทธิภาพการใช้ทรัพยากร เช่น พลังงาน การระบายความร้อน และเครือข่าย
วางแร็ก GPU ให้ได้มากที่สุดเพื่อให้ได้ความหนาแน่นการประมวลผลสูงสุด

ความน่าเชื่อถือ

วางแผนการตรวจจับและการกู้คืนเพื่อลดเวลาหยุดทำงานให้น้อยที่สุดเมื่อฮาร์ดแวร์ขัดข้อง
รูปแบบความขัดข้องที่พบบ่อย: GPU ไม่ถูกตรวจพบ, DRAM & SRAM UCE, ปัญหาสายเคเบิลเครือข่ายของฮาร์ดแวร์

เครือข่าย

ต้องมีโครงสร้างพื้นฐานเครือข่ายความเร็วสูงและโปรโตคอลการส่งข้อมูลที่มีประสิทธิภาพสำหรับการฝึกโมเดลขนาดใหญ่
สร้างคลัสเตอร์เครือข่าย 2 แบบคือ RoCE และ InfiniBand และเรียนรู้ผ่านประสบการณ์จากการปฏิบัติการจริง

สตอเรจ

ลงทุนในเทคโนโลยีสตอเรจความจุสูงและความเร็วสูงสำหรับจัดเก็บข้อมูลขนาดใหญ่ และพัฒนาโซลูชันการจัดเก็บข้อมูลใหม่ที่เหมาะกับงานเฉพาะทาง

แนวโน้มในอนาคต

จะใช้ GPU หลายแสนตัวเพื่อประมวลผลข้อมูลให้มากขึ้น และรองรับระยะทางที่ไกลขึ้นกับค่าหน่วงเวลาที่สูงขึ้น
มีแผนนำเทคโนโลยีฮาร์ดแวร์ใหม่และสถาปัตยกรรม GPU รุ่นใหม่มาใช้ พร้อมพัฒนาโครงสร้างพื้นฐานต่อไป
จะพยายามก้าวข้ามขีดจำกัดของสิ่งที่เป็นไปได้ พร้อมสำรวจภูมิทัศน์ AI ที่เปลี่ยนแปลงอยู่เสมอ

1 ความคิดเห็น

GN⁺ 2024-06-13

ความคิดเห็นจาก Hacker News

ปัญหาการเชื่อมต่อ GPU: มีการกล่าวถึงปัญหาที่ GPU ไม่ถูกตรวจพบบนบัส PCIe
โครงสร้างพื้นฐานการระบายความร้อน: จำเป็นต้องปรับเปลี่ยนการออกแบบเชิงกลและความร้อน โดยยังคงสภาพแวดล้อมการระบายความร้อนด้วยอากาศเดิมไว้
ข้อจำกัดด้านเวลา: ข้อจำกัดด้านเวลาส่งผลต่อคุณภาพโดยรวมของโมเดล
ความสามารถด้านการค้นหาของ Meta: มีความเห็นว่า Meta ควรปรับปรุงความสามารถด้านการค้นหามากกว่าฝึก LLM ตัวใหม่
วิธีการเก็บข้อมูล: มีความสงสัยว่า Meta เก็บรวบรวมและเตรียมข้อมูลอย่างไร โดยเฉพาะจัดการกับ PII (ข้อมูลที่สามารถระบุตัวบุคคลได้) อย่างไร
ปัญหาด้านต้นทุน: มีการกล่าวว่า LLM อาจไม่สมเหตุสมผลในแอปพลิเคชันนอกเหนือจากคลาวด์ เนื่องจากปัญหาด้านต้นทุน
การสร้างคลัสเตอร์: ความพยายามในการสร้างคลัสเตอร์ 24k สองชุดเพื่อเรียนรู้ประสบการณ์การปฏิบัติการนั้นน่าประทับใจ
การจัดตารางงาน: ยังขาดข้อมูลที่เป็นรูปธรรมเกี่ยวกับวิธีจัดตารางงานในชุดเครื่องขนาดใหญ่
การสร้างรายได้: ยังไม่ชัดเจนว่า Meta จะสร้างรายได้อย่างไรจากการใช้งาน LLM ในวงกว้าง
ความได้เปรียบด้าน AI ของ Google: มีความเห็นว่า Google ได้เปรียบในด้าน AI ผ่านการใช้ชิปแบบกำหนดเอง
ชื่อโดเมน: เป็นเรื่องน่าสนใจที่โดเมนของ Meta ยังคงเป็น engineering.fb.com

วิธีที่ Meta ฝึกโมเดลภาษาขนาดใหญ่ในระดับมหาศาล

ความท้าทายของการฝึกโมเดลขนาดใหญ่

การปรับปรุงทุกชั้นของสแตกโครงสร้างพื้นฐานเป็นสิ่งสำคัญ

ซอฟต์แวร์ฝึกโมเดล

การจัดตารางงาน

ฮาร์ดแวร์

การจัดวางในดาต้าเซ็นเตอร์

ความน่าเชื่อถือ

เครือข่าย

สตอเรจ

แนวโน้มในอนาคต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News