6 คะแนน โดย GN⁺ 2024-06-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Meta ต้องใช้พลังประมวลผลขนาดมหาศาลเพื่อฝึกโมเดลภาษาขนาดใหญ่ (LLM)
  • การฝึกโมเดล AI แบบดั้งเดิมในอดีตต้องฝึกโมเดลจำนวนมาก แต่ใช้ GPU ค่อนข้างน้อย
  • เมื่อ Generative AI (GenAI) เข้ามา จำนวนงานลดลง แต่แต่ละงานมีขนาดใหญ่มาก

ความท้าทายของการฝึกโมเดลขนาดใหญ่

  • ความน่าเชื่อถือของฮาร์ดแวร์: ต้องมีการทดสอบและควบคุมคุณภาพอย่างเข้มงวดเพื่อลดการหยุดชะงักของการฝึกจากความขัดข้องของฮาร์ดแวร์
  • การกู้คืนอย่างรวดเร็วเมื่อเกิดความขัดข้อง: เมื่อฮาร์ดแวร์ขัดข้อง ต้องสามารถกู้คืนได้อย่างรวดเร็ว ต้องลดโอเวอร์เฮดจากการจัดตารางใหม่และเริ่มต้นการฝึกใหม่ได้อย่างรวดเร็ว
  • การเก็บรักษาสถานะการฝึกอย่างมีประสิทธิภาพ: เมื่อเกิดความขัดข้อง ต้องสามารถบันทึกและกู้คืนสถานะการฝึกได้อย่างมีประสิทธิภาพ
  • การเชื่อมต่อระหว่าง GPU ที่เหมาะสมที่สุด: การฝึกโมเดลขนาดใหญ่ให้ความสำคัญกับการส่งข้อมูลระหว่าง GPU จึงต้องมีโครงสร้างพื้นฐานเครือข่ายความเร็วสูงและโปรโตคอลการส่งข้อมูลที่มีประสิทธิภาพ

การปรับปรุงทุกชั้นของสแตกโครงสร้างพื้นฐานเป็นสิ่งสำคัญ

ซอฟต์แวร์ฝึกโมเดล

  • สนับสนุนให้นักวิจัยใช้โอเพนซอร์สอย่าง PyTorch เพื่อเปลี่ยนจากงานวิจัยสู่การใช้งานจริงได้อย่างรวดเร็ว
  • พัฒนาอัลกอริทึมและเทคนิคใหม่สำหรับการฝึกขนาดใหญ่ และผสานรวมเครื่องมือซอฟต์แวร์กับเฟรมเวิร์กใหม่ ๆ

การจัดตารางงาน

  • ใช้อัลกอริทึมที่ซับซ้อนเพื่อเพิ่มประสิทธิภาพการใช้ทรัพยากร โดยจัดสรรทรัพยากรตามความต้องการของงานและจัดตารางแบบไดนามิก

ฮาร์ดแวร์

  • ต้องใช้ฮาร์ดแวร์สมรรถนะสูงเพื่อรองรับการฝึกโมเดลขนาดใหญ่
  • ปรับแต่งฮาร์ดแวร์เดิมให้เหมาะสม และดัดแปลงแพลตฟอร์ม Grand Teton ที่ใช้ NVIDIA H100 GPU โดยเพิ่ม TDP ของ GPU เป็น 700W และเปลี่ยนไปใช้ HBM3

การจัดวางในดาต้าเซ็นเตอร์

  • จัดวาง GPU และระบบในดาต้าเซ็นเตอร์ให้เหมาะสมที่สุดเพื่อเพิ่มประสิทธิภาพการใช้ทรัพยากร เช่น พลังงาน การระบายความร้อน และเครือข่าย
  • วางแร็ก GPU ให้ได้มากที่สุดเพื่อให้ได้ความหนาแน่นการประมวลผลสูงสุด

ความน่าเชื่อถือ

  • วางแผนการตรวจจับและการกู้คืนเพื่อลดเวลาหยุดทำงานให้น้อยที่สุดเมื่อฮาร์ดแวร์ขัดข้อง
  • รูปแบบความขัดข้องที่พบบ่อย: GPU ไม่ถูกตรวจพบ, DRAM & SRAM UCE, ปัญหาสายเคเบิลเครือข่ายของฮาร์ดแวร์

เครือข่าย

  • ต้องมีโครงสร้างพื้นฐานเครือข่ายความเร็วสูงและโปรโตคอลการส่งข้อมูลที่มีประสิทธิภาพสำหรับการฝึกโมเดลขนาดใหญ่
  • สร้างคลัสเตอร์เครือข่าย 2 แบบคือ RoCE และ InfiniBand และเรียนรู้ผ่านประสบการณ์จากการปฏิบัติการจริง

สตอเรจ

  • ลงทุนในเทคโนโลยีสตอเรจความจุสูงและความเร็วสูงสำหรับจัดเก็บข้อมูลขนาดใหญ่ และพัฒนาโซลูชันการจัดเก็บข้อมูลใหม่ที่เหมาะกับงานเฉพาะทาง

แนวโน้มในอนาคต

  • จะใช้ GPU หลายแสนตัวเพื่อประมวลผลข้อมูลให้มากขึ้น และรองรับระยะทางที่ไกลขึ้นกับค่าหน่วงเวลาที่สูงขึ้น
  • มีแผนนำเทคโนโลยีฮาร์ดแวร์ใหม่และสถาปัตยกรรม GPU รุ่นใหม่มาใช้ พร้อมพัฒนาโครงสร้างพื้นฐานต่อไป
  • จะพยายามก้าวข้ามขีดจำกัดของสิ่งที่เป็นไปได้ พร้อมสำรวจภูมิทัศน์ AI ที่เปลี่ยนแปลงอยู่เสมอ

1 ความคิดเห็น

 
GN⁺ 2024-06-13
ความคิดเห็นจาก Hacker News
  • ปัญหาการเชื่อมต่อ GPU: มีการกล่าวถึงปัญหาที่ GPU ไม่ถูกตรวจพบบนบัส PCIe
  • โครงสร้างพื้นฐานการระบายความร้อน: จำเป็นต้องปรับเปลี่ยนการออกแบบเชิงกลและความร้อน โดยยังคงสภาพแวดล้อมการระบายความร้อนด้วยอากาศเดิมไว้
  • ข้อจำกัดด้านเวลา: ข้อจำกัดด้านเวลาส่งผลต่อคุณภาพโดยรวมของโมเดล
  • ความสามารถด้านการค้นหาของ Meta: มีความเห็นว่า Meta ควรปรับปรุงความสามารถด้านการค้นหามากกว่าฝึก LLM ตัวใหม่
  • วิธีการเก็บข้อมูล: มีความสงสัยว่า Meta เก็บรวบรวมและเตรียมข้อมูลอย่างไร โดยเฉพาะจัดการกับ PII (ข้อมูลที่สามารถระบุตัวบุคคลได้) อย่างไร
  • ปัญหาด้านต้นทุน: มีการกล่าวว่า LLM อาจไม่สมเหตุสมผลในแอปพลิเคชันนอกเหนือจากคลาวด์ เนื่องจากปัญหาด้านต้นทุน
  • การสร้างคลัสเตอร์: ความพยายามในการสร้างคลัสเตอร์ 24k สองชุดเพื่อเรียนรู้ประสบการณ์การปฏิบัติการนั้นน่าประทับใจ
  • การจัดตารางงาน: ยังขาดข้อมูลที่เป็นรูปธรรมเกี่ยวกับวิธีจัดตารางงานในชุดเครื่องขนาดใหญ่
  • การสร้างรายได้: ยังไม่ชัดเจนว่า Meta จะสร้างรายได้อย่างไรจากการใช้งาน LLM ในวงกว้าง
  • ความได้เปรียบด้าน AI ของ Google: มีความเห็นว่า Google ได้เปรียบในด้าน AI ผ่านการใช้ชิปแบบกำหนดเอง
  • ชื่อโดเมน: เป็นเรื่องน่าสนใจที่โดเมนของ Meta ยังคงเป็น engineering.fb.com