- Meta ประกาศคลัสเตอร์ GPU ขนาด 24,576 ตัวจำนวนสองชุด เป็นส่วนหนึ่งของการลงทุนหลักเพื่ออนาคตของ AI
- ได้แบ่งปันรายละเอียดเกี่ยวกับฮาร์ดแวร์ เครือข่าย สตอเรจ การออกแบบ ประสิทธิภาพ และซอฟต์แวร์
- การออกแบบคลัสเตอร์นี้ถูกใช้ในการเทรน Llama 3
- Meta มุ่งมั่นต่อ Open Compute และโอเพนซอร์ส
- สร้างคลัสเตอร์เหล่านี้บนพื้นฐานของ Grand Teton, OpenRack และ PyTorch และผลักดันนวัตกรรมแบบเปิดต่อไปทั่วทั้งอุตสาหกรรม
- การประกาศครั้งนี้เป็นอีกก้าวหนึ่งของโรดแมปโครงสร้างพื้นฐานอันทะเยอทะยาน
- ตั้งเป้าขยายการสร้างโครงสร้างพื้นฐานอย่างต่อเนื่อง โดยมี NVIDIA H100 GPU จำนวน 350,000 ตัว เป็นส่วนหนึ่งของพอร์ตโฟลิโอที่มีสมรรถนะการประมวลผลเทียบเท่า H100 เกือบ 600,000 ตัวภายในสิ้นปี 2024
ข้อมูลเชิงลึกเกี่ยวกับคลัสเตอร์ AI ขนาดใหญ่ของ Meta
- วิสัยทัศน์ระยะยาวของ Meta คือการสร้างปัญญาประดิษฐ์ทั่วไป (AGI) ที่สร้างขึ้นอย่างเปิดกว้างและมีความรับผิดชอบ เพื่อให้ทุกคนได้รับประโยชน์
- ความก้าวหน้าไปสู่ AGI กำลังก่อให้เกิดผลิตภัณฑ์ใหม่ ฟีเจอร์ AI ใหม่ในแอป และอุปกรณ์คอมพิวติ้งรูปแบบใหม่ที่ขับเคลื่อนด้วย AI
- Meta มีประวัติยาวนานในการสร้างโครงสร้างพื้นฐาน AI และในปี 2022 ได้เปิดเผยรายละเอียดของ AI Research SuperCluster (RSC) เป็นครั้งแรก ซึ่งมี NVIDIA A100 GPU จำนวน 16,000 ตัว
โครงสร้างภายใน
- คลัสเตอร์ AI ใหม่นี้สร้างขึ้นบนความสำเร็จและบทเรียนที่ได้รับจาก RSC
- โดยมุ่งเน้นไปที่ประสบการณ์และประสิทธิภาพการทำงานของนักวิจัยและนักพัฒนา พร้อมรองรับโมเดลที่ใหญ่และซับซ้อนยิ่งขึ้นผ่านประสิทธิภาพของ network fabric สมรรถนะสูงและการตัดสินใจด้านสตอเรจที่สำคัญ
เครือข่าย
- Meta รองรับการรันโมเดล AI หลายสิบล้านล้านครั้งต่อวัน
- การให้บริการในขนาดใหญ่นั้นต้องการโครงสร้างพื้นฐานที่ยืดหยุ่นและก้าวหน้ามาก
- Meta ออกแบบฮาร์ดแวร์ ซอฟต์แวร์ และ network fabric ของตนเองแบบเฉพาะทาง เพื่อเพิ่มประสิทธิภาพประสบการณ์ของนักวิจัย AI และรับประกันการดำเนินงานของดาต้าเซ็นเตอร์อย่างมีประสิทธิภาพ
การประมวลผล
- คลัสเตอร์ทั้งสองถูกสร้างขึ้นโดยใช้ Grand Teton ซึ่งเป็นแพลตฟอร์มฮาร์ดแวร์ GPU แบบเปิดที่ Meta ออกแบบขึ้นภายในองค์กร
- Grand Teton รวมพลังงาน การควบคุม การประมวลผล และอินเทอร์เฟซ fabric ไว้ในแชสซีเดียว ช่วยยกระดับประสิทธิภาพโดยรวม ความสมบูรณ์ของสัญญาณ และสมรรถนะด้านความร้อน
สตอเรจ
- สตอเรจมีบทบาทสำคัญในการเทรน AI แต่เป็นหนึ่งในด้านที่ถูกพูดถึงน้อยที่สุด
- ปรับแต่งเวอร์ชันของโซลูชัน distributed storage 'Tectonic' ของ Meta ให้เหมาะกับสื่อแฟลช
- ตอบโจทย์ความต้องการด้านข้อมูลและการทำ checkpointing ของคลัสเตอร์ AI ผ่าน API FUSE (Linux Filesystem in Userspace) ที่พัฒนาขึ้นเอง
- ทำให้ GPU หลายพันตัวสามารถบันทึกและโหลด checkpoint ได้อย่างซิงโครไนซ์ และให้สตอเรจระดับเอ็กซะไบต์ที่ยืดหยุ่นและมี throughput สูงสำหรับการโหลดข้อมูล
- ร่วมมือกับ Hammerspace เพื่อพัฒนาการติดตั้งใช้งาน parallel network file system (NFS)
ประสิทธิภาพ
- เมื่อสร้างคลัสเตอร์ AI ขนาดใหญ่ หลักการสำคัญคือการเพิ่มทั้งประสิทธิภาพและความง่ายในการใช้งานให้สูงสุดพร้อมกัน
- วิธีที่ดีที่สุดในการทดสอบความสามารถในการขยายตัวของการออกแบบ ขณะผลักขีดจำกัดของระบบ AI คือการสร้างระบบ ปรับแต่ง และทดสอบจริง
- Meta ทดสอบความสามารถในการขยายของการออกแบบด้วยการสร้างระบบ ปรับแต่ง และทดสอบใช้งานจริง
- ยังคงพัฒนา PyTorch ซึ่งเป็นเฟรมเวิร์ก AI พื้นฐานที่รองรับเวิร์กโหลด AI เพื่อให้พร้อมสำหรับการฝึกด้วย GPU หลักสิบ ไปจนถึงหลักหลายแสนตัว
ความมุ่งมั่นต่อนวัตกรรม AI แบบเปิด
- Meta ยังคงรักษาความมุ่งมั่นต่อนวัตกรรมแบบเปิดทั้งในซอฟต์แวร์และฮาร์ดแวร์ AI
- ในฐานะสมาชิกผู้ก่อตั้งของ OCP บริษัทยังคงสนับสนุนนวัตกรรมฮาร์ดแวร์แบบเปิด และมอบดีไซน์อย่าง Grand Teton และ Open Rack ให้กับชุมชน OCP
- นอกจากนี้ยังเป็นผู้สนับสนุนรายใหญ่และสำคัญที่สุดของ PyTorch ซึ่งเป็นเฟรมเวิร์กซอฟต์แวร์ AI ที่รองรับอุตสาหกรรมในวงกว้าง
- ฮาร์ดแวร์และซอฟต์แวร์โอเพนซอร์สถูกมองว่าเป็นเครื่องมือสำคัญที่ช่วยแก้ปัญหาในระดับขนาดใหญ่
อนาคตของโครงสร้างพื้นฐาน AI ของ Meta
- การออกแบบคลัสเตอร์สำหรับเทรน AI ทั้งสองชุดนี้เป็นส่วนหนึ่งของโรดแมปที่ใหญ่กว่าสำหรับอนาคตของ AI
- Meta วางแผนขยายโครงสร้างพื้นฐานต่อไป โดยรวม NVIDIA H100 จำนวน 350,000 ตัว เป็นส่วนหนึ่งของพอร์ตโฟลิโอที่มีสมรรถนะการประมวลผลเทียบเท่า H100 จำนวน 600,000 ตัวภายในสิ้นปี 2024
ความเห็นของ GN⁺
- คลัสเตอร์ GPU ระดับ 24k ที่ Meta ประกาศถือเป็นความก้าวหน้าสำคัญของงานวิจัยและพัฒนา AI โดยเฉพาะในการมอบทรัพยากรประมวลผลอันทรงพลังที่จำเป็นต่อการเทรนโมเดล AI ขนาดใหญ่
- โครงสร้างพื้นฐานลักษณะนี้วางรากฐานให้นักวิจัยสามารถพัฒนาโซลูชัน AI ที่ล้ำหน้ามากขึ้นได้ ขณะที่ความซับซ้อนและขนาดของโมเดล AI เพิ่มขึ้นอย่างต่อเนื่อง
- ความมุ่งมั่นของ Meta ต่อโอเพนซอร์สและ Open Compute สามารถช่วยกระตุ้นนวัตกรรมทั่วทั้งอุตสาหกรรม และช่วยให้องค์กรอื่นนำเทคโนโลยีเหล่านี้ไปใช้พัฒนาโซลูชัน AI ของตนเองได้
- อย่างไรก็ตาม คลัสเตอร์ขนาดใหญ่เช่นนี้จำเป็นต้องคำนึงถึงผลกระทบต่อสิ่งแวดล้อมที่เกี่ยวข้องกับการใช้พลังงานมหาศาล ซึ่งอาจเป็นประเด็นสำคัญด้านความยั่งยืน
- การประกาศครั้งนี้ของ Meta มอบมุมมองที่น่าสนใจต่ออนาคตของเทคโนโลยี AI และเปิดโอกาสให้คิดลึกขึ้นถึงผลกระทบที่ความก้าวหน้าของ AI จะมีต่อสังคมและอุตสาหกรรม
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
การกล่าวถึง float8 และการเพิ่มขึ้นของ FLOPs
การเปรียบเทียบระหว่างยุคดอทคอมกับยุค AI
ความสัมพันธ์ระหว่างพลังประมวลผลกับเวลาในการทำวิศวกรรม
ความสนใจในงานเพิ่มประสิทธิภาพ pipeline
ความสามารถด้านวิศวกรรมของ Meta
มุมมองทางประวัติศาสตร์ต่อวิศวกรรมและโครงสร้างพื้นฐาน
ความเป็นไปได้ที่ Meta จะแข่งขันในงาน AI workload
ต้นทุนของ GPU H100
ท่าทีเปิดกว้างของ Meta ต่อการสร้างนวัตกรรม AI
วิสัยทัศน์ระยะยาวของ Meta และ AGI