การสร้างโครงสร้างพื้นฐาน GenAI ของ Meta

(engineering.fb.com)

4 คะแนน โดย GN⁺ 2024-03-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Meta ประกาศคลัสเตอร์ GPU ขนาด 24,576 ตัวจำนวนสองชุด เป็นส่วนหนึ่งของการลงทุนหลักเพื่ออนาคตของ AI
- ได้แบ่งปันรายละเอียดเกี่ยวกับฮาร์ดแวร์ เครือข่าย สตอเรจ การออกแบบ ประสิทธิภาพ และซอฟต์แวร์
- การออกแบบคลัสเตอร์นี้ถูกใช้ในการเทรน Llama 3
Meta มุ่งมั่นต่อ Open Compute และโอเพนซอร์ส
- สร้างคลัสเตอร์เหล่านี้บนพื้นฐานของ Grand Teton, OpenRack และ PyTorch และผลักดันนวัตกรรมแบบเปิดต่อไปทั่วทั้งอุตสาหกรรม
การประกาศครั้งนี้เป็นอีกก้าวหนึ่งของโรดแมปโครงสร้างพื้นฐานอันทะเยอทะยาน
- ตั้งเป้าขยายการสร้างโครงสร้างพื้นฐานอย่างต่อเนื่อง โดยมี NVIDIA H100 GPU จำนวน 350,000 ตัว เป็นส่วนหนึ่งของพอร์ตโฟลิโอที่มีสมรรถนะการประมวลผลเทียบเท่า H100 เกือบ 600,000 ตัวภายในสิ้นปี 2024

ข้อมูลเชิงลึกเกี่ยวกับคลัสเตอร์ AI ขนาดใหญ่ของ Meta

วิสัยทัศน์ระยะยาวของ Meta คือการสร้างปัญญาประดิษฐ์ทั่วไป (AGI) ที่สร้างขึ้นอย่างเปิดกว้างและมีความรับผิดชอบ เพื่อให้ทุกคนได้รับประโยชน์
ความก้าวหน้าไปสู่ AGI กำลังก่อให้เกิดผลิตภัณฑ์ใหม่ ฟีเจอร์ AI ใหม่ในแอป และอุปกรณ์คอมพิวติ้งรูปแบบใหม่ที่ขับเคลื่อนด้วย AI
Meta มีประวัติยาวนานในการสร้างโครงสร้างพื้นฐาน AI และในปี 2022 ได้เปิดเผยรายละเอียดของ AI Research SuperCluster (RSC) เป็นครั้งแรก ซึ่งมี NVIDIA A100 GPU จำนวน 16,000 ตัว

โครงสร้างภายใน

คลัสเตอร์ AI ใหม่นี้สร้างขึ้นบนความสำเร็จและบทเรียนที่ได้รับจาก RSC
โดยมุ่งเน้นไปที่ประสบการณ์และประสิทธิภาพการทำงานของนักวิจัยและนักพัฒนา พร้อมรองรับโมเดลที่ใหญ่และซับซ้อนยิ่งขึ้นผ่านประสิทธิภาพของ network fabric สมรรถนะสูงและการตัดสินใจด้านสตอเรจที่สำคัญ

เครือข่าย

Meta รองรับการรันโมเดล AI หลายสิบล้านล้านครั้งต่อวัน
การให้บริการในขนาดใหญ่นั้นต้องการโครงสร้างพื้นฐานที่ยืดหยุ่นและก้าวหน้ามาก
Meta ออกแบบฮาร์ดแวร์ ซอฟต์แวร์ และ network fabric ของตนเองแบบเฉพาะทาง เพื่อเพิ่มประสิทธิภาพประสบการณ์ของนักวิจัย AI และรับประกันการดำเนินงานของดาต้าเซ็นเตอร์อย่างมีประสิทธิภาพ

การประมวลผล

คลัสเตอร์ทั้งสองถูกสร้างขึ้นโดยใช้ Grand Teton ซึ่งเป็นแพลตฟอร์มฮาร์ดแวร์ GPU แบบเปิดที่ Meta ออกแบบขึ้นภายในองค์กร
Grand Teton รวมพลังงาน การควบคุม การประมวลผล และอินเทอร์เฟซ fabric ไว้ในแชสซีเดียว ช่วยยกระดับประสิทธิภาพโดยรวม ความสมบูรณ์ของสัญญาณ และสมรรถนะด้านความร้อน

สตอเรจ

สตอเรจมีบทบาทสำคัญในการเทรน AI แต่เป็นหนึ่งในด้านที่ถูกพูดถึงน้อยที่สุด
ปรับแต่งเวอร์ชันของโซลูชัน distributed storage 'Tectonic' ของ Meta ให้เหมาะกับสื่อแฟลช
- ตอบโจทย์ความต้องการด้านข้อมูลและการทำ checkpointing ของคลัสเตอร์ AI ผ่าน API FUSE (Linux Filesystem in Userspace) ที่พัฒนาขึ้นเอง
- ทำให้ GPU หลายพันตัวสามารถบันทึกและโหลด checkpoint ได้อย่างซิงโครไนซ์ และให้สตอเรจระดับเอ็กซะไบต์ที่ยืดหยุ่นและมี throughput สูงสำหรับการโหลดข้อมูล
ร่วมมือกับ Hammerspace เพื่อพัฒนาการติดตั้งใช้งาน parallel network file system (NFS)

ประสิทธิภาพ

เมื่อสร้างคลัสเตอร์ AI ขนาดใหญ่ หลักการสำคัญคือการเพิ่มทั้งประสิทธิภาพและความง่ายในการใช้งานให้สูงสุดพร้อมกัน
วิธีที่ดีที่สุดในการทดสอบความสามารถในการขยายตัวของการออกแบบ ขณะผลักขีดจำกัดของระบบ AI คือการสร้างระบบ ปรับแต่ง และทดสอบจริง
Meta ทดสอบความสามารถในการขยายของการออกแบบด้วยการสร้างระบบ ปรับแต่ง และทดสอบใช้งานจริง
ยังคงพัฒนา PyTorch ซึ่งเป็นเฟรมเวิร์ก AI พื้นฐานที่รองรับเวิร์กโหลด AI เพื่อให้พร้อมสำหรับการฝึกด้วย GPU หลักสิบ ไปจนถึงหลักหลายแสนตัว

ความมุ่งมั่นต่อนวัตกรรม AI แบบเปิด

Meta ยังคงรักษาความมุ่งมั่นต่อนวัตกรรมแบบเปิดทั้งในซอฟต์แวร์และฮาร์ดแวร์ AI
ในฐานะสมาชิกผู้ก่อตั้งของ OCP บริษัทยังคงสนับสนุนนวัตกรรมฮาร์ดแวร์แบบเปิด และมอบดีไซน์อย่าง Grand Teton และ Open Rack ให้กับชุมชน OCP
นอกจากนี้ยังเป็นผู้สนับสนุนรายใหญ่และสำคัญที่สุดของ PyTorch ซึ่งเป็นเฟรมเวิร์กซอฟต์แวร์ AI ที่รองรับอุตสาหกรรมในวงกว้าง
ฮาร์ดแวร์และซอฟต์แวร์โอเพนซอร์สถูกมองว่าเป็นเครื่องมือสำคัญที่ช่วยแก้ปัญหาในระดับขนาดใหญ่

อนาคตของโครงสร้างพื้นฐาน AI ของ Meta

การออกแบบคลัสเตอร์สำหรับเทรน AI ทั้งสองชุดนี้เป็นส่วนหนึ่งของโรดแมปที่ใหญ่กว่าสำหรับอนาคตของ AI
Meta วางแผนขยายโครงสร้างพื้นฐานต่อไป โดยรวม NVIDIA H100 จำนวน 350,000 ตัว เป็นส่วนหนึ่งของพอร์ตโฟลิโอที่มีสมรรถนะการประมวลผลเทียบเท่า H100 จำนวน 600,000 ตัวภายในสิ้นปี 2024

ความเห็นของ GN⁺

คลัสเตอร์ GPU ระดับ 24k ที่ Meta ประกาศถือเป็นความก้าวหน้าสำคัญของงานวิจัยและพัฒนา AI โดยเฉพาะในการมอบทรัพยากรประมวลผลอันทรงพลังที่จำเป็นต่อการเทรนโมเดล AI ขนาดใหญ่
โครงสร้างพื้นฐานลักษณะนี้วางรากฐานให้นักวิจัยสามารถพัฒนาโซลูชัน AI ที่ล้ำหน้ามากขึ้นได้ ขณะที่ความซับซ้อนและขนาดของโมเดล AI เพิ่มขึ้นอย่างต่อเนื่อง
ความมุ่งมั่นของ Meta ต่อโอเพนซอร์สและ Open Compute สามารถช่วยกระตุ้นนวัตกรรมทั่วทั้งอุตสาหกรรม และช่วยให้องค์กรอื่นนำเทคโนโลยีเหล่านี้ไปใช้พัฒนาโซลูชัน AI ของตนเองได้
อย่างไรก็ตาม คลัสเตอร์ขนาดใหญ่เช่นนี้จำเป็นต้องคำนึงถึงผลกระทบต่อสิ่งแวดล้อมที่เกี่ยวข้องกับการใช้พลังงานมหาศาล ซึ่งอาจเป็นประเด็นสำคัญด้านความยั่งยืน
การประกาศครั้งนี้ของ Meta มอบมุมมองที่น่าสนใจต่ออนาคตของเทคโนโลยี AI และเปิดโอกาสให้คิดลึกขึ้นถึงผลกระทบที่ความก้าวหน้าของ AI จะมีต่อสังคมและอุตสาหกรรม

1 ความคิดเห็น

GN⁺ 2024-03-13

ความคิดเห็นบน Hacker News

การกล่าวถึง float8 และการเพิ่มขึ้นของ FLOPs
- มีการกล่าวถึง float8 และทำให้ FLOPs เพิ่มขึ้น 2 เท่า
- ตอนนี้ xformers รองรับ sparsity แบบ 2:4 แล้ว จึงอาจทำให้ FLOPs เพิ่มขึ้นได้อีก 2 เท่า
- Llama3 อาจใช้ float8 และ sparsity แบบ 2:4 กับ MLP ทำให้ใช้ FLOPs ได้สูงถึง 4 เท่าของ H100 float16
- PyTorch รองรับ fp8 แบบทดลองแล้ว แต่การทำ attention ด้วย float8 ก็ยังซับซ้อนอยู่เนื่องจากปัญหาเรื่องความแม่นยำ
- เป็นไปได้ว่า attention จะใช้ float16, ส่วน RoPE/layernorms ใช้ float16/float32, และอย่างอื่นทั้งหมดใช้ float8
การเปรียบเทียบระหว่างยุคดอทคอมกับยุค AI
- คนที่เคยผ่านยุคดอทคอมมารู้สึกค่อนข้างหมดกำลังใจกับยุค AI เพราะต้นทุนเงินทุนมหาศาลที่ต้องใช้ในการฝึกโมเดล
- ในช่วงต้นของยุคดอทคอม ใครๆ ก็เริ่มต้นเว็บไซต์อีคอมเมิร์ซได้ด้วยต้นทุนโครงสร้างพื้นฐานที่ค่อนข้างต่ำ
- ตอนนี้ดูเหมือนว่าจะมีเพียงบริษัทขนาดใหญ่อย่าง Meta, Google, Microsoft และ OpenAI เท่านั้นที่สามารถสร้างโมเดล AI ได้
ความสัมพันธ์ระหว่างพลังประมวลผลกับเวลาในการทำวิศวกรรม
- มีความสนใจว่าหาก Facebook เพิ่มพลังประมวลผลได้ 10 เท่า จะต้องออกแบบทั้งสแตกใหม่หรือไม่ และถ้าเป็น 100 เท่าจะเป็นอย่างไร
- มีคำถามว่าการออกแบบใหม่แต่ละครั้งเป็นเพียงการเปลี่ยนแปลงง่ายๆ หรือเป็นงานที่ซับซ้อนกว่านั้นมาก
- ความเข้าใจทางเทคนิคเกี่ยวกับภายในคลัสเตอร์มีเพียงระดับผิวเผิน จึงอยากรู้ความเห็นจากคนที่มีประสบการณ์เกี่ยวข้อง
ความสนใจในงานเพิ่มประสิทธิภาพ pipeline
- มีคำถามว่าคนที่อยากมีส่วนร่วมในงานเพิ่มประสิทธิภาพ pipeline ควรเริ่มต้นอย่างไร
- สงสัยว่านี่เป็นงานของนักวิทยาศาสตร์แมชชีนเลิร์นนิงที่มีความรู้ C/C++ และโครงสร้างพื้นฐานแล้วลงไปทำระดับระบบเมื่อจำเป็น หรือเป็นผู้เชี่ยวชาญด้าน CUDA/SIMD ที่ขยับขึ้นมาทำงานแมชชีนเลิร์นนิง
ความสามารถด้านวิศวกรรมของ Meta
- Meta แสดงผลงานที่แข็งแกร่งในด้านวิศวกรรม แม้จะมีแรงกดดันเชิงลบ
- มีคำถามว่า Meta วางแผนจะสร้างรายได้จากความสามารถด้านวิศวกรรมเหล่านี้อย่างไร
มุมมองทางประวัติศาสตร์ต่อวิศวกรรมและโครงสร้างพื้นฐาน
- มีการกล่าวถึงบทความ DLRM รวมถึงแร็กแบบ disaggregated และ SDN ยุคแรกของ Facebook
- ตั้งแต่ปี 2018 ก็มีการใช้โครงข่ายประสาทขนาดใหญ่สำหรับระบบแนะนำและการจัดอันดับ โดยวาง SSD และ DRAM ไว้คนละส่วนของแร็กแล้ว
- มีการกล่าวถึงโมเดลพยากรณ์การคลิก และความน่าทึ่งของวิธีฝึก HOGWILD ที่ใช้ Intel AVX-2
- เน้นว่า Meta ยังคงมีความสามารถระดับแนวหน้าในด้านการออกแบบโครงสร้างพื้นฐานและการออกแบบ SKU
ความเป็นไปได้ที่ Meta จะแข่งขันในงาน AI workload
- มีความสงสัยว่า Meta จะสามารถแข่งขันกับ AWS, MSFT และ GOOG ในด้าน AI workload ได้หรือไม่
ต้นทุนของ GPU H100
- มีการประเมินว่า Meta จ่ายเงินให้กับ GPU H100 เป็นจำนวนเท่าใด
- หากซื้อ NVIDIA H100 จำนวน 350,000 ตัวที่ราคา $10k ต้นทุนรวมจะอยู่ที่ $3.5b
ท่าทีเปิดกว้างของ Meta ต่อการสร้างนวัตกรรม AI
- มีการรับรู้ว่า Meta แสดงท่าทีเปิดกว้างต่อการสร้างนวัตกรรม AI
วิสัยทัศน์ระยะยาวของ Meta และ AGI
- วิสัยทัศน์ระยะยาวของ Meta คือการสร้างปัญญาประดิษฐ์ทั่วไป (AGI)

การสร้างโครงสร้างพื้นฐาน GenAI ของ Meta

ข้อมูลเชิงลึกเกี่ยวกับคลัสเตอร์ AI ขนาดใหญ่ของ Meta

โครงสร้างภายใน

เครือข่าย

การประมวลผล

สตอเรจ

ประสิทธิภาพ

ความมุ่งมั่นต่อนวัตกรรม AI แบบเปิด

อนาคตของโครงสร้างพื้นฐาน AI ของ Meta

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News