Meta เปิดเผยดีไซน์ฮาร์ดแวร์ AI ล่าสุดในงาน Open Compute Project (OCP) Global Summit 2024
- จัดแสดงนวัตกรรมต่างๆ เช่น แพลตฟอร์ม AI ใหม่ ดีไซน์โอเพ่นแร็กล้ำสมัย เน็ตเวิร์กแฟบริกขั้นสูง และองค์ประกอบต่างๆ
- ต้องการส่งเสริมความร่วมมือและเร่งนวัตกรรมผ่านการแบ่งปันดีไซน์
นวัตกรรมด้านการทำโมเดล AI และความก้าวหน้าด้านโครงสร้างพื้นฐานของ Meta
- ตลอดหลายปีที่ผ่านมา Meta ได้ปรับแต่งและพัฒนาฟังก์ชันต่างๆ เช่น ฟีดและระบบโฆษณา ผ่านนวัตกรรมด้านการทำโมเดล AI
- พร้อมกับการพัฒนาและเปิดตัวโมเดล AI ใหม่ที่ก้าวหน้ายิ่งขึ้น บริษัทยังมุ่งเน้นการพัฒนาโครงสร้างพื้นฐานเพื่อรองรับเวิร์กโหลด AI รูปแบบใหม่ด้วย
- ตัวอย่างเช่น เพื่อฝึกโมเดล Llama 3.1 405B บริษัทได้ทำการเพิ่มประสิทธิภาพอย่างมากกับสแตกการฝึกทั้งหมด จนสามารถรันบน NVIDIA H100 GPU มากกว่า 16,000 ตัวได้
- ตลอดปี 2023 บริษัทได้ขยายคลัสเตอร์ฝึกจาก 1K เป็น 16K GPU อย่างรวดเร็ว และปัจจุบันกำลังฝึกโมเดลบนคลัสเตอร์ 24K-GPU
- คาดว่าปริมาณการประมวลผลที่จำเป็นสำหรับการฝึก AI จะเพิ่มขึ้นอย่างมากต่อไปในอนาคต
ความสำคัญของเครือข่ายและแบนด์วิดท์ในการสร้างคลัสเตอร์ AI
- นอกเหนือจาก GPU แล้ว เครือข่ายและแบนด์วิดท์ก็มีบทบาทสำคัญในการรับประกันประสิทธิภาพของคลัสเตอร์
- ระบบของ Meta ประกอบด้วยระบบประมวลผล HPC และเครือข่ายคอมพิวต์แบนด์วิดท์สูงที่เชื่อมต่อ GPU และตัวเร่งความเร็วเฉพาะโดเมน
- ในอนาคตคาดว่าอินเจ็กชันแบนด์วิดท์ต่อหนึ่งตัวเร่งความเร็วจะเพิ่มขึ้นถึงระดับเทราไบต์ต่อวินาที ซึ่งมากกว่าเครือข่ายในปัจจุบันเกิน 10 เท่า
- เพื่อรองรับสิ่งนี้ จำเป็นต้องมีเน็ตเวิร์กแฟบริกสมรรถนะสูง แบบหลายชั้น และไม่เกิดการบล็อก เพื่อดึงศักยภาพของคลัสเตอร์ AI ออกมาได้สูงสุด
การทำให้ AI ขยายตัวได้ด้วยโอเพ่นฮาร์ดแวร์
- หากต้องการขยาย AI ในความเร็วระดับนี้ จำเป็นต้องมีโซลูชันโอเพ่นฮาร์ดแวร์
- การพัฒนาสถาปัตยกรรมใหม่ เน็ตเวิร์กแฟบริก และการออกแบบระบบบนหลักการของความเปิดกว้าง เป็นแนวทางที่มีประสิทธิภาพและทรงอิทธิพลมากที่สุด
- การลงทุนในโอเพ่นฮาร์ดแวร์จะช่วยปลดล็อกศักยภาพของ AI ได้อย่างเต็มที่ และผลักดันนวัตกรรมอย่างต่อเนื่องในวงการ AI
แนะนำสถาปัตยกรรมแบบเปิด "Catalina" สำหรับโครงสร้างพื้นฐาน AI
- Meta ประกาศต่อชุมชน OCP ว่าจะเปิดตัว Catalina ซึ่งเป็นแร็กสมรรถนะสูงสำหรับเวิร์กโหลด AI
- Catalina สร้างบนโซลูชันแบบทั้งแร็กของแพลตฟอร์ม NVIDIA Blackwell โดยให้ความสำคัญกับความเป็นโมดูลและความยืดหยุ่น
- ถูกออกแบบมาเพื่อรองรับ NVIDIA GB200 Grace Blackwell Superchip รุ่นล่าสุด เพื่อตอบสนองความต้องการที่เพิ่มขึ้นของโครงสร้างพื้นฐาน AI ยุคใหม่
- เนื่องจากความต้องการพลังงานของ GPU เพิ่มขึ้น โซลูชันโอเพ่นแร็กจึงต้องรองรับขีดความสามารถด้านพลังงานที่สูงขึ้น
- ใน Catalina มีการนำ Orv3 high-power rack (HPR) ที่รองรับได้สูงสุด 140kW มาใช้
- โซลูชันนี้ระบายความร้อนด้วยของเหลวทั้งหมด และประกอบด้วยชิ้นส่วนหลากหลาย
- การออกแบบแบบโมดูลาร์ของ Catalina ทำให้สามารถปรับแต่งแร็กให้เหมาะกับเวิร์กโหลด AI เฉพาะทางได้
แพลตฟอร์ม Grand Teton รองรับตัวเร่งความเร็วจาก AMD
- Grand Teton คือแพลตฟอร์ม AI รุ่นถัดไปของ Meta ที่ออกแบบมาเพื่อรองรับทั้งความต้องการของเวิร์กโหลดที่ติดข้อจำกัดด้านแบนด์วิดท์หน่วยความจำและเวิร์กโหลดที่ติดข้อจำกัดด้านการคำนวณ
- ตอนนี้แพลตฟอร์ม Grand Teton ได้ขยายการรองรับไปยัง AMD Instinct MI300X แล้ว และ Meta มีแผนจะบริจาคเวอร์ชันใหม่นี้ให้กับ OCP
- เช่นเดียวกับเวอร์ชันก่อนหน้า Grand Teton มีจุดเด่นที่การออกแบบระบบแบบโมโนลิทิกเดี่ยว โดยผสานพลังงาน การควบคุม การประมวลผล และอินเทอร์เฟซแฟบริกไว้ครบถ้วน
- ไม่เพียงรองรับดีไซน์ตัวเร่งความเร็วหลากหลายแบบ รวมถึง AMD Instinct MI300x แต่ยังมอบความจุการประมวลผลที่มากขึ้น หน่วยความจำที่ขยายขึ้น และแบนด์วิดท์เครือข่ายที่เพิ่มขึ้น
โอเพ่น Disaggregated Scheduled Fabric (DSF)
- เพื่อยกระดับประสิทธิภาพของคลัสเตอร์ฝึก AI อย่างต่อเนื่อง การพัฒนาเน็ตเวิร์กกิงแบ็กเอนด์แบบเปิดและเป็นกลางต่อผู้ขายจะมีบทบาทสำคัญ
- การแยกเครือข่ายออกจากกันทำให้สามารถร่วมมือกับผู้ขายทั่วทั้งอุตสาหกรรม เพื่อออกแบบระบบที่สร้างสรรค์ ขยายได้ ยืดหยุ่น และมีประสิทธิภาพ
- DSF ใหม่สำหรับคลัสเตอร์ AI รุ่นถัดไปของ Meta มอบข้อดีหลายประการเมื่อเทียบกับสวิตช์แบบเดิม
- DSF ขับเคลื่อนด้วยมาตรฐานเปิด OCP-SAI และ FBOSS ซึ่งเป็นระบบปฏิบัติการเครือข่ายของ Meta เอง
- รองรับอินเทอร์เฟซ RoCE บน Ethernet แบบเปิดและเป็นมาตรฐานสำหรับเอนด์พอยต์และตัวเร่งความเร็ว ครอบคลุม GPU และ NIC หลายแบบจากผู้ขายหลายราย เช่น NVIDIA, Broadcom และ AMD
- นอกเหนือจาก DSF แล้ว Meta ยังได้พัฒนาและติดตั้ง fabric switch รุ่นใหม่ 51T ที่อิงกับ Broadcom และ Cisco ASIC และยังเปิดเผยโมดูล NIC ใหม่ชื่อ FBNIC ซึ่งมี network ASIC ที่ Meta ออกแบบเองเป็นครั้งแรก
ความร่วมมือระหว่าง Meta และ Microsoft เพื่อผลักดันนวัตกรรมแบบเปิด
- Meta และ Microsoft เป็นพันธมิตรกันมายาวนานภายใน OCP โดยเริ่มต้นจากการพัฒนา Switch Abstraction Interface (SAI) สำหรับดาต้าเซ็นเตอร์ในปี 2018
- ทั้งสองมีส่วนร่วมในโครงการสำคัญต่างๆ เช่น มาตรฐาน Open Accelerator Module (OAM) และการทำมาตรฐาน SSD
- ปัจจุบันความร่วมมือของทั้งสองบริษัทมุ่งเน้นไปที่ Mount Diablo แร็กพลังงานแบบแยกส่วนรุ่นใหม่
- Mount Diablo เป็นโซลูชันล้ำสมัยที่โดดเด่นด้วยหน่วย 400VDC แบบขยายได้ ซึ่งช่วยเพิ่มประสิทธิภาพและความสามารถในการขยายตัว และยกระดับโครงสร้างพื้นฐาน AI อย่างมาก
อนาคตแบบเปิดของโครงสร้างพื้นฐาน AI
- Meta มุ่งมั่นต่อโอเพ่นซอร์ส AI และเชื่อว่าโอเพ่นซอร์สจะมอบประโยชน์และโอกาสของ AI ให้ถึงมือผู้คนทั่วโลก
- หากไม่มีความร่วมมือ AI ก็จะไม่สามารถบรรลุศักยภาพของมันได้
- จำเป็นต้องมีเฟรมเวิร์กซอฟต์แวร์แบบเปิดเพื่อขับเคลื่อนนวัตกรรมของโมเดล รับประกันการพกพาใช้งาน และส่งเสริมความโปร่งใสในการพัฒนา AI
- ควรให้ความสำคัญกับโมเดลแบบเปิดและเป็นมาตรฐาน เพื่อใช้ประโยชน์จากความเชี่ยวชาญร่วมกัน ทำให้ AI เข้าถึงได้มากขึ้น และลดอคติของระบบให้น้อยที่สุด
- ยังจำเป็นต้องมีระบบฮาร์ดแวร์ AI แบบเปิด เพื่อมอบโครงสร้างพื้นฐานที่มีสมรรถนะสูง คุ้มค่า และปรับตัวได้ สำหรับความก้าวหน้าของ AI
- Meta สนับสนุนให้ทุกคนที่ต้องการมีส่วนร่วมกับการพัฒนาระบบฮาร์ดแวร์ AI ในอนาคตเข้าร่วมชุมชน OCP
- ด้วยการร่วมกันแก้ไขความต้องการด้านโครงสร้างพื้นฐานของ AI เราจะทำให้คำมั่นสัญญาที่แท้จริงของโอเพ่น AI สำหรับทุกคนเป็นจริงได้
ความเห็นของ GN⁺
- เทคโนโลยีเครือข่ายแบบเปิดที่ครอบคลุมผู้ขาย GPU และ NIC หลายราย จะช่วยลดการผูกติดกับผู้ขายรายเดียว และเพิ่มความสามารถในการขยายตัวและความยืดหยุ่นของคลัสเตอร์ฝึก AI ได้
- ความร่วมมือระหว่าง Meta และ Microsoft อาจมีบทบาทสำคัญในการเร่งนวัตกรรมโครงสร้างพื้นฐาน AI แบบเปิด โดยคาดว่าทั้งสองจะเดินหน้าพัฒนามาตรฐานและโซลูชันใหม่ๆ อย่างเต็มที่บนพื้นฐานของความร่วมมือที่สั่งสมมายาวนานผ่าน OCP
- การสนับสนุนโอเพ่นซอร์ส AI อย่างแข็งขันของ Meta เป็นเรื่องที่น่ายินดี โอเพ่นซอร์สคือหนทางในการทำให้ศักยภาพของ AI เป็นประชาธิปไตยและขยายโอกาสของ AI ไปสู่สังคมโดยรวม
- ในกระบวนการสร้างโครงสร้างพื้นฐาน AI แบบเปิด ควรมีการจัดการประเด็นอย่างความโปร่งใส ความสามารถในการอธิบายได้ และข้อพิจารณาด้านจริยธรรมไปพร้อมกัน การสร้างความไว้วางใจของสังคมต่อ AI มีความสำคัญไม่แพ้ความก้าวหน้าทางเทคโนโลยี
- เพื่อให้ระบบนิเวศฮาร์ดแวร์และซอฟต์แวร์ AI เติบโตไปด้วยกันได้ จำเป็นต้องมีทั้งความร่วมมือจากภาคอุตสาหกรรมและการมีส่วนร่วมของผู้มีส่วนได้ส่วนเสียหลากหลายฝ่าย เช่น ภาควิชาการและผู้กำหนดนโยบาย โดยหวังว่า OCP จะเป็นแพลตฟอร์มสำคัญสำหรับเรื่องนี้
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
มีความเห็นว่าการแข่งขันระหว่าง OpenAI กับ Meta AI อาจมองได้ว่าเป็นการแข่งขันของแพลตฟอร์มแบบเดียวกับ macOS vs Windows, iOS vs Android
แม้ Zuckerberg และ Facebook จะถูกวิจารณ์อย่างมาก แต่ก็ลงทุนด้านวิศวกรรมและโอเพนซอร์สอย่างมากเช่นกัน
Meta ใช้ NVIDIA H100 GPU มากกว่า 16,000 ตัวเพื่อฝึกโมเดล Llama 3.1 405B ซึ่งสะท้อนถึงการลงทุนขนาดใหญ่
มีความเห็นว่าโอเพนซอร์ส LLM ของ Meta จะดึงดูดผู้ใช้จำนวนมาก
มีการตั้งข้อสงสัยว่า Meta, Microsoft และ OpenAI อาจร่วมมือกันทำดีไซน์ชิปแบบเปิดเพื่อแข่งขันกับ NVIDIA หรือไม่
มีการกล่าวถึงความเป็นไปได้ที่ Meta จะสร้างศูนย์ข้อมูล AI ข้างแหล่งผลิตพลังงาน เช่น โรงไฟฟ้านิวเคลียร์ฟิวชัน
มีการตั้งคำถามว่า Meta กำลังเล็งไปที่ NVIDIA ต่อจาก OpenAI หรือไม่
มีการกล่าวว่าแนวคิดเรื่อง "Open" ตอนนี้กลายเป็นมีมไปแล้ว