6 คะแนน โดย GN⁺ 2024-10-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Meta เปิดเผยดีไซน์ฮาร์ดแวร์ AI ล่าสุดในงาน Open Compute Project (OCP) Global Summit 2024

  • จัดแสดงนวัตกรรมต่างๆ เช่น แพลตฟอร์ม AI ใหม่ ดีไซน์โอเพ่นแร็กล้ำสมัย เน็ตเวิร์กแฟบริกขั้นสูง และองค์ประกอบต่างๆ
  • ต้องการส่งเสริมความร่วมมือและเร่งนวัตกรรมผ่านการแบ่งปันดีไซน์

นวัตกรรมด้านการทำโมเดล AI และความก้าวหน้าด้านโครงสร้างพื้นฐานของ Meta

  • ตลอดหลายปีที่ผ่านมา Meta ได้ปรับแต่งและพัฒนาฟังก์ชันต่างๆ เช่น ฟีดและระบบโฆษณา ผ่านนวัตกรรมด้านการทำโมเดล AI
  • พร้อมกับการพัฒนาและเปิดตัวโมเดล AI ใหม่ที่ก้าวหน้ายิ่งขึ้น บริษัทยังมุ่งเน้นการพัฒนาโครงสร้างพื้นฐานเพื่อรองรับเวิร์กโหลด AI รูปแบบใหม่ด้วย
  • ตัวอย่างเช่น เพื่อฝึกโมเดล Llama 3.1 405B บริษัทได้ทำการเพิ่มประสิทธิภาพอย่างมากกับสแตกการฝึกทั้งหมด จนสามารถรันบน NVIDIA H100 GPU มากกว่า 16,000 ตัวได้
  • ตลอดปี 2023 บริษัทได้ขยายคลัสเตอร์ฝึกจาก 1K เป็น 16K GPU อย่างรวดเร็ว และปัจจุบันกำลังฝึกโมเดลบนคลัสเตอร์ 24K-GPU
  • คาดว่าปริมาณการประมวลผลที่จำเป็นสำหรับการฝึก AI จะเพิ่มขึ้นอย่างมากต่อไปในอนาคต

ความสำคัญของเครือข่ายและแบนด์วิดท์ในการสร้างคลัสเตอร์ AI

  • นอกเหนือจาก GPU แล้ว เครือข่ายและแบนด์วิดท์ก็มีบทบาทสำคัญในการรับประกันประสิทธิภาพของคลัสเตอร์
  • ระบบของ Meta ประกอบด้วยระบบประมวลผล HPC และเครือข่ายคอมพิวต์แบนด์วิดท์สูงที่เชื่อมต่อ GPU และตัวเร่งความเร็วเฉพาะโดเมน
  • ในอนาคตคาดว่าอินเจ็กชันแบนด์วิดท์ต่อหนึ่งตัวเร่งความเร็วจะเพิ่มขึ้นถึงระดับเทราไบต์ต่อวินาที ซึ่งมากกว่าเครือข่ายในปัจจุบันเกิน 10 เท่า
  • เพื่อรองรับสิ่งนี้ จำเป็นต้องมีเน็ตเวิร์กแฟบริกสมรรถนะสูง แบบหลายชั้น และไม่เกิดการบล็อก เพื่อดึงศักยภาพของคลัสเตอร์ AI ออกมาได้สูงสุด

การทำให้ AI ขยายตัวได้ด้วยโอเพ่นฮาร์ดแวร์

  • หากต้องการขยาย AI ในความเร็วระดับนี้ จำเป็นต้องมีโซลูชันโอเพ่นฮาร์ดแวร์
  • การพัฒนาสถาปัตยกรรมใหม่ เน็ตเวิร์กแฟบริก และการออกแบบระบบบนหลักการของความเปิดกว้าง เป็นแนวทางที่มีประสิทธิภาพและทรงอิทธิพลมากที่สุด
  • การลงทุนในโอเพ่นฮาร์ดแวร์จะช่วยปลดล็อกศักยภาพของ AI ได้อย่างเต็มที่ และผลักดันนวัตกรรมอย่างต่อเนื่องในวงการ AI

แนะนำสถาปัตยกรรมแบบเปิด "Catalina" สำหรับโครงสร้างพื้นฐาน AI

  • Meta ประกาศต่อชุมชน OCP ว่าจะเปิดตัว Catalina ซึ่งเป็นแร็กสมรรถนะสูงสำหรับเวิร์กโหลด AI
  • Catalina สร้างบนโซลูชันแบบทั้งแร็กของแพลตฟอร์ม NVIDIA Blackwell โดยให้ความสำคัญกับความเป็นโมดูลและความยืดหยุ่น
  • ถูกออกแบบมาเพื่อรองรับ NVIDIA GB200 Grace Blackwell Superchip รุ่นล่าสุด เพื่อตอบสนองความต้องการที่เพิ่มขึ้นของโครงสร้างพื้นฐาน AI ยุคใหม่
  • เนื่องจากความต้องการพลังงานของ GPU เพิ่มขึ้น โซลูชันโอเพ่นแร็กจึงต้องรองรับขีดความสามารถด้านพลังงานที่สูงขึ้น
  • ใน Catalina มีการนำ Orv3 high-power rack (HPR) ที่รองรับได้สูงสุด 140kW มาใช้
  • โซลูชันนี้ระบายความร้อนด้วยของเหลวทั้งหมด และประกอบด้วยชิ้นส่วนหลากหลาย
  • การออกแบบแบบโมดูลาร์ของ Catalina ทำให้สามารถปรับแต่งแร็กให้เหมาะกับเวิร์กโหลด AI เฉพาะทางได้

แพลตฟอร์ม Grand Teton รองรับตัวเร่งความเร็วจาก AMD

  • Grand Teton คือแพลตฟอร์ม AI รุ่นถัดไปของ Meta ที่ออกแบบมาเพื่อรองรับทั้งความต้องการของเวิร์กโหลดที่ติดข้อจำกัดด้านแบนด์วิดท์หน่วยความจำและเวิร์กโหลดที่ติดข้อจำกัดด้านการคำนวณ
  • ตอนนี้แพลตฟอร์ม Grand Teton ได้ขยายการรองรับไปยัง AMD Instinct MI300X แล้ว และ Meta มีแผนจะบริจาคเวอร์ชันใหม่นี้ให้กับ OCP
  • เช่นเดียวกับเวอร์ชันก่อนหน้า Grand Teton มีจุดเด่นที่การออกแบบระบบแบบโมโนลิทิกเดี่ยว โดยผสานพลังงาน การควบคุม การประมวลผล และอินเทอร์เฟซแฟบริกไว้ครบถ้วน
  • ไม่เพียงรองรับดีไซน์ตัวเร่งความเร็วหลากหลายแบบ รวมถึง AMD Instinct MI300x แต่ยังมอบความจุการประมวลผลที่มากขึ้น หน่วยความจำที่ขยายขึ้น และแบนด์วิดท์เครือข่ายที่เพิ่มขึ้น

โอเพ่น Disaggregated Scheduled Fabric (DSF)

  • เพื่อยกระดับประสิทธิภาพของคลัสเตอร์ฝึก AI อย่างต่อเนื่อง การพัฒนาเน็ตเวิร์กกิงแบ็กเอนด์แบบเปิดและเป็นกลางต่อผู้ขายจะมีบทบาทสำคัญ
  • การแยกเครือข่ายออกจากกันทำให้สามารถร่วมมือกับผู้ขายทั่วทั้งอุตสาหกรรม เพื่อออกแบบระบบที่สร้างสรรค์ ขยายได้ ยืดหยุ่น และมีประสิทธิภาพ
  • DSF ใหม่สำหรับคลัสเตอร์ AI รุ่นถัดไปของ Meta มอบข้อดีหลายประการเมื่อเทียบกับสวิตช์แบบเดิม
  • DSF ขับเคลื่อนด้วยมาตรฐานเปิด OCP-SAI และ FBOSS ซึ่งเป็นระบบปฏิบัติการเครือข่ายของ Meta เอง
  • รองรับอินเทอร์เฟซ RoCE บน Ethernet แบบเปิดและเป็นมาตรฐานสำหรับเอนด์พอยต์และตัวเร่งความเร็ว ครอบคลุม GPU และ NIC หลายแบบจากผู้ขายหลายราย เช่น NVIDIA, Broadcom และ AMD
  • นอกเหนือจาก DSF แล้ว Meta ยังได้พัฒนาและติดตั้ง fabric switch รุ่นใหม่ 51T ที่อิงกับ Broadcom และ Cisco ASIC และยังเปิดเผยโมดูล NIC ใหม่ชื่อ FBNIC ซึ่งมี network ASIC ที่ Meta ออกแบบเองเป็นครั้งแรก

ความร่วมมือระหว่าง Meta และ Microsoft เพื่อผลักดันนวัตกรรมแบบเปิด

  • Meta และ Microsoft เป็นพันธมิตรกันมายาวนานภายใน OCP โดยเริ่มต้นจากการพัฒนา Switch Abstraction Interface (SAI) สำหรับดาต้าเซ็นเตอร์ในปี 2018
  • ทั้งสองมีส่วนร่วมในโครงการสำคัญต่างๆ เช่น มาตรฐาน Open Accelerator Module (OAM) และการทำมาตรฐาน SSD
  • ปัจจุบันความร่วมมือของทั้งสองบริษัทมุ่งเน้นไปที่ Mount Diablo แร็กพลังงานแบบแยกส่วนรุ่นใหม่
  • Mount Diablo เป็นโซลูชันล้ำสมัยที่โดดเด่นด้วยหน่วย 400VDC แบบขยายได้ ซึ่งช่วยเพิ่มประสิทธิภาพและความสามารถในการขยายตัว และยกระดับโครงสร้างพื้นฐาน AI อย่างมาก

อนาคตแบบเปิดของโครงสร้างพื้นฐาน AI

  • Meta มุ่งมั่นต่อโอเพ่นซอร์ส AI และเชื่อว่าโอเพ่นซอร์สจะมอบประโยชน์และโอกาสของ AI ให้ถึงมือผู้คนทั่วโลก
  • หากไม่มีความร่วมมือ AI ก็จะไม่สามารถบรรลุศักยภาพของมันได้
  • จำเป็นต้องมีเฟรมเวิร์กซอฟต์แวร์แบบเปิดเพื่อขับเคลื่อนนวัตกรรมของโมเดล รับประกันการพกพาใช้งาน และส่งเสริมความโปร่งใสในการพัฒนา AI
  • ควรให้ความสำคัญกับโมเดลแบบเปิดและเป็นมาตรฐาน เพื่อใช้ประโยชน์จากความเชี่ยวชาญร่วมกัน ทำให้ AI เข้าถึงได้มากขึ้น และลดอคติของระบบให้น้อยที่สุด
  • ยังจำเป็นต้องมีระบบฮาร์ดแวร์ AI แบบเปิด เพื่อมอบโครงสร้างพื้นฐานที่มีสมรรถนะสูง คุ้มค่า และปรับตัวได้ สำหรับความก้าวหน้าของ AI
  • Meta สนับสนุนให้ทุกคนที่ต้องการมีส่วนร่วมกับการพัฒนาระบบฮาร์ดแวร์ AI ในอนาคตเข้าร่วมชุมชน OCP
  • ด้วยการร่วมกันแก้ไขความต้องการด้านโครงสร้างพื้นฐานของ AI เราจะทำให้คำมั่นสัญญาที่แท้จริงของโอเพ่น AI สำหรับทุกคนเป็นจริงได้

ความเห็นของ GN⁺

  • เทคโนโลยีเครือข่ายแบบเปิดที่ครอบคลุมผู้ขาย GPU และ NIC หลายราย จะช่วยลดการผูกติดกับผู้ขายรายเดียว และเพิ่มความสามารถในการขยายตัวและความยืดหยุ่นของคลัสเตอร์ฝึก AI ได้
  • ความร่วมมือระหว่าง Meta และ Microsoft อาจมีบทบาทสำคัญในการเร่งนวัตกรรมโครงสร้างพื้นฐาน AI แบบเปิด โดยคาดว่าทั้งสองจะเดินหน้าพัฒนามาตรฐานและโซลูชันใหม่ๆ อย่างเต็มที่บนพื้นฐานของความร่วมมือที่สั่งสมมายาวนานผ่าน OCP
  • การสนับสนุนโอเพ่นซอร์ส AI อย่างแข็งขันของ Meta เป็นเรื่องที่น่ายินดี โอเพ่นซอร์สคือหนทางในการทำให้ศักยภาพของ AI เป็นประชาธิปไตยและขยายโอกาสของ AI ไปสู่สังคมโดยรวม
  • ในกระบวนการสร้างโครงสร้างพื้นฐาน AI แบบเปิด ควรมีการจัดการประเด็นอย่างความโปร่งใส ความสามารถในการอธิบายได้ และข้อพิจารณาด้านจริยธรรมไปพร้อมกัน การสร้างความไว้วางใจของสังคมต่อ AI มีความสำคัญไม่แพ้ความก้าวหน้าทางเทคโนโลยี
  • เพื่อให้ระบบนิเวศฮาร์ดแวร์และซอฟต์แวร์ AI เติบโตไปด้วยกันได้ จำเป็นต้องมีทั้งความร่วมมือจากภาคอุตสาหกรรมและการมีส่วนร่วมของผู้มีส่วนได้ส่วนเสียหลากหลายฝ่าย เช่น ภาควิชาการและผู้กำหนดนโยบาย โดยหวังว่า OCP จะเป็นแพลตฟอร์มสำคัญสำหรับเรื่องนี้

1 ความคิดเห็น

 
GN⁺ 2024-10-18
ความคิดเห็นบน Hacker News
  • มีความเห็นว่าการแข่งขันระหว่าง OpenAI กับ Meta AI อาจมองได้ว่าเป็นการแข่งขันของแพลตฟอร์มแบบเดียวกับ macOS vs Windows, iOS vs Android

    • มีข้อสังเกตว่า Meta มีแนวโน้มเปิดแพลตฟอร์มเพื่อยึดส่วนแบ่งตลาด
    • มีการตั้งคำถามว่าหาก Meta เป็นฝ่ายชนะ จะยังคงเปิดแพลตฟอร์มต่อไปหรือไม่
  • แม้ Zuckerberg และ Facebook จะถูกวิจารณ์อย่างมาก แต่ก็ลงทุนด้านวิศวกรรมและโอเพนซอร์สอย่างมากเช่นกัน

  • Meta ใช้ NVIDIA H100 GPU มากกว่า 16,000 ตัวเพื่อฝึกโมเดล Llama 3.1 405B ซึ่งสะท้อนถึงการลงทุนขนาดใหญ่

    • มีการกล่าวถึงว่าหุ้นของ Meta ปรับตัวขึ้นอย่างมากหลังการเปิดตัวโมเดลโอเพนซอร์ส
  • มีความเห็นว่าโอเพนซอร์ส LLM ของ Meta จะดึงดูดผู้ใช้จำนวนมาก

    • OpenAI และ Anthropic อาจต้องหารือเรื่องโมเดลแบบเปิด
  • มีการตั้งข้อสงสัยว่า Meta, Microsoft และ OpenAI อาจร่วมมือกันทำดีไซน์ชิปแบบเปิดเพื่อแข่งขันกับ NVIDIA หรือไม่

  • มีการกล่าวถึงความเป็นไปได้ที่ Meta จะสร้างศูนย์ข้อมูล AI ข้างแหล่งผลิตพลังงาน เช่น โรงไฟฟ้านิวเคลียร์ฟิวชัน

    • โดยอ้างความเห็นของ Yann LeCun ว่าข้อได้เปรียบคือการใช้ไฟฟ้าที่ยั่งยืนและต้นทุนต่ำ
  • มีการตั้งคำถามว่า Meta กำลังเล็งไปที่ NVIDIA ต่อจาก OpenAI หรือไม่

  • มีการกล่าวว่าแนวคิดเรื่อง "Open" ตอนนี้กลายเป็นมีมไปแล้ว