4 คะแนน โดย GN⁺ 2024-03-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Meta ประกาศคลัสเตอร์ GPU ขนาด 24,576 ตัวจำนวนสองชุด เป็นส่วนหนึ่งของการลงทุนหลักเพื่ออนาคตของ AI
    • ได้แบ่งปันรายละเอียดเกี่ยวกับฮาร์ดแวร์ เครือข่าย สตอเรจ การออกแบบ ประสิทธิภาพ และซอฟต์แวร์
    • การออกแบบคลัสเตอร์นี้ถูกใช้ในการเทรน Llama 3
  • Meta มุ่งมั่นต่อ Open Compute และโอเพนซอร์ส
    • สร้างคลัสเตอร์เหล่านี้บนพื้นฐานของ Grand Teton, OpenRack และ PyTorch และผลักดันนวัตกรรมแบบเปิดต่อไปทั่วทั้งอุตสาหกรรม
  • การประกาศครั้งนี้เป็นอีกก้าวหนึ่งของโรดแมปโครงสร้างพื้นฐานอันทะเยอทะยาน
    • ตั้งเป้าขยายการสร้างโครงสร้างพื้นฐานอย่างต่อเนื่อง โดยมี NVIDIA H100 GPU จำนวน 350,000 ตัว เป็นส่วนหนึ่งของพอร์ตโฟลิโอที่มีสมรรถนะการประมวลผลเทียบเท่า H100 เกือบ 600,000 ตัวภายในสิ้นปี 2024

ข้อมูลเชิงลึกเกี่ยวกับคลัสเตอร์ AI ขนาดใหญ่ของ Meta

  • วิสัยทัศน์ระยะยาวของ Meta คือการสร้างปัญญาประดิษฐ์ทั่วไป (AGI) ที่สร้างขึ้นอย่างเปิดกว้างและมีความรับผิดชอบ เพื่อให้ทุกคนได้รับประโยชน์
  • ความก้าวหน้าไปสู่ AGI กำลังก่อให้เกิดผลิตภัณฑ์ใหม่ ฟีเจอร์ AI ใหม่ในแอป และอุปกรณ์คอมพิวติ้งรูปแบบใหม่ที่ขับเคลื่อนด้วย AI
  • Meta มีประวัติยาวนานในการสร้างโครงสร้างพื้นฐาน AI และในปี 2022 ได้เปิดเผยรายละเอียดของ AI Research SuperCluster (RSC) เป็นครั้งแรก ซึ่งมี NVIDIA A100 GPU จำนวน 16,000 ตัว

โครงสร้างภายใน

  • คลัสเตอร์ AI ใหม่นี้สร้างขึ้นบนความสำเร็จและบทเรียนที่ได้รับจาก RSC
  • โดยมุ่งเน้นไปที่ประสบการณ์และประสิทธิภาพการทำงานของนักวิจัยและนักพัฒนา พร้อมรองรับโมเดลที่ใหญ่และซับซ้อนยิ่งขึ้นผ่านประสิทธิภาพของ network fabric สมรรถนะสูงและการตัดสินใจด้านสตอเรจที่สำคัญ

เครือข่าย

  • Meta รองรับการรันโมเดล AI หลายสิบล้านล้านครั้งต่อวัน
  • การให้บริการในขนาดใหญ่นั้นต้องการโครงสร้างพื้นฐานที่ยืดหยุ่นและก้าวหน้ามาก
  • Meta ออกแบบฮาร์ดแวร์ ซอฟต์แวร์ และ network fabric ของตนเองแบบเฉพาะทาง เพื่อเพิ่มประสิทธิภาพประสบการณ์ของนักวิจัย AI และรับประกันการดำเนินงานของดาต้าเซ็นเตอร์อย่างมีประสิทธิภาพ

การประมวลผล

  • คลัสเตอร์ทั้งสองถูกสร้างขึ้นโดยใช้ Grand Teton ซึ่งเป็นแพลตฟอร์มฮาร์ดแวร์ GPU แบบเปิดที่ Meta ออกแบบขึ้นภายในองค์กร
  • Grand Teton รวมพลังงาน การควบคุม การประมวลผล และอินเทอร์เฟซ fabric ไว้ในแชสซีเดียว ช่วยยกระดับประสิทธิภาพโดยรวม ความสมบูรณ์ของสัญญาณ และสมรรถนะด้านความร้อน

สตอเรจ

  • สตอเรจมีบทบาทสำคัญในการเทรน AI แต่เป็นหนึ่งในด้านที่ถูกพูดถึงน้อยที่สุด
  • ปรับแต่งเวอร์ชันของโซลูชัน distributed storage 'Tectonic' ของ Meta ให้เหมาะกับสื่อแฟลช
    • ตอบโจทย์ความต้องการด้านข้อมูลและการทำ checkpointing ของคลัสเตอร์ AI ผ่าน API FUSE (Linux Filesystem in Userspace) ที่พัฒนาขึ้นเอง
    • ทำให้ GPU หลายพันตัวสามารถบันทึกและโหลด checkpoint ได้อย่างซิงโครไนซ์ และให้สตอเรจระดับเอ็กซะไบต์ที่ยืดหยุ่นและมี throughput สูงสำหรับการโหลดข้อมูล
  • ร่วมมือกับ Hammerspace เพื่อพัฒนาการติดตั้งใช้งาน parallel network file system (NFS)

ประสิทธิภาพ

  • เมื่อสร้างคลัสเตอร์ AI ขนาดใหญ่ หลักการสำคัญคือการเพิ่มทั้งประสิทธิภาพและความง่ายในการใช้งานให้สูงสุดพร้อมกัน
  • วิธีที่ดีที่สุดในการทดสอบความสามารถในการขยายตัวของการออกแบบ ขณะผลักขีดจำกัดของระบบ AI คือการสร้างระบบ ปรับแต่ง และทดสอบจริง
  • Meta ทดสอบความสามารถในการขยายของการออกแบบด้วยการสร้างระบบ ปรับแต่ง และทดสอบใช้งานจริง
  • ยังคงพัฒนา PyTorch ซึ่งเป็นเฟรมเวิร์ก AI พื้นฐานที่รองรับเวิร์กโหลด AI เพื่อให้พร้อมสำหรับการฝึกด้วย GPU หลักสิบ ไปจนถึงหลักหลายแสนตัว

ความมุ่งมั่นต่อนวัตกรรม AI แบบเปิด

  • Meta ยังคงรักษาความมุ่งมั่นต่อนวัตกรรมแบบเปิดทั้งในซอฟต์แวร์และฮาร์ดแวร์ AI
  • ในฐานะสมาชิกผู้ก่อตั้งของ OCP บริษัทยังคงสนับสนุนนวัตกรรมฮาร์ดแวร์แบบเปิด และมอบดีไซน์อย่าง Grand Teton และ Open Rack ให้กับชุมชน OCP
  • นอกจากนี้ยังเป็นผู้สนับสนุนรายใหญ่และสำคัญที่สุดของ PyTorch ซึ่งเป็นเฟรมเวิร์กซอฟต์แวร์ AI ที่รองรับอุตสาหกรรมในวงกว้าง
  • ฮาร์ดแวร์และซอฟต์แวร์โอเพนซอร์สถูกมองว่าเป็นเครื่องมือสำคัญที่ช่วยแก้ปัญหาในระดับขนาดใหญ่

อนาคตของโครงสร้างพื้นฐาน AI ของ Meta

  • การออกแบบคลัสเตอร์สำหรับเทรน AI ทั้งสองชุดนี้เป็นส่วนหนึ่งของโรดแมปที่ใหญ่กว่าสำหรับอนาคตของ AI
  • Meta วางแผนขยายโครงสร้างพื้นฐานต่อไป โดยรวม NVIDIA H100 จำนวน 350,000 ตัว เป็นส่วนหนึ่งของพอร์ตโฟลิโอที่มีสมรรถนะการประมวลผลเทียบเท่า H100 จำนวน 600,000 ตัวภายในสิ้นปี 2024

ความเห็นของ GN⁺

  • คลัสเตอร์ GPU ระดับ 24k ที่ Meta ประกาศถือเป็นความก้าวหน้าสำคัญของงานวิจัยและพัฒนา AI โดยเฉพาะในการมอบทรัพยากรประมวลผลอันทรงพลังที่จำเป็นต่อการเทรนโมเดล AI ขนาดใหญ่
  • โครงสร้างพื้นฐานลักษณะนี้วางรากฐานให้นักวิจัยสามารถพัฒนาโซลูชัน AI ที่ล้ำหน้ามากขึ้นได้ ขณะที่ความซับซ้อนและขนาดของโมเดล AI เพิ่มขึ้นอย่างต่อเนื่อง
  • ความมุ่งมั่นของ Meta ต่อโอเพนซอร์สและ Open Compute สามารถช่วยกระตุ้นนวัตกรรมทั่วทั้งอุตสาหกรรม และช่วยให้องค์กรอื่นนำเทคโนโลยีเหล่านี้ไปใช้พัฒนาโซลูชัน AI ของตนเองได้
  • อย่างไรก็ตาม คลัสเตอร์ขนาดใหญ่เช่นนี้จำเป็นต้องคำนึงถึงผลกระทบต่อสิ่งแวดล้อมที่เกี่ยวข้องกับการใช้พลังงานมหาศาล ซึ่งอาจเป็นประเด็นสำคัญด้านความยั่งยืน
  • การประกาศครั้งนี้ของ Meta มอบมุมมองที่น่าสนใจต่ออนาคตของเทคโนโลยี AI และเปิดโอกาสให้คิดลึกขึ้นถึงผลกระทบที่ความก้าวหน้าของ AI จะมีต่อสังคมและอุตสาหกรรม

1 ความคิดเห็น

 
GN⁺ 2024-03-13
ความคิดเห็นบน Hacker News
  • การกล่าวถึง float8 และการเพิ่มขึ้นของ FLOPs

    • มีการกล่าวถึง float8 และทำให้ FLOPs เพิ่มขึ้น 2 เท่า
    • ตอนนี้ xformers รองรับ sparsity แบบ 2:4 แล้ว จึงอาจทำให้ FLOPs เพิ่มขึ้นได้อีก 2 เท่า
    • Llama3 อาจใช้ float8 และ sparsity แบบ 2:4 กับ MLP ทำให้ใช้ FLOPs ได้สูงถึง 4 เท่าของ H100 float16
    • PyTorch รองรับ fp8 แบบทดลองแล้ว แต่การทำ attention ด้วย float8 ก็ยังซับซ้อนอยู่เนื่องจากปัญหาเรื่องความแม่นยำ
    • เป็นไปได้ว่า attention จะใช้ float16, ส่วน RoPE/layernorms ใช้ float16/float32, และอย่างอื่นทั้งหมดใช้ float8
  • การเปรียบเทียบระหว่างยุคดอทคอมกับยุค AI

    • คนที่เคยผ่านยุคดอทคอมมารู้สึกค่อนข้างหมดกำลังใจกับยุค AI เพราะต้นทุนเงินทุนมหาศาลที่ต้องใช้ในการฝึกโมเดล
    • ในช่วงต้นของยุคดอทคอม ใครๆ ก็เริ่มต้นเว็บไซต์อีคอมเมิร์ซได้ด้วยต้นทุนโครงสร้างพื้นฐานที่ค่อนข้างต่ำ
    • ตอนนี้ดูเหมือนว่าจะมีเพียงบริษัทขนาดใหญ่อย่าง Meta, Google, Microsoft และ OpenAI เท่านั้นที่สามารถสร้างโมเดล AI ได้
  • ความสัมพันธ์ระหว่างพลังประมวลผลกับเวลาในการทำวิศวกรรม

    • มีความสนใจว่าหาก Facebook เพิ่มพลังประมวลผลได้ 10 เท่า จะต้องออกแบบทั้งสแตกใหม่หรือไม่ และถ้าเป็น 100 เท่าจะเป็นอย่างไร
    • มีคำถามว่าการออกแบบใหม่แต่ละครั้งเป็นเพียงการเปลี่ยนแปลงง่ายๆ หรือเป็นงานที่ซับซ้อนกว่านั้นมาก
    • ความเข้าใจทางเทคนิคเกี่ยวกับภายในคลัสเตอร์มีเพียงระดับผิวเผิน จึงอยากรู้ความเห็นจากคนที่มีประสบการณ์เกี่ยวข้อง
  • ความสนใจในงานเพิ่มประสิทธิภาพ pipeline

    • มีคำถามว่าคนที่อยากมีส่วนร่วมในงานเพิ่มประสิทธิภาพ pipeline ควรเริ่มต้นอย่างไร
    • สงสัยว่านี่เป็นงานของนักวิทยาศาสตร์แมชชีนเลิร์นนิงที่มีความรู้ C/C++ และโครงสร้างพื้นฐานแล้วลงไปทำระดับระบบเมื่อจำเป็น หรือเป็นผู้เชี่ยวชาญด้าน CUDA/SIMD ที่ขยับขึ้นมาทำงานแมชชีนเลิร์นนิง
  • ความสามารถด้านวิศวกรรมของ Meta

    • Meta แสดงผลงานที่แข็งแกร่งในด้านวิศวกรรม แม้จะมีแรงกดดันเชิงลบ
    • มีคำถามว่า Meta วางแผนจะสร้างรายได้จากความสามารถด้านวิศวกรรมเหล่านี้อย่างไร
  • มุมมองทางประวัติศาสตร์ต่อวิศวกรรมและโครงสร้างพื้นฐาน

    • มีการกล่าวถึงบทความ DLRM รวมถึงแร็กแบบ disaggregated และ SDN ยุคแรกของ Facebook
    • ตั้งแต่ปี 2018 ก็มีการใช้โครงข่ายประสาทขนาดใหญ่สำหรับระบบแนะนำและการจัดอันดับ โดยวาง SSD และ DRAM ไว้คนละส่วนของแร็กแล้ว
    • มีการกล่าวถึงโมเดลพยากรณ์การคลิก และความน่าทึ่งของวิธีฝึก HOGWILD ที่ใช้ Intel AVX-2
    • เน้นว่า Meta ยังคงมีความสามารถระดับแนวหน้าในด้านการออกแบบโครงสร้างพื้นฐานและการออกแบบ SKU
  • ความเป็นไปได้ที่ Meta จะแข่งขันในงาน AI workload

    • มีความสงสัยว่า Meta จะสามารถแข่งขันกับ AWS, MSFT และ GOOG ในด้าน AI workload ได้หรือไม่
  • ต้นทุนของ GPU H100

    • มีการประเมินว่า Meta จ่ายเงินให้กับ GPU H100 เป็นจำนวนเท่าใด
    • หากซื้อ NVIDIA H100 จำนวน 350,000 ตัวที่ราคา $10k ต้นทุนรวมจะอยู่ที่ $3.5b
  • ท่าทีเปิดกว้างของ Meta ต่อการสร้างนวัตกรรม AI

    • มีการรับรู้ว่า Meta แสดงท่าทีเปิดกว้างต่อการสร้างนวัตกรรม AI
  • วิสัยทัศน์ระยะยาวของ Meta และ AGI

    • วิสัยทัศน์ระยะยาวของ Meta คือการสร้างปัญญาประดิษฐ์ทั่วไป (AGI)