- NVIDIA เติบโตอย่างรวดเร็วจากกระแส AI และการผูกขาด GPU แต่สถานะระยะยาวกำลังถูกคุกคามจาก การพัฒนาชิปภายในองค์กร และ กลยุทธ์การบูรณาการแนวดิ่ง ของยักษ์ใหญ่คลาวด์
- ความต้องการ GPU จาก สตาร์ทอัป และ ผู้ให้บริการคลาวด์อิสระ กำลังลดลง และการ ทำกำไรที่แย่ลง ของโมเดลธุรกิจที่มี การพึ่งพา NVIDIA สูงก็กำลังปรากฏชัด
- Google, Amazon, Microsoft, Meta และรายอื่น ๆ กำลังลดการพึ่งพา NVIDIA อย่างรวดเร็วผ่าน ชิปปรับแต่งสมรรถนะสูง และ ระบบที่บูรณาการแนวดิ่ง
- โครงสร้างพื้นฐานแบบกระจาย และ การเพิ่มประสิทธิภาพบนพื้นฐานการเชื่อมต่อคลัสเตอร์ กำลังกลายเป็นองค์ประกอบหลักของการฝึก AI ซึ่งเป็นการเปลี่ยนแปลงเชิงโครงสร้างที่ NVIDIA รับมือได้ยาก
- NVIDIA กำลังพยายามปรับปรุงทั้งฮาร์ดแวร์และซอฟต์แวร์ แต่ก็มี ความเป็นไปได้ที่ความสามารถในการแข่งขันจะอ่อนลง เมื่อเทียบกับ กลยุทธ์การบูรณาการแนวดิ่งเชิงลึกของไฮเปอร์สเกลเลอร์
จากการครองตลาดสู่ภาวะวิกฤตของ NVIDIA: ความปั่นป่วนครั้งใหญ่ในตลาด AI คอมพิวติ้ง
- NVIDIA เติบโตอย่างรวดเร็วผ่าน กระแส AI, การผูกขาด GPU และ การจัดหาเซิร์ฟเวอร์ DGX จนทำสถิติ มูลค่าตลาดเพิ่มขึ้น 2 ล้านล้านดอลลาร์ใน 13 เดือน
- อย่างไรก็ตาม รุ่น H100 คือจุดสูงสุดของความสามารถในการทำกำไร และ ซีรีส์ B200 ที่เปิดตัวหลังจากนั้นมาพร้อมกับ กำไรที่ลดลง และต้นทุนการผลิตที่สูงขึ้น
- ในระยะยาว ไฮเปอร์สเกลเลอร์ กำลังรวมอุปสงค์และสร้างความสามารถแข่งขันผ่าน การพัฒนาชิปแบบปรับแต่งเอง ทำให้โครงสร้างการผูกขาดของ NVIDIA เริ่มสั่นคลอน
การปรับโครงสร้างอุปสงค์ AI และการหดตัวของตลาดสตาร์ทอัป
- อุปสงค์ดาต้าเซ็นเตอร์ของ NVIDIA มากกว่าครึ่งมาจากไฮเปอร์สเกลเลอร์อย่าง Google, Microsoft, Amazon, Meta
- อุปสงค์ที่เหลือมาจาก สตาร์ทอัป, VC, บริษัทคลาวด์ขนาดเล็กและกลาง แต่การ ซื้อ GPU เกินความจำเป็น ทำให้ ROI ต่ำ และ ธุรกิจให้เช่า GPU อยู่ในภาวะขาดทุน
- โมเดลปรับแต่งเฉพาะทางขนาดเล็กอย่าง BloombergGPT กำลังเผชิญความยากลำบากในตลาด ขณะที่ โมเดลขนาดใหญ่แบบปิดที่อิง API กลายเป็นมาตรฐาน
- คลาวด์อิสระ อย่าง Coreweave และ Lambda แม้จะได้รับการสนับสนุนจาก NVIDIA ก็ยังเผชิญวิกฤตจาก ความไม่คุ้มค่าทางเศรษฐกิจ, กำไรลดลง, และอุปสงค์ชะลอตัว
- ราคาเช่า GPU ลดลงอย่างมากเหลือ $1.99 ต่อชั่วโมง ขณะที่ ROE อยู่ที่ ต่ำกว่า 10% ซึ่งเป็นระดับที่ยั่งยืนได้ยาก
กลยุทธ์พัฒนาชิปแบบปรับแต่งเองของไฮเปอร์สเกลเลอร์
- Google TPU ไปถึงรุ่นที่ 6 แล้ว และได้แทนที่ NVIDIA อย่างสมบูรณ์ในโมเดลอย่าง Gemini-Ultra, DeepMind, YouTube
- Trainium และ Inferentia ของ Amazon กำลังเข้ามาแทนที่ การอนุมานและการฝึกโมเดลขนาดใหญ่ ผ่านความร่วมมือกับ Anthropic พร้อมให้ Neuron SDK ที่ทำงานได้โดยไม่ต้องใช้ CUDA
- Maia accelerator ของ Microsoft และ Cobalt CPU ถูกใช้งานกับ AI workload ภายในองค์กร และ SDK ที่อิง Triton ก็เพิ่มความเป็นไปได้ในการแทนที่ CUDA
- Meta ใช้ชิป MTIA เพื่อรัน ฟีเจอร์ AI ของ Instagram และ WhatsApp บนชิปของตนเอง และยัง ฝึก Llama 3.1 บางส่วนบนชิปภายในบริษัท
- แนวโน้มนี้สอดคล้องกับโครงสร้างตลาด AI ที่เน้นการอนุมานมากกว่า และในอนาคตการอนุมานที่อิง GPU ก็มีโอกาสถูกแซงโดย ชิปแบบปรับแต่งเอง หรือแม้แต่โซลูชันที่อิง CPU
การเปลี่ยนผ่านสู่โครงสร้างที่ยึดระบบเป็นศูนย์กลาง และข้อจำกัดของ NVIDIA
- ไฮเปอร์สเกลเลอร์ให้ความสำคัญกับ การเพิ่มประสิทธิภาพทั้งระบบ มากกว่าสมรรถนะของชิปเดี่ยว
- Google ใช้แนวทาง เชื่อมต่อ TPU ขนาดเล็กจำนวนมากเข้าด้วยกัน พร้อม เครือข่ายออปติคัล (Apollo) และ โทโพโลยีเครือข่ายแบบทอรัส ของตนเองเพื่อ ลดการใช้พลังงานและค่าหน่วงเวลา
- Microsoft สร้าง เครือข่ายใยแก้วนำแสงและทรานซีฟเวอร์ ColorZ เพื่อ รองรับความเป็นไปได้ของการฝึกข้ามหลายดาต้าเซ็นเตอร์ และสร้าง โครงสร้างพื้นฐานสมรรถนะสูงต้นทุนต่ำกว่า NVIDIA
- ด้วยเหตุนี้ สถาปัตยกรรมแบบกระจายที่เชื่อมดาต้าเซ็นเตอร์หลายแห่งขนาดเล็กผ่านเครือข่ายเพื่อใช้ฝึกโมเดล จึงกำลังกลายเป็นกระแสหลัก
- เพื่อฝ่าข้อจำกัดด้านพลังงานและการขยายโครงสร้างพื้นฐาน จึงมีความพยายาม เชื่อมดาต้าเซ็นเตอร์ทั่วประเทศเข้าด้วยกัน (เช่น การนำ Three Mile Island ของ Microsoft กลับมาใช้งาน และการเข้าซื้อโรงไฟฟ้านิวเคลียร์ของ AWS)
การตอบสนองด้านฮาร์ดแวร์และซอฟต์แวร์ของ NVIDIA กับความยากลำบากเชิงโครงสร้าง
- NVIDIA กำลังพยายามรับมือด้วย เซิร์ฟเวอร์ GB200, Spectrum-X, DCGM, RAS เป็นต้น
- การออกแบบเครือข่ายที่อิง Infiniband เปราะบางต่อคลัสเตอร์ขนาดใหญ่ และ ยังขาดการออกแบบที่รองรับความทนทานต่อความล้มเหลว
- Pathways ของ Google และ Singularity ของ Microsoft มีจุดแข็งด้าน ระบบ fault-tolerant ของตนเอง และการตรวจจับข้อผิดพลาดของหน่วยความจำ GPU
- NVIDIA BaseCommand ที่อิง Kubernetes ยังด้อยกว่าในด้าน การขยายตัวและการบูรณาการ เมื่อเทียบกับ Borg, MegaScaler ของไฮเปอร์สเกลเลอร์
- ในฐานะ ผู้ตามหลังในระบบระบายความร้อน NVIDIA ยังด้อยกว่า Google ทั้งด้าน ประสิทธิภาพพลังงาน, อายุการใช้งาน, และประสิทธิภาพการใช้พื้นที่ (เช่น Google PUE 1.1 เทียบกับ NVIDIA 1.4 ขึ้นไป)
บทสรุป
- แม้ NVIDIA จะยังมี สมรรถนะ GPU ที่แข็งแกร่ง แต่ในด้าน การเพิ่มประสิทธิภาพระดับระบบ, การบูรณาการโครงสร้างพื้นฐาน, และความคุ้มค่าด้านต้นทุน ยังมี ข้อจำกัดเชิงโครงสร้างที่เป็นรองไฮเปอร์สเกลเลอร์
- ฝั่งไฮเปอร์สเกลเลอร์ได้สร้าง การบูรณาการแนวดิ่งครบวงจรตั้งแต่ชิปไปจนถึงโครงสร้างพื้นฐานและซอฟต์แวร์ เรียบร้อยแล้ว จึงมี ศักยภาพในการทดแทนอย่างสมบูรณ์
- หาก NVIDIA ไม่สามารถก้าวพ้น กลยุทธ์ที่ยึด GPU เป็นศูนย์กลางแบบเดิม และสร้าง นวัตกรรมทั้งระบบ ได้ ก็มีความเสี่ยงที่จะ รักษาความเป็นผู้นำอย่างยั่งยืนในตลาด AI คอมพิวติ้งได้ยากในอนาคต
3 ความคิดเห็น
คนหนึ่งที่ไม่ได้ซื้อหุ้น Nvidia เพราะ Google Tensor, Tesla Dojo และ AMD..
ข้อเสียของ "ชิปสั่งทำเฉพาะของไฮเปอร์สเกลเลอร์" ก็ชวนให้สงสัยเหมือนกันครับ
เพราะเหมือนถูกบรรยายราวกับว่าเหนือกว่าทุกด้านเลย
ความคิดเห็นจาก Hacker News
มีความเห็นว่านี่เป็นอีกบทความหนึ่งที่ตั้งอยู่บนสมมติฐานว่าคู่แข่งจะประสบความสำเร็จขึ้นมาอย่างฉับพลันและคุกคาม Nvidia ในขณะที่ Nvidia ไม่ได้ทำอะไรเลย
แม้ราคาหุ้นของ Marvell จะร่วงลงมากกว่า 50% ในปีนี้ แต่ความต้องการ GPU ของ Nvidia ก็ยังคงแข็งแกร่ง
มีความเห็นว่าบริการจะเป็นสิ่งที่ปกป้อง Nvidia
มีความเห็นว่ากำลังประเมินตำแหน่งเชิงกลยุทธ์ของ Nvidia ต่ำเกินไป
มีความเห็นว่า AMD ทำข้อตกลงลับกับ Nvidia และจงใจทำให้เกิดสถานการณ์แบบนี้
Nvidia กำลังเปลี่ยนผ่านจากการผูกขาดเชิงหน้าที่ไปสู่สถานการณ์ที่ต้องแข่งขัน
มีความเห็นว่ารุ่น H100 แสดงให้เห็นพลังการตั้งราคาสูงสุด และจะยังทำกำไรต่อไปเพราะมีทางเลือกอื่นไม่มาก
มีความเห็นว่าการควบคุมคุณภาพไดรเวอร์ GPU ของ Nvidia กำลังแย่ลง