อนาคตของคอมพิวต์: มงกุฎของ Nvidia กำลังสั่นคลอน

(mohitdagarwal.substack.com)

2 คะแนน โดย GN⁺ 2025-04-24 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

NVIDIA เติบโตอย่างรวดเร็วจากกระแส AI และการผูกขาด GPU แต่สถานะระยะยาวกำลังถูกคุกคามจาก การพัฒนาชิปภายในองค์กร และ กลยุทธ์การบูรณาการแนวดิ่ง ของยักษ์ใหญ่คลาวด์
ความต้องการ GPU จาก สตาร์ทอัป และ ผู้ให้บริการคลาวด์อิสระ กำลังลดลง และการ ทำกำไรที่แย่ลง ของโมเดลธุรกิจที่มี การพึ่งพา NVIDIA สูงก็กำลังปรากฏชัด
Google, Amazon, Microsoft, Meta และรายอื่น ๆ กำลังลดการพึ่งพา NVIDIA อย่างรวดเร็วผ่าน ชิปปรับแต่งสมรรถนะสูง และ ระบบที่บูรณาการแนวดิ่ง
โครงสร้างพื้นฐานแบบกระจาย และ การเพิ่มประสิทธิภาพบนพื้นฐานการเชื่อมต่อคลัสเตอร์ กำลังกลายเป็นองค์ประกอบหลักของการฝึก AI ซึ่งเป็นการเปลี่ยนแปลงเชิงโครงสร้างที่ NVIDIA รับมือได้ยาก
NVIDIA กำลังพยายามปรับปรุงทั้งฮาร์ดแวร์และซอฟต์แวร์ แต่ก็มี ความเป็นไปได้ที่ความสามารถในการแข่งขันจะอ่อนลง เมื่อเทียบกับ กลยุทธ์การบูรณาการแนวดิ่งเชิงลึกของไฮเปอร์สเกลเลอร์

จากการครองตลาดสู่ภาวะวิกฤตของ NVIDIA: ความปั่นป่วนครั้งใหญ่ในตลาด AI คอมพิวติ้ง

NVIDIA เติบโตอย่างรวดเร็วผ่าน กระแส AI, การผูกขาด GPU และ การจัดหาเซิร์ฟเวอร์ DGX จนทำสถิติ มูลค่าตลาดเพิ่มขึ้น 2 ล้านล้านดอลลาร์ใน 13 เดือน
อย่างไรก็ตาม รุ่น H100 คือจุดสูงสุดของความสามารถในการทำกำไร และ ซีรีส์ B200 ที่เปิดตัวหลังจากนั้นมาพร้อมกับ กำไรที่ลดลง และต้นทุนการผลิตที่สูงขึ้น
ในระยะยาว ไฮเปอร์สเกลเลอร์ กำลังรวมอุปสงค์และสร้างความสามารถแข่งขันผ่าน การพัฒนาชิปแบบปรับแต่งเอง ทำให้โครงสร้างการผูกขาดของ NVIDIA เริ่มสั่นคลอน

การปรับโครงสร้างอุปสงค์ AI และการหดตัวของตลาดสตาร์ทอัป

อุปสงค์ดาต้าเซ็นเตอร์ของ NVIDIA มากกว่าครึ่งมาจากไฮเปอร์สเกลเลอร์อย่าง Google, Microsoft, Amazon, Meta
อุปสงค์ที่เหลือมาจาก สตาร์ทอัป, VC, บริษัทคลาวด์ขนาดเล็กและกลาง แต่การ ซื้อ GPU เกินความจำเป็น ทำให้ ROI ต่ำ และ ธุรกิจให้เช่า GPU อยู่ในภาวะขาดทุน
โมเดลปรับแต่งเฉพาะทางขนาดเล็กอย่าง BloombergGPT กำลังเผชิญความยากลำบากในตลาด ขณะที่ โมเดลขนาดใหญ่แบบปิดที่อิง API กลายเป็นมาตรฐาน
คลาวด์อิสระ อย่าง Coreweave และ Lambda แม้จะได้รับการสนับสนุนจาก NVIDIA ก็ยังเผชิญวิกฤตจาก ความไม่คุ้มค่าทางเศรษฐกิจ, กำไรลดลง, และอุปสงค์ชะลอตัว
ราคาเช่า GPU ลดลงอย่างมากเหลือ $1.99 ต่อชั่วโมง ขณะที่ ROE อยู่ที่ ต่ำกว่า 10% ซึ่งเป็นระดับที่ยั่งยืนได้ยาก

กลยุทธ์พัฒนาชิปแบบปรับแต่งเองของไฮเปอร์สเกลเลอร์

Google TPU ไปถึงรุ่นที่ 6 แล้ว และได้แทนที่ NVIDIA อย่างสมบูรณ์ในโมเดลอย่าง Gemini-Ultra, DeepMind, YouTube
Trainium และ Inferentia ของ Amazon กำลังเข้ามาแทนที่ การอนุมานและการฝึกโมเดลขนาดใหญ่ ผ่านความร่วมมือกับ Anthropic พร้อมให้ Neuron SDK ที่ทำงานได้โดยไม่ต้องใช้ CUDA
Maia accelerator ของ Microsoft และ Cobalt CPU ถูกใช้งานกับ AI workload ภายในองค์กร และ SDK ที่อิง Triton ก็เพิ่มความเป็นไปได้ในการแทนที่ CUDA
Meta ใช้ชิป MTIA เพื่อรัน ฟีเจอร์ AI ของ Instagram และ WhatsApp บนชิปของตนเอง และยัง ฝึก Llama 3.1 บางส่วนบนชิปภายในบริษัท
แนวโน้มนี้สอดคล้องกับโครงสร้างตลาด AI ที่เน้นการอนุมานมากกว่า และในอนาคตการอนุมานที่อิง GPU ก็มีโอกาสถูกแซงโดย ชิปแบบปรับแต่งเอง หรือแม้แต่โซลูชันที่อิง CPU

การเปลี่ยนผ่านสู่โครงสร้างที่ยึดระบบเป็นศูนย์กลาง และข้อจำกัดของ NVIDIA

ไฮเปอร์สเกลเลอร์ให้ความสำคัญกับ การเพิ่มประสิทธิภาพทั้งระบบ มากกว่าสมรรถนะของชิปเดี่ยว
Google ใช้แนวทาง เชื่อมต่อ TPU ขนาดเล็กจำนวนมากเข้าด้วยกัน พร้อม เครือข่ายออปติคัล (Apollo) และ โทโพโลยีเครือข่ายแบบทอรัส ของตนเองเพื่อ ลดการใช้พลังงานและค่าหน่วงเวลา
Microsoft สร้าง เครือข่ายใยแก้วนำแสงและทรานซีฟเวอร์ ColorZ เพื่อ รองรับความเป็นไปได้ของการฝึกข้ามหลายดาต้าเซ็นเตอร์ และสร้าง โครงสร้างพื้นฐานสมรรถนะสูงต้นทุนต่ำกว่า NVIDIA
ด้วยเหตุนี้ สถาปัตยกรรมแบบกระจายที่เชื่อมดาต้าเซ็นเตอร์หลายแห่งขนาดเล็กผ่านเครือข่ายเพื่อใช้ฝึกโมเดล จึงกำลังกลายเป็นกระแสหลัก
เพื่อฝ่าข้อจำกัดด้านพลังงานและการขยายโครงสร้างพื้นฐาน จึงมีความพยายาม เชื่อมดาต้าเซ็นเตอร์ทั่วประเทศเข้าด้วยกัน (เช่น การนำ Three Mile Island ของ Microsoft กลับมาใช้งาน และการเข้าซื้อโรงไฟฟ้านิวเคลียร์ของ AWS)

การตอบสนองด้านฮาร์ดแวร์และซอฟต์แวร์ของ NVIDIA กับความยากลำบากเชิงโครงสร้าง

NVIDIA กำลังพยายามรับมือด้วย เซิร์ฟเวอร์ GB200, Spectrum-X, DCGM, RAS เป็นต้น
การออกแบบเครือข่ายที่อิง Infiniband เปราะบางต่อคลัสเตอร์ขนาดใหญ่ และ ยังขาดการออกแบบที่รองรับความทนทานต่อความล้มเหลว
Pathways ของ Google และ Singularity ของ Microsoft มีจุดแข็งด้าน ระบบ fault-tolerant ของตนเอง และการตรวจจับข้อผิดพลาดของหน่วยความจำ GPU
NVIDIA BaseCommand ที่อิง Kubernetes ยังด้อยกว่าในด้าน การขยายตัวและการบูรณาการ เมื่อเทียบกับ Borg, MegaScaler ของไฮเปอร์สเกลเลอร์
ในฐานะ ผู้ตามหลังในระบบระบายความร้อน NVIDIA ยังด้อยกว่า Google ทั้งด้าน ประสิทธิภาพพลังงาน, อายุการใช้งาน, และประสิทธิภาพการใช้พื้นที่ (เช่น Google PUE 1.1 เทียบกับ NVIDIA 1.4 ขึ้นไป)

บทสรุป

แม้ NVIDIA จะยังมี สมรรถนะ GPU ที่แข็งแกร่ง แต่ในด้าน การเพิ่มประสิทธิภาพระดับระบบ, การบูรณาการโครงสร้างพื้นฐาน, และความคุ้มค่าด้านต้นทุน ยังมี ข้อจำกัดเชิงโครงสร้างที่เป็นรองไฮเปอร์สเกลเลอร์
ฝั่งไฮเปอร์สเกลเลอร์ได้สร้าง การบูรณาการแนวดิ่งครบวงจรตั้งแต่ชิปไปจนถึงโครงสร้างพื้นฐานและซอฟต์แวร์ เรียบร้อยแล้ว จึงมี ศักยภาพในการทดแทนอย่างสมบูรณ์
หาก NVIDIA ไม่สามารถก้าวพ้น กลยุทธ์ที่ยึด GPU เป็นศูนย์กลางแบบเดิม และสร้าง นวัตกรรมทั้งระบบ ได้ ก็มีความเสี่ยงที่จะ รักษาความเป็นผู้นำอย่างยั่งยืนในตลาด AI คอมพิวติ้งได้ยากในอนาคต

3 ความคิดเห็น

kandk 2025-04-24

คนหนึ่งที่ไม่ได้ซื้อหุ้น Nvidia เพราะ Google Tensor, Tesla Dojo และ AMD..

kimjoin2 2025-04-24

ข้อเสียของ "ชิปสั่งทำเฉพาะของไฮเปอร์สเกลเลอร์" ก็ชวนให้สงสัยเหมือนกันครับ
เพราะเหมือนถูกบรรยายราวกับว่าเหนือกว่าทุกด้านเลย

GN⁺ 2025-04-24

ความคิดเห็นจาก Hacker News

มีความเห็นว่านี่เป็นอีกบทความหนึ่งที่ตั้งอยู่บนสมมติฐานว่าคู่แข่งจะประสบความสำเร็จขึ้นมาอย่างฉับพลันและคุกคาม Nvidia ในขณะที่ Nvidia ไม่ได้ทำอะไรเลย
- ฝ่ายที่มองลบต่อ Nvidia อาจจะถูกสักวันหนึ่ง แต่จนถึงตอนนี้ก็มักจะพลาดกันมาโดยตลอด
แม้ราคาหุ้นของ Marvell จะร่วงลงมากกว่า 50% ในปีนี้ แต่ความต้องการ GPU ของ Nvidia ก็ยังคงแข็งแกร่ง
- เน้นว่าความสามารถที่คลาวด์มอบให้นั้น GPU ไม่สามารถทดแทนได้
- เห็นด้วยกับวิสัยทัศน์ของ Jensen ที่ว่า Nvidia จะกลายเป็นบริษัทมูลค่า 10 ล้านล้านดอลลาร์
- กล่าวถึงความเป็นไปได้ที่ Nvidia จะเปิดตัว AI phone, บริการแข่งขันกับ LLM, AI PC, รถยนต์ไร้คนขับ, หุ่นยนต์ ฯลฯ
- มองว่าสถานการณ์ตอนนี้คล้ายกับตอนที่ Warren Buffet เสียดายที่ไม่ได้ลงทุนใน Google และ Apple
มีความเห็นว่าบริการจะเป็นสิ่งที่ปกป้อง Nvidia
- เป็นเจ้าของ ecosystem ผ่าน CUDA, Infiniband, NGC, NVLink และจำเป็นต้องขยายต่อผ่านแอปพลิเคชันเพิ่มเติมอย่าง AI Foundry
- สามารถสร้างรายได้ได้เมื่อ市場ชะลอตัว ผ่านการออกแบบเฉพาะทางและการให้คำปรึกษาโครงการ GPU
มีความเห็นว่ากำลังประเมินตำแหน่งเชิงกลยุทธ์ของ Nvidia ต่ำเกินไป
- Nvidia ไม่จำเป็นต้องชนะในเกมฮาร์ดแวร์ตลอดไป เพราะกำลังสร้าง AI stack ครบทั้งระบบ
- เป็นบริษัทเดียวที่ให้บริการอย่างครอบคลุมทั้งฮาร์ดแวร์ เครือข่าย ซอฟต์แวร์ โมเดล และเครื่องมือสำหรับนักพัฒนา
- Nvidia กำลังสร้างแพลตฟอร์มแบบบูรณาการ ซึ่งจะกลายเป็นมาตรฐานของอุตสาหกรรม
มีความเห็นว่า AMD ทำข้อตกลงลับกับ Nvidia และจงใจทำให้เกิดสถานการณ์แบบนี้
- Nvidia มีสถานะกึ่งผูกขาดร่วมกับ Apple ที่ TSMC
Nvidia กำลังเปลี่ยนผ่านจากการผูกขาดเชิงหน้าที่ไปสู่สถานการณ์ที่ต้องแข่งขัน
- แม้ไม่ใช่สถานการณ์ในอุดมคติ แต่ก็ไม่ใช่แรงกระแทกถึงตาย
มีความเห็นว่ารุ่น H100 แสดงให้เห็นพลังการตั้งราคาสูงสุด และจะยังทำกำไรต่อไปเพราะมีทางเลือกอื่นไม่มาก
- มีคำถามเกี่ยวกับความทนทานในระยะยาว
- บรรดา hyperscaler กำลังรวบรวมอุปสงค์ด้าน AI และเดินหน้าพัฒนาชิปที่แข่งขันได้
- ยังมีบริษัทอื่นที่กำลังสร้าง GPU farm ขนาดใหญ่ด้วย
มีความเห็นว่าการควบคุมคุณภาพไดรเวอร์ GPU ของ Nvidia กำลังแย่ลง
- แต่สินค้าก็ขายหมดมาหลายปีแล้ว จึงยากจะบอกว่าคุณภาพกำลังตกต่ำ