TPU vs. GPU และเหตุผลที่ Google อาจชนะการแข่งขัน AI ในระยะยาว

(uncoveralpha.com)

7 คะแนน โดย GN⁺ 2025-11-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Google TPU คือ ชิป ASIC เฉพาะทาง ที่ออกแบบมาเพื่อรองรับภาระงาน AI inference ขนาดใหญ่ โดยมีประสิทธิภาพและความคุ้มค่าด้านต้นทุนเหนือกว่า GPU
จุดแตกต่างสำคัญคือ สถาปัตยกรรม Systolic Array ที่ช่วยลดการเข้าถึงหน่วยความจำให้เหลือน้อยที่สุด และเพิ่ม ประสิทธิภาพการประมวลผลต่อพลังงาน (Operations per Joule) ให้สูงสุด
TPUv7 (Ironwood) รุ่นล่าสุด มีประสิทธิภาพและแบนด์วิดท์หน่วยความจำเพิ่มขึ้นอย่างก้าวกระโดดเมื่อเทียบกับรุ่นก่อน จนทำผลงานได้ใกล้เคียงกับ Nvidia Blackwell GPU
ข้อจำกัดด้าน ecosystem ของ TPU และ โครงสร้างการให้บริการแบบผูกกับ GCP เท่านั้น เป็นอุปสรรคหลักต่อการขยายการใช้งาน แต่ Google กำลังปรับโครงสร้างองค์กรและเพิ่มการสนับสนุนเพื่อขยายฐานลูกค้าภายนอก
ด้วย การฟื้นมาร์จินคลาวด์และเสริมความสามารถในการแข่งขันผ่านชิปที่พัฒนาเอง ทำให้ Google มีโอกาสเป็น ผู้ชนะสำคัญในตลาด AI infrastructure ในระยะยาว

ประวัติและที่มาของการพัฒนา TPU

ในปี 2013 Google คำนวณพบว่า จากการใช้งานการค้นหาด้วยเสียงที่เพิ่มขึ้น ทำให้ ต้องการความจุดาต้าเซ็นเตอร์เพิ่มเป็นสองเท่า
- CPU และ GPU แบบเดิม ประมวลผล deep learning (การคูณเมทริกซ์ขนาดใหญ่) ได้อย่างมีประสิทธิภาพไม่เพียงพอ
ด้วยเหตุนี้ Google จึงตัดสินใจพัฒนา ASIC สำหรับเครือข่ายประสาท TensorFlow และนำชิปไปใช้งานในดาต้าเซ็นเตอร์ภายในเวลาเพียง 15 เดือน
ในปี 2015 TPU ถูกนำไปใช้แล้วในบริการหลักอย่าง Google Maps, Photos, Translate
เปิดตัวอย่างเป็นทางการในงาน Google I/O ปี 2016 และหลังจากนั้น TPU ก็พัฒนามาเป็นโครงสร้างพื้นฐานหลักสำหรับ ลดต้นทุน AI inference

ความแตกต่างเชิงโครงสร้างระหว่าง TPU และ GPU

GPU คือ โปรเซสเซอร์ขนานแบบใช้งานทั่วไป ส่วน TPU คือ สถาปัตยกรรมเฉพาะโดเมน
- GPU ถูกออกแบบมาสำหรับงานกราฟิก จึงมี ตรรกะควบคุมที่ซับซ้อน เช่น cache และ branch prediction
- TPU ตัดส่วนเหล่านี้ออก และใช้ โครงสร้าง Systolic Array เพื่อลดการเคลื่อนย้ายข้อมูล
Systolic Array ของ TPU จะโหลดข้อมูลเพียงครั้งเดียว แล้วส่งต่อเป็น กระแสการประมวลผลต่อเนื่อง ช่วยลด คอขวดแบบ Von Neumann
การปรับปรุงของ Ironwood (รุ่นที่ 7)
- เสริมความสามารถของ SparseCore เพื่อเพิ่มประสิทธิภาพการประมวลผล embedding ขนาดใหญ่
- เพิ่มเป็น HBM ขนาด 192GB และ แบนด์วิดท์ 7,370GB/s
- ปรับปรุงประสิทธิภาพของ Inter-Chip Interconnect (ICI) รองรับแบนด์วิดท์สูงสุด 1.2TB/s
Google ใช้ Optical Circuit Switch (OCS) และ เครือข่าย 3D torus เพื่อประกอบ TPU Pod ขนาดใหญ่
- ประหยัดพลังงานสูง แต่มีความยืดหยุ่นต่ำกว่า InfiniBand

เปรียบเทียบประสิทธิภาพ TPU กับ GPU

TPUv7 (BF16 4,614 TFLOPS) เทียบกับ TPUv5p (459 TFLOPS) ให้ประสิทธิภาพเพิ่มขึ้นราว 10 เท่า
สรุปจากบทสัมภาษณ์ในอุตสาหกรรม
- TPU เหนือกว่าในด้าน ประสิทธิภาพต่อพลังงาน และ ความคุ้มค่าด้านต้นทุน
- ในบางแอปพลิเคชัน ทำได้ถึง ประสิทธิภาพต่อดอลลาร์สูงกว่า 1.4 เท่า
- TPUv6 มี ประสิทธิภาพสูงกว่า GPU ราว 60~65% ขณะที่รุ่นก่อนหน้าอยู่ที่ 40~45%
- TPU ปล่อยความร้อนและใช้พลังงานน้อยกว่า และ มีภาระต่อสิ่งแวดล้อมต่ำกว่า
ลูกค้าบางรายสามารถ ลดต้นทุนเหลือเพียง 1/5 เมื่อใช้ TPU Pod
มีการกล่าวถึงว่าโครงสร้างแบบ ASIC ช่วยให้ ขนาดลดลง 30% และใช้พลังงานลดลง 50%
ตามข้อมูลภายในของ Google TPUv7 มีประสิทธิภาพต่อวัตต์ดีขึ้น 2 เท่าเมื่อเทียบกับ TPUv6e
Jensen Huang ซีอีโอของ Nvidia ก็ยังจับตา TPU โดยเรียกว่าเป็น “กรณีเฉพาะทาง”

ปัญหาที่ขัดขวางการนำ TPU ไปใช้

อุปสรรคแรกคือ ecosystem (การผูกขาดของ CUDA)
- ทั้งมหาวิทยาลัยและภาคอุตสาหกรรมต่างสอนและพัฒนาบน CUDA เป็นหลัก
- TPU เน้น JAX และ TensorFlow ขณะที่การรองรับ PyTorch ถูกเสริมขึ้นอย่างจริงจังค่อนข้างช้า
การแพร่หลายของ กลยุทธ์ multicloud ก็เป็นข้อจำกัดอีกด้าน
- บริษัทส่วนใหญ่กระจายข้อมูลไว้ใน AWS/Azure/GCP ทำให้ ต้นทุนการย้ายข้อมูลออก (egress) สูง และภาระงานบน GPU จึงยืดหยุ่นกว่า
- TPU ใช้ได้เฉพาะบน GCP ขณะที่ Nvidia ใช้งานได้บนคลาวด์หลักทั้ง 3 ราย
หากเลือก TPU ไปแล้ว แต่ราคาเปลี่ยนหรือสภาพแวดล้อมเปลี่ยน ต้นทุนในการเขียนระบบใหม่จะสูงมาก
Google เพิ่งเริ่มขยายองค์กรเพื่อขายและผลักดัน TPU สู่ตลาดภายนอกอย่างจริงจัง และอดีตกับพนักงานปัจจุบันบางรายก็กล่าวถึง ความเป็นไปได้ในการจัดหาภายนอกผ่าน neocloud ในอนาคต

คุณค่าเชิงกลยุทธ์ของ TPU ต่อ Google Cloud

ในยุค AI อุตสาหกรรมคลาวด์กำลังเปลี่ยนจาก โครงสร้างมาร์จินสูง (50~70%) ไปสู่ มาร์จินต่ำ (20~35%)
- สาเหตุคือแรงกดดันด้านต้นทุนจาก มาร์จิน 75% ของ Nvidia
มีเพียงผู้ให้บริการที่มี ASIC ของตัวเองเท่านั้น (โดยเฉพาะ TPU) ที่มีโอกาสกลับไปสู่ มาร์จินคลาวด์แบบดั้งเดิมระดับ 50%
จุดแข็งของ Google
- TPU คือ ASIC สำหรับคลาวด์ที่มีความสมบูรณ์ที่สุด
- Google ทำงาน front-end ของการออกแบบชิป เช่น RTL ภายในเป็นส่วนใหญ่
- Broadcom รับผิดชอบเฉพาะการออกแบบทางกายภาพ (back-end) ทำให้โครงสร้างมาร์จินต่ำกว่า Nvidia และช่วยเสริมความสามารถในการแข่งขันด้านต้นทุนของ TPU
- Google เป็นเจ้าของ ซอฟต์แวร์ optimization stack ทั้งหมด ทำให้ดึงประสิทธิภาพฮาร์ดแวร์ออกมาได้สูงสุด
โมเดลหลักอย่าง Gemini 3 ก็ฝึกและรัน inference บน TPU
- รวมถึงมีการขยายการใช้ TPU ไปทั่วบริการ AI ภายใน
SemiAnalysis ประเมินว่า “TPU รุ่นที่ 7 ของ Google อยู่ในระดับเดียวกับ Nvidia Blackwell”
TPU ถูกมองว่าเป็นทั้ง ความได้เปรียบเชิงการแข่งขันระยะยาวของ GCP และ แรงขับเคลื่อนสำคัญในการขยายส่วนแบ่งตลาด AI infrastructure

1 ความคิดเห็น

GN⁺ 2025-11-28

ความคิดเห็นจาก Hacker News

อาวุธที่แท้จริงของ Google ไม่ใช่ตัวซิลิคอน TPU เอง แต่คือ ความสามารถในการสเกลแบบขนานขนาดใหญ่ ผ่านอินเตอร์คอนเนกต์ OCS (Optical Circuit Switch)
ตามที่ The Next Platform อ้าง ระบุว่าสามารถเชื่อมต่อ Ironwood TPU ได้ 9,216 ตัวเพื่อใช้หน่วยความจำ HBM รวม 1.77PB ซึ่งเป็นขนาดที่เหนือกว่าระบบระดับแร็กสเกลที่ใช้ Blackwell GPU ของ Nvidia (HBM 20.7TB) อย่างมาก
Nvidia อาจเหนือกว่าในระดับชิปเดี่ยว แต่สำหรับการเทรนหรืออินเฟอเรนซ์แบบกระจายขนาดใหญ่ ยังไม่มีอะไรเทียบความสามารถในการสเกลด้วยออปติคัลสวิตชิงของ Google ได้
- Google เป็นเจ้าของ สแตกแบบบูรณาการแนวดิ่ง ทั้งหมด ทำให้สามารถให้บริการ AI ในระดับคลาวด์ได้ในต้นทุนที่ต่ำกว่าและยังทำกำไรได้มากกว่า
  บริษัทส่วนใหญ่ไม่จำเป็นต้องซื้อฮาร์ดแวร์เองหรือเทรนโมเดลเอง แค่ใช้บริการลักษณะคล้าย AI app store ที่ Google มีให้ก็พอ
- จริง ๆ แล้วทั้งสองระบบมีโครงสร้างเครือข่ายต่างกันโดยสิ้นเชิง NVLink ของ Nvidia เป็น แฟบริกแบบสวิตช์ all-to-all ส่วน TPU เป็นโครงสร้าง 3D torus
  ตัวอย่างเช่น โมเดล Mixture of Experts มีการสื่อสารแบบ all-to-all มาก จึงทำงานได้มีประสิทธิภาพกว่ามากบนฝั่ง NVLink
- Nvidia ยังคงโพสต์ทวีตที่อ้างว่าเทคโนโลยีของตัวเองดีกว่า
  ลิงก์ทวีตทางการของ Nvidia
- ถ้าสิ่งที่ Google อ้างเป็นจริง ก็ควรจะทิ้งห่างใน benchmark ของ MLPerf แบบขาดลอย แต่ก็ไม่ได้เป็นเช่นนั้น
  การทำ model parallelization เหมาะกับเครือข่ายที่เร็วและเล็ก ส่วน data parallelization เหมาะกับเครือข่ายขนาดใหญ่ ความสมดุลนี้เองที่ทำให้ Nvidia ยังเป็นฝ่ายชนะ
- ถ้าจะให้ได้ความจุหน่วยความจำเท่ากัน Google ต้องใช้ จำนวนชิปมากกว่า 100 เท่า
Gemini 3 Pro ก็ใกล้จะเก่าแล้ว Google มีทรัพยากรมากกว่า Anthropic อย่างมาก แต่ถ้าฮาร์ดแวร์คืออาวุธลับจริง ก็ควรครองตลาดไปแล้ว
แต่ความจริงไม่ใช่แบบนั้น
1. การ ใช้ฮาร์ดแวร์ให้มีประสิทธิภาพ เป็นเรื่องยาก และพอปรับจูนเสร็จก็มักขยับไปสู่โมเดลรุ่นถัดไปแล้ว
2. สำหรับบริษัทส่วนใหญ่ ปัญหาแก้ได้ด้วยเงิน H100 ก็ใช้งานได้ดีพออยู่แล้ว
3. แค่เทคนิคการวิจัยใหม่ ๆ ก็สามารถเพิ่มประสิทธิภาพของโมเดลได้มาก
4. การพัฒนาโมเดลยังคงมีงานที่ใช้แรงคนจำนวนมาก เช่น การคัดแต่งชุดข้อมูลและงานประเมินผล
5. ฮาร์ดแวร์แบบคัสตอมก็มาพร้อมปัญหาแบบคัสตอม ปัญหาในคลัสเตอร์ TPU หาคำตอบใน Stack Overflow ไม่ได้
มีความเห็นว่า CUDA สำคัญกับการเทรน แต่ สำคัญน้อยกว่าในขั้นอินเฟอเรนซ์
- ชิปของ NVIDIA มีความ อเนกประสงค์ มากกว่า ระหว่างการเทรนจำเป็นต้องมีฟังก์ชันหลากหลาย เช่น การคำนวณเฉพาะทางอย่าง sin, cos การเก็บผลคำนวณระหว่างทาง และการจัดการกราดิเอนต์
  แต่อินเฟอเรนซ์เป็นกระบวนการที่ง่ายกว่า คือการนำค่าน้ำหนักคงที่มาใช้ซ้ำ จึงเป็นไปได้ว่า TPU จะมีประสิทธิภาพมากกว่า
- ตลาดชิปสำหรับการเทรนอาจเป็นฟองสบู่ แต่ตลาดอินเฟอเรนซ์ใหญ่กว่ามาก เมื่อถึงวันที่ประสิทธิภาพโมเดลดีพอ ความต้องการด้านการเทรนอาจลดลง และ ระบบอินเฟอเรนซ์ที่ประหยัดพลังงาน จะกลายเป็นกระแสหลัก
- เหตุผลที่ CUDA สำคัญคือ การพึ่งพิงระบบนิเวศ เพราะซอฟต์แวร์สำหรับการเทรนส่วนใหญ่ถูกสร้างบน CUDA
- การเทรนคือกระบวนการแบ่งปัญหาใหญ่ให้เล็กลงและจัดการการพึ่งพาของข้อมูล ส่วนอินเฟอเรนซ์คือชุดของปัญหาเล็ก ๆ ที่เป็นอิสระต่อกัน
- CUDA ให้ประสบการณ์นักพัฒนาที่ดีกว่ามาก และเมื่อความสามารถในการผลิตงานวิจัยสำคัญ สิ่งนี้ก็ตัดสินผลได้เลย
ไม่มีเหตุผลที่ Nvidia จะสร้างชิปเฉพาะทางแบบ TPU ไม่ได้
- สุดท้าย Nvidia ก็น่าจะทำแบบนั้น เพียงแต่ Google เป็นทั้ง ผู้ออกแบบชิปและบริษัท AI จึงเก็บผลประโยชน์ทั้งหมดไว้เองได้
  Nvidia จ้าง TSMC ผลิตแล้วขายในราคาสูง แต่ Google ใช้เองจึงประหยัดมาร์จินได้
- DeepMind ทำงานร่วมกับทีม TPU โดยตรงเพื่อออกแบบ ชิปที่ปรับตามโปรเจกต์ OpenAI ก็ประกาศพัฒนาชิปของตัวเองด้วยเหตุผลเดียวกัน แต่สิ่งนี้ใช้เงินลงทุนสูงมาก
- TPU ถูกกว่า GPU ของ NVidia และ บูรณาการแนวดิ่ง สำหรับใช้งานภายใน Google
- ความเสี่ยงของ Nvidia ไม่ใช่วิกฤตเชิงอัตถิภาวนิยม แต่คือ อัตรากำไรที่ลดลง ต่อให้ยอดขายชิปเพิ่ม 100 เท่า แต่มาร์จินลดเหลือ 5% มูลค่าตลาดก็อาจลดลง
- จริง ๆ แล้ว Nvidia ก็กำลังพัฒนาไปในทิศทางเดียวกันอยู่แล้วด้วย Tensor Core
มีรายงานของ Reutersว่าขณะนี้ Meta กำลังเจรจาเพื่อลงทุน หลายพันล้านดอลลาร์ ในชิปของ Google
ASIC สำหรับ LLM ซับซ้อนกว่า ASIC สำหรับคริปโตมาก เพราะคริปโตแค่ประมวลผลแฮชอัลกอริทึมที่ตายตัว แต่ LLM เปลี่ยนแปลงตลอด
จึงยังสับสนว่า TPU มีความหมายอย่างไรในบริบทนี้
- สำหรับ LLM สิ่งสำคัญคือ แบนด์วิดท์ของหน่วยความจำและอินเตอร์คอนเนกต์ ขณะที่คริปโตเน้นการคำนวณ 100%
- LLM ส่วนใหญ่เน้น การคูณเมทริกซ์ และ TPU ถูกสร้างมาเพื่อเร่งงานนี้ โดย PyTorch ก็รองรับ TPU ด้วย
- ต่อให้เป็น ASIC ก็ยังสามารถ โปรแกรมได้ TPU ต้องรันโมเดลหลายแบบ จึงต่างจากชิปที่ฮาร์ดโค้ดตายตัว
- แม้สถาปัตยกรรมของ LLM จะเปลี่ยนไป แต่ส่วนประกอบร่วมกันยังเหมือนเดิม เช่น การคำนวณเมทริกซ์และชนิดข้อมูล floating point เพราะฉะนั้น TPU จึงแทบจะเป็น ASIC สำหรับ LLM
- คริปโตก็เปลี่ยนเช่นกัน ตัวอย่างเช่น Monero ใช้โครงสร้างระดับ CPU เพื่อขัดขวาง ASIC
อยากให้มีตัวเลือก TPU แบบสแตนด์อโลน สำหรับผู้ใช้ทั่วไปมากกว่านี้ ตอนนี้ตัวเลือกเดียวแทบจะมีแค่ Coral รุ่นปี 2019
ข้อถกเถียงนี้มีลักษณะเชิงวิชาการคล้าย RISC vs CISC เพราะสุดท้ายแล้ว Nvidia GPU ก็ถูกออกแบบให้ทำงานแบบเดียวกับ TPU มากขึ้นเรื่อย ๆ
แม้แต่ภายใน Google เอง อีก 5 ปีข้างหน้าความต่างก็อาจไม่มากแล้ว
Google ได้ประโยชน์จาก TPU แต่สำหรับนักพัฒนาภายนอกไม่ได้มีประโยชน์โดยตรง
- แม้จริงอยู่ที่ Google ไม่ได้ขาย TPU แต่บริษัทอื่น ๆ ก็เริ่มพัฒนาชิปของตัวเองเช่นกัน
  ทั้ง Maia ของ Microsoft ชิปดาต้าเซ็นเตอร์จาก AMD/NVIDIA และการเข้าซื้อกิจการบริษัทที่เชี่ยวชาญด้านเครือข่าย ล้วนกำลังมุ่งไปในทิศทางเดียวกัน
  Google อาจนำอยู่ แต่สุดท้ายจะกลายเป็นการแข่งขันแบบ ค่อย ๆ มาบรรจบกัน
โมเดลแบบ sparse สามารถลดทั้งปริมาณการคำนวณและพื้นที่จัดเก็บได้ 16 เท่าโดยยังคงคุณภาพเดิม
TPU อ่อนกว่าในการจัดการ sparse matrix แต่แข็งแกร่งกับการเทรนโมเดลแบบ dense
- อย่างไรก็ตาม TPU มีฮาร์ดแวร์เฉพาะชื่อ SparseCore รวมอยู่ด้วย
  เอกสารสถาปัตยกรรมระบบ TPU
  แนะนำ OpenXLA SparseCore
สุดท้ายแล้วก็ยังมีคำถามว่า เส้นชัยของการแข่งขันนี้อยู่ตรงไหน หรือ จุดต่ำสุดอยู่ตรงไหนกันแน่

TPU vs. GPU และเหตุผลที่ Google อาจชนะการแข่งขัน AI ในระยะยาว

ประวัติและที่มาของการพัฒนา TPU

ความแตกต่างเชิงโครงสร้างระหว่าง TPU และ GPU

เปรียบเทียบประสิทธิภาพ TPU กับ GPU

ปัญหาที่ขัดขวางการนำ TPU ไปใช้

คุณค่าเชิงกลยุทธ์ของ TPU ต่อ Google Cloud

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News