- Google TPU คือ ชิป ASIC เฉพาะทาง ที่ออกแบบมาเพื่อรองรับภาระงาน AI inference ขนาดใหญ่ โดยมีประสิทธิภาพและความคุ้มค่าด้านต้นทุนเหนือกว่า GPU
- จุดแตกต่างสำคัญคือ สถาปัตยกรรม Systolic Array ที่ช่วยลดการเข้าถึงหน่วยความจำให้เหลือน้อยที่สุด และเพิ่ม ประสิทธิภาพการประมวลผลต่อพลังงาน (Operations per Joule) ให้สูงสุด
- TPUv7 (Ironwood) รุ่นล่าสุด มีประสิทธิภาพและแบนด์วิดท์หน่วยความจำเพิ่มขึ้นอย่างก้าวกระโดดเมื่อเทียบกับรุ่นก่อน จนทำผลงานได้ใกล้เคียงกับ Nvidia Blackwell GPU
- ข้อจำกัดด้าน ecosystem ของ TPU และ โครงสร้างการให้บริการแบบผูกกับ GCP เท่านั้น เป็นอุปสรรคหลักต่อการขยายการใช้งาน แต่ Google กำลังปรับโครงสร้างองค์กรและเพิ่มการสนับสนุนเพื่อขยายฐานลูกค้าภายนอก
- ด้วย การฟื้นมาร์จินคลาวด์และเสริมความสามารถในการแข่งขันผ่านชิปที่พัฒนาเอง ทำให้ Google มีโอกาสเป็น ผู้ชนะสำคัญในตลาด AI infrastructure ในระยะยาว
ประวัติและที่มาของการพัฒนา TPU
- ในปี 2013 Google คำนวณพบว่า จากการใช้งานการค้นหาด้วยเสียงที่เพิ่มขึ้น ทำให้ ต้องการความจุดาต้าเซ็นเตอร์เพิ่มเป็นสองเท่า
- CPU และ GPU แบบเดิม ประมวลผล deep learning (การคูณเมทริกซ์ขนาดใหญ่) ได้อย่างมีประสิทธิภาพไม่เพียงพอ
- ด้วยเหตุนี้ Google จึงตัดสินใจพัฒนา ASIC สำหรับเครือข่ายประสาท TensorFlow และนำชิปไปใช้งานในดาต้าเซ็นเตอร์ภายในเวลาเพียง 15 เดือน
- ในปี 2015 TPU ถูกนำไปใช้แล้วในบริการหลักอย่าง Google Maps, Photos, Translate
- เปิดตัวอย่างเป็นทางการในงาน Google I/O ปี 2016 และหลังจากนั้น TPU ก็พัฒนามาเป็นโครงสร้างพื้นฐานหลักสำหรับ ลดต้นทุน AI inference
ความแตกต่างเชิงโครงสร้างระหว่าง TPU และ GPU
- GPU คือ โปรเซสเซอร์ขนานแบบใช้งานทั่วไป ส่วน TPU คือ สถาปัตยกรรมเฉพาะโดเมน
- GPU ถูกออกแบบมาสำหรับงานกราฟิก จึงมี ตรรกะควบคุมที่ซับซ้อน เช่น cache และ branch prediction
- TPU ตัดส่วนเหล่านี้ออก และใช้ โครงสร้าง Systolic Array เพื่อลดการเคลื่อนย้ายข้อมูล
- Systolic Array ของ TPU จะโหลดข้อมูลเพียงครั้งเดียว แล้วส่งต่อเป็น กระแสการประมวลผลต่อเนื่อง ช่วยลด คอขวดแบบ Von Neumann
- การปรับปรุงของ Ironwood (รุ่นที่ 7)
- เสริมความสามารถของ SparseCore เพื่อเพิ่มประสิทธิภาพการประมวลผล embedding ขนาดใหญ่
- เพิ่มเป็น HBM ขนาด 192GB และ แบนด์วิดท์ 7,370GB/s
- ปรับปรุงประสิทธิภาพของ Inter-Chip Interconnect (ICI) รองรับแบนด์วิดท์สูงสุด 1.2TB/s
- Google ใช้ Optical Circuit Switch (OCS) และ เครือข่าย 3D torus เพื่อประกอบ TPU Pod ขนาดใหญ่
- ประหยัดพลังงานสูง แต่มีความยืดหยุ่นต่ำกว่า InfiniBand
เปรียบเทียบประสิทธิภาพ TPU กับ GPU
- TPUv7 (BF16 4,614 TFLOPS) เทียบกับ TPUv5p (459 TFLOPS) ให้ประสิทธิภาพเพิ่มขึ้นราว 10 เท่า
- สรุปจากบทสัมภาษณ์ในอุตสาหกรรม
- TPU เหนือกว่าในด้าน ประสิทธิภาพต่อพลังงาน และ ความคุ้มค่าด้านต้นทุน
- ในบางแอปพลิเคชัน ทำได้ถึง ประสิทธิภาพต่อดอลลาร์สูงกว่า 1.4 เท่า
- TPUv6 มี ประสิทธิภาพสูงกว่า GPU ราว 60~65% ขณะที่รุ่นก่อนหน้าอยู่ที่ 40~45%
- TPU ปล่อยความร้อนและใช้พลังงานน้อยกว่า และ มีภาระต่อสิ่งแวดล้อมต่ำกว่า
- ลูกค้าบางรายสามารถ ลดต้นทุนเหลือเพียง 1/5 เมื่อใช้ TPU Pod
- มีการกล่าวถึงว่าโครงสร้างแบบ ASIC ช่วยให้ ขนาดลดลง 30% และใช้พลังงานลดลง 50%
- ตามข้อมูลภายในของ Google TPUv7 มีประสิทธิภาพต่อวัตต์ดีขึ้น 2 เท่าเมื่อเทียบกับ TPUv6e
- Jensen Huang ซีอีโอของ Nvidia ก็ยังจับตา TPU โดยเรียกว่าเป็น “กรณีเฉพาะทาง”
ปัญหาที่ขัดขวางการนำ TPU ไปใช้
- อุปสรรคแรกคือ ecosystem (การผูกขาดของ CUDA)
- ทั้งมหาวิทยาลัยและภาคอุตสาหกรรมต่างสอนและพัฒนาบน CUDA เป็นหลัก
- TPU เน้น JAX และ TensorFlow ขณะที่การรองรับ PyTorch ถูกเสริมขึ้นอย่างจริงจังค่อนข้างช้า
- การแพร่หลายของ กลยุทธ์ multicloud ก็เป็นข้อจำกัดอีกด้าน
- บริษัทส่วนใหญ่กระจายข้อมูลไว้ใน AWS/Azure/GCP ทำให้ ต้นทุนการย้ายข้อมูลออก (egress) สูง และภาระงานบน GPU จึงยืดหยุ่นกว่า
- TPU ใช้ได้เฉพาะบน GCP ขณะที่ Nvidia ใช้งานได้บนคลาวด์หลักทั้ง 3 ราย
- หากเลือก TPU ไปแล้ว แต่ราคาเปลี่ยนหรือสภาพแวดล้อมเปลี่ยน ต้นทุนในการเขียนระบบใหม่จะสูงมาก
- Google เพิ่งเริ่มขยายองค์กรเพื่อขายและผลักดัน TPU สู่ตลาดภายนอกอย่างจริงจัง และอดีตกับพนักงานปัจจุบันบางรายก็กล่าวถึง ความเป็นไปได้ในการจัดหาภายนอกผ่าน neocloud ในอนาคต
คุณค่าเชิงกลยุทธ์ของ TPU ต่อ Google Cloud
- ในยุค AI อุตสาหกรรมคลาวด์กำลังเปลี่ยนจาก โครงสร้างมาร์จินสูง (50~70%) ไปสู่ มาร์จินต่ำ (20~35%)
- สาเหตุคือแรงกดดันด้านต้นทุนจาก มาร์จิน 75% ของ Nvidia
- มีเพียงผู้ให้บริการที่มี ASIC ของตัวเองเท่านั้น (โดยเฉพาะ TPU) ที่มีโอกาสกลับไปสู่ มาร์จินคลาวด์แบบดั้งเดิมระดับ 50%
- จุดแข็งของ Google
- TPU คือ ASIC สำหรับคลาวด์ที่มีความสมบูรณ์ที่สุด
- Google ทำงาน front-end ของการออกแบบชิป เช่น RTL ภายในเป็นส่วนใหญ่
- Broadcom รับผิดชอบเฉพาะการออกแบบทางกายภาพ (back-end) ทำให้โครงสร้างมาร์จินต่ำกว่า Nvidia และช่วยเสริมความสามารถในการแข่งขันด้านต้นทุนของ TPU
- Google เป็นเจ้าของ ซอฟต์แวร์ optimization stack ทั้งหมด ทำให้ดึงประสิทธิภาพฮาร์ดแวร์ออกมาได้สูงสุด
- โมเดลหลักอย่าง Gemini 3 ก็ฝึกและรัน inference บน TPU
- รวมถึงมีการขยายการใช้ TPU ไปทั่วบริการ AI ภายใน
- SemiAnalysis ประเมินว่า “TPU รุ่นที่ 7 ของ Google อยู่ในระดับเดียวกับ Nvidia Blackwell”
- TPU ถูกมองว่าเป็นทั้ง ความได้เปรียบเชิงการแข่งขันระยะยาวของ GCP และ แรงขับเคลื่อนสำคัญในการขยายส่วนแบ่งตลาด AI infrastructure
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
อาวุธที่แท้จริงของ Google ไม่ใช่ตัวซิลิคอน TPU เอง แต่คือ ความสามารถในการสเกลแบบขนานขนาดใหญ่ ผ่านอินเตอร์คอนเนกต์ OCS (Optical Circuit Switch)
ตามที่ The Next Platform อ้าง ระบุว่าสามารถเชื่อมต่อ Ironwood TPU ได้ 9,216 ตัวเพื่อใช้หน่วยความจำ HBM รวม 1.77PB ซึ่งเป็นขนาดที่เหนือกว่าระบบระดับแร็กสเกลที่ใช้ Blackwell GPU ของ Nvidia (HBM 20.7TB) อย่างมาก
Nvidia อาจเหนือกว่าในระดับชิปเดี่ยว แต่สำหรับการเทรนหรืออินเฟอเรนซ์แบบกระจายขนาดใหญ่ ยังไม่มีอะไรเทียบความสามารถในการสเกลด้วยออปติคัลสวิตชิงของ Google ได้
บริษัทส่วนใหญ่ไม่จำเป็นต้องซื้อฮาร์ดแวร์เองหรือเทรนโมเดลเอง แค่ใช้บริการลักษณะคล้าย AI app store ที่ Google มีให้ก็พอ
ตัวอย่างเช่น โมเดล Mixture of Experts มีการสื่อสารแบบ all-to-all มาก จึงทำงานได้มีประสิทธิภาพกว่ามากบนฝั่ง NVLink
ลิงก์ทวีตทางการของ Nvidia
การทำ model parallelization เหมาะกับเครือข่ายที่เร็วและเล็ก ส่วน data parallelization เหมาะกับเครือข่ายขนาดใหญ่ ความสมดุลนี้เองที่ทำให้ Nvidia ยังเป็นฝ่ายชนะ
Gemini 3 Pro ก็ใกล้จะเก่าแล้ว Google มีทรัพยากรมากกว่า Anthropic อย่างมาก แต่ถ้าฮาร์ดแวร์คืออาวุธลับจริง ก็ควรครองตลาดไปแล้ว
แต่ความจริงไม่ใช่แบบนั้น
มีความเห็นว่า CUDA สำคัญกับการเทรน แต่ สำคัญน้อยกว่าในขั้นอินเฟอเรนซ์
แต่อินเฟอเรนซ์เป็นกระบวนการที่ง่ายกว่า คือการนำค่าน้ำหนักคงที่มาใช้ซ้ำ จึงเป็นไปได้ว่า TPU จะมีประสิทธิภาพมากกว่า
ไม่มีเหตุผลที่ Nvidia จะสร้างชิปเฉพาะทางแบบ TPU ไม่ได้
Nvidia จ้าง TSMC ผลิตแล้วขายในราคาสูง แต่ Google ใช้เองจึงประหยัดมาร์จินได้
มีรายงานของ Reutersว่าขณะนี้ Meta กำลังเจรจาเพื่อลงทุน หลายพันล้านดอลลาร์ ในชิปของ Google
ASIC สำหรับ LLM ซับซ้อนกว่า ASIC สำหรับคริปโตมาก เพราะคริปโตแค่ประมวลผลแฮชอัลกอริทึมที่ตายตัว แต่ LLM เปลี่ยนแปลงตลอด
จึงยังสับสนว่า TPU มีความหมายอย่างไรในบริบทนี้
อยากให้มีตัวเลือก TPU แบบสแตนด์อโลน สำหรับผู้ใช้ทั่วไปมากกว่านี้ ตอนนี้ตัวเลือกเดียวแทบจะมีแค่ Coral รุ่นปี 2019
ข้อถกเถียงนี้มีลักษณะเชิงวิชาการคล้าย RISC vs CISC เพราะสุดท้ายแล้ว Nvidia GPU ก็ถูกออกแบบให้ทำงานแบบเดียวกับ TPU มากขึ้นเรื่อย ๆ
แม้แต่ภายใน Google เอง อีก 5 ปีข้างหน้าความต่างก็อาจไม่มากแล้ว
Google ได้ประโยชน์จาก TPU แต่สำหรับนักพัฒนาภายนอกไม่ได้มีประโยชน์โดยตรง
ทั้ง Maia ของ Microsoft ชิปดาต้าเซ็นเตอร์จาก AMD/NVIDIA และการเข้าซื้อกิจการบริษัทที่เชี่ยวชาญด้านเครือข่าย ล้วนกำลังมุ่งไปในทิศทางเดียวกัน
Google อาจนำอยู่ แต่สุดท้ายจะกลายเป็นการแข่งขันแบบ ค่อย ๆ มาบรรจบกัน
โมเดลแบบ sparse สามารถลดทั้งปริมาณการคำนวณและพื้นที่จัดเก็บได้ 16 เท่าโดยยังคงคุณภาพเดิม
TPU อ่อนกว่าในการจัดการ sparse matrix แต่แข็งแกร่งกับการเทรนโมเดลแบบ dense
เอกสารสถาปัตยกรรมระบบ TPU
แนะนำ OpenXLA SparseCore
สุดท้ายแล้วก็ยังมีคำถามว่า เส้นชัยของการแข่งขันนี้อยู่ตรงไหน หรือ จุดต่ำสุดอยู่ตรงไหนกันแน่