ทำความเข้าใจ Tensor Processing Unit ของ Google

(considerthebulldog.com)

26 คะแนน โดย GN⁺ 2025-12-15 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

TPU คือ ตัวเร่งความเร็วแบบเฉพาะโดเมนของ Google ที่ตัดทุกอย่างที่ไม่จำเป็นออก เหลือไว้เฉพาะการคำนวณที่จำเป็นต่อการทำดีปเลิร์นนิง
เริ่มต้นจากข้อจำกัดในการขยายดาต้าเซ็นเตอร์ในปี 2013 และพัฒนามาถึงรุ่นที่ 7 ‘Ironwood’ ภายในเวลา 12 ปี
เมื่อยุคที่ประสิทธิภาพเซมิคอนดักเตอร์ดีขึ้นเองโดยอัตโนมัติสิ้นสุดลง กลยุทธ์การออกแบบเองแทนการรอ จึงกลายเป็นทางเลือกสำคัญ
TPU ไม่ใช่แค่ชิปตัวเดียว แต่เป็น ระบบที่ออกแบบร่วมกันระหว่างฮาร์ดแวร์ คอมไพเลอร์ เครือข่าย และซอฟต์แวร์ปฏิบัติการ
ยิ่งเปลี่ยนผ่านหลายเจเนอเรชัน จุดศูนย์กลางของการออกแบบก็ยิ่งย้ายจากการแข่งขันด้านประสิทธิภาพไปสู่ พลังงาน การติดตั้งใช้งาน และต้นทุนการดำเนินงาน (TCO)
ความสามารถในการแข่งขันของ TPU ไม่ได้มาจากเทคโนโลยีตัวเดียว แต่เกิดจาก ผลรวมของประสบการณ์ด้านการออกแบบและการปฏิบัติการที่สั่งสมมานานกว่า 10 ปี

Something New

TPU ไม่ใช่อาวุธลับ แต่เป็น ผลลัพธ์ที่ถูกขัดเกลาผ่านงานวิจัยแบบเปิดเผยและการวนปรับปรุงภายในมาอย่างยาวนาน
แทนที่จะขยายดาต้าเซ็นเตอร์ต่อไปเรื่อย ๆ Google เลือก หนทางที่เปลี่ยนวิธีการคำนวณอย่างถึงราก
ราวปี 2013 แรงกดดันที่ต้องเพิ่มความจุดาต้าเซ็นเตอร์เป็นสองเท่าและข้อจำกัดด้านเวลา นำไปสู่การกำเนิดของ TPU ภายใน 15 เดือน
ในเดือนเมษายน 2025 ที่งาน Google Cloud Next มีการประกาศ TPU Ironwood รุ่นที่ 7 พร้อมตัวเลข 9,216 ชิปต่อ pod, 42.5 Exaflops, 10MW
GPU ไม่ได้ถูกสร้างมาสำหรับดีปเลิร์นนิงตั้งแต่แรก และ TPU ถูกออกแบบบนสมมติฐานของการคำนวณโครงข่ายประสาทตั้งแต่ต้น
การเลือกเช่นนี้ทำให้ได้เปรียบเชิงโครงสร้าง ไม่ใช่แค่ด้านสมรรถนะการคำนวณ แต่รวมถึง ประสิทธิภาพด้านพลังงานและเสถียรภาพในการปฏิบัติการ
นี่ไม่ใช่ผลของ “ความบังเอิญ” แต่เป็นผลสะสมจากการทำซ้ำของ ข้อจำกัด การแลกเปลี่ยน และการออกแบบร่วมกัน

Slowing Down

เมื่อ Moore’s Law และ Dennard Scaling อ่อนแรงลง แต่เดิมเพียงแค่รอ CPU รุ่นใหม่โปรแกรมก็เร็วขึ้นได้เอง ทว่า สมมติฐานนั้นพังทลายลงแล้ว
แม้จำนวนทรานซิสเตอร์ยังเพิ่มขึ้นต่อเนื่อง แต่ ข้อจำกัดด้านพลังงานและความร้อน กลับขวางการยกระดับประสิทธิภาพ
ขณะเดียวกัน โครงข่ายประสาทก็ต้องการข้อมูลที่ใหญ่ขึ้นและโมเดลที่ใหญ่ขึ้น ทำให้ ความต้องการด้านการคำนวณพุ่งสูงอย่างมาก
ด้วยเหตุนี้ แทนที่จะเป็น “ชิปที่ทำได้ทุกอย่างค่อนข้างดี” จึงต้องการ “ชิปที่ทำสิ่งเดียวได้ดีอย่างสุดขีด”
ความจริงที่ว่าแกนหลักของการคำนวณโครงข่ายประสาทคือ การคำนวณซ้ำที่มีการคูณเมทริกซ์เป็นศูนย์กลาง ทำให้การออกแบบแบบเฉพาะทางเป็นไปได้

The Inference Chip

TPU รุ่นแรกมุ่งไปที่ การอนุมาน (Inference) หรือการรันโมเดลที่ฝึกเสร็จแล้ว ไม่ใช่การเทรน
TPUv1 ตัด cache, branch prediction, multithreading ออก เพื่อลดต้นทุนด้านการควบคุมให้ต่ำที่สุด
แทนที่จะกระจายทรัพยากร มันรวมทุกอย่างไว้กับ Systolic Array (MXU) ที่ประมวลผลการคูณเมทริกซ์ขนาดใหญ่ได้ต่อเนื่องไม่หยุด
ระหว่างการทำงาน ชิปจะไม่ตัดสินใจเอง แต่ ทำตามลำดับการรันที่ถูกกำหนดไว้ตั้งแต่ตอนคอมไพล์
ผลลัพธ์คือ ด้วยพลังงานเท่ากัน มันสามารถจัดการ งานอนุมานได้มากกว่า GPU และ CPU อย่างมาก

The Training Chip

การเทรนต้องการการคำนวณมากกว่าการอนุมานอย่างมาก และต้องการ ช่วงการแทนค่าตัวเลขที่กว้างกว่า
ตั้งแต่ TPUv2 เป็นต้นมา โครงสร้างที่เคยเน้นการอนุมานโดยเฉพาะได้ขยายไปสู่ ความยืดหยุ่นสำหรับการเทรน
การเปลี่ยนแปลงสำคัญคือ การแยกบทบาทของเมทริกซ์ (MXU), เวกเตอร์ (VPU) และการควบคุม (Scalar Unit)
ลำดับการทำงานจะถูก คำนวณและกำหนดไว้ล่วงหน้าโดยคอมไพเลอร์ XLA แล้วชิปจึงทำตามนั้น
ยังมีการออกแบบ อินเตอร์คอนเนกต์ความเร็วสูงเฉพาะทาง (ICI) ควบคู่กัน เพื่อให้ TPU หลายตัวทำงานเสมือนเป็นอุปกรณ์เดียว

Scaling Up

เมื่อระบบใหญ่ขึ้น คำถามก็ย้ายจาก “มันเร็วแค่ไหน” ไปสู่ “จะรันได้นานแค่ไหนและถูกแค่ไหน”
เพื่อสิ่งนี้ จึงวาง หน่วยความจำบนชิปขนาดใหญ่ (CMEM) ไว้ใกล้อุปกรณ์คำนวณ เพื่อลดการเข้าถึง DRAM ที่ช้ากว่า
สำหรับงานอย่างระบบแนะนำที่มีข้อมูลแบบ sparse จำนวนมาก ก็มีการเพิ่มยูนิตเฉพาะทางอย่าง SparseCore เข้ามาด้วย
การแยกการสื่อสารภายในชิปออกจากการสื่อสารระหว่างชิป ช่วย บรรเทาความซับซ้อนของสายสัญญาณและคอขวดในเชิงโครงสร้าง
ทำให้ท้ายที่สุดแล้ว ประสิทธิภาพในการปฏิบัติการ กลายเป็นตัวกำหนดการออกแบบโดยรวม มากกว่าตัวเลขสมรรถนะเพียงอย่างเดียว

Island Hopping

ในสภาพแวดล้อมที่ใช้ TPU หลายพันตัว ความขัดข้องไม่ใช่ข้อยกเว้น แต่เป็นสมมติฐานพื้นฐาน
เป้าหมายคือระบบที่ไม่หยุดทำงาน หรือก็คือ โครงสร้างที่ดูดซับความล้มเหลวบางส่วนได้
งานจะถูกแบ่งไปรันบน TPU หลายตัว แต่ ถูกจัดการให้มองเห็นเสมือนเป็นโปรแกรมเดียว
เมื่อเกิดปัญหา ระบบจะเลือก การย้ายงานและเริ่มต้นใหม่อย่างรวดเร็ว แทนการหยุดทั้งหมด
กระบวนการซับซ้อนนี้ส่วนใหญ่ถูก จัดการอัตโนมัติโดยซอฟต์แวร์ปฏิบัติการ

การขยาย Datacenter Network

เมื่อ TPU กลุ่มเดียวไม่เพียงพอ ก็จำเป็นต้องเชื่อมต่อหลายกลุ่มเข้าด้วยกัน
เครือข่ายทั่วไปมีข้อจำกัด จึงมีการนำ การสวิตช์แบบออปติคัล (OCS) มาใช้
ด้วยสิ่งนี้ ดาต้าเซ็นเตอร์ทั้งแห่งจึงสามารถถูกจัดให้เป็น ทรัพยากรการคำนวณขนาดยักษ์เพียงก้อนเดียว ได้
ทั้งแนวทางขยายโมเดลการรันเดิม และ โมเดลการรันแบบอะซิงโครนัสใหม่ทั้งหมด (Pathways) ดำรงอยู่ควบคู่กัน
จึงสามารถรองรับโมเดลที่ใหญ่ขึ้นและรูปแบบการสื่อสารที่ซับซ้อนขึ้นได้

Ceci n’est pas une TPU

TPU รุ่นล่าสุดอาจดูเหนือชั้นมากเมื่อมองจากตัวเลข แต่ หลักการสำคัญยังคงเหมือนเดิมกับช่วงแรกเริ่ม
ยังคงยึดแนวทางการโฟกัสกับการคำนวณที่จำเป็น และ ตัดความซับซ้อนที่ไม่จำเป็นออก
ระบบนี้ไม่สามารถถูกทำซ้ำได้ด้วยสเปกฮาร์ดแวร์เพียงอย่างเดียว
จำเป็นต้องมี คอมไพเลอร์ (XLA), อินเตอร์คอนเนกต์เฉพาะทาง (ICI), การสวิตช์แบบออปติคัล (OCS), และตัวจัดตารางปฏิบัติการ ทำงานร่วมกัน
TPU ไม่ใช่สิ่งประดิษฐ์จากครั้งเดียว แต่เป็น ผลลัพธ์ที่สะสมจากการตัดสินใจธรรมดาหลายร้อยครั้ง

เทคโนโลยีสำคัญที่ควรจำไม่กี่อย่าง

Systolic Array (MXU): หัวใจของ TPU ที่ประมวลผลการคูณเมทริกซ์ได้อย่างมีประสิทธิภาพสูง
XLA compiler: คำนวณลำดับการรันล่วงหน้าเพื่อตัดต้นทุนด้านการควบคุม
BF16: รูปแบบตัวเลขที่ลดต้นทุนฮาร์ดแวร์ลง โดยยังคงช่วงที่จำเป็นสำหรับการเทรนไว้
ICI / OCS: โครงสร้างการสื่อสารเฉพาะทางที่เชื่อมชิป แร็ก และดาต้าเซ็นเตอร์เข้าด้วยกัน
การออกแบบที่ยึด TCO เป็นศูนย์กลาง: วิธีคิดที่เพิ่มประสิทธิภาพต้นทุนการดำเนินงานระยะยาว มากกว่าสมรรถนะชั่วขณะ

3 ความคิดเห็น

crawler 2025-12-15

ผมมีความหวังส่วนตัวอยู่อย่างหนึ่ง
ได้โปรดให้ TPU ถูกใช้งานเชิงพาณิชย์อย่างแพร่หลายมาก จนบริษัทต่าง ๆ อยู่ในสถานการณ์ที่ไม่ต้องใช้ GPU ด้วยเถอะ
เพื่อที่ NVIDIA จะได้กลับมาโฟกัสกับ GPU สำหรับผู้บริโภคทั่วไปอีกครั้ง.....

xguru 2025-12-15

ต้นฉบับเป็นบทความที่ลงลึกเชิงเทคนิคมาก หากสรุปตรง ๆ ก็จะกลายเป็นเพียงการไล่เรียงคำศัพท์เทคนิคเท่านั้น จึงได้เรียบเรียงใหม่เล็กน้อยเพื่อให้เข้าใจพัฒนาการได้ง่ายขึ้น ผู้ที่สนใจรายละเอียดทางเทคนิคสามารถดูต้นฉบับซึ่งอธิบายประกอบด้วยภาพได้

GN⁺ 2025-12-15

ความเห็นบน Hacker News

ในหนังสือ Scaling ML ก็มีส่วนที่ยอดเยี่ยมเกี่ยวกับ TPU ด้วย - How to Think About TPUs
- ฉันเองก็อ่าน บทวิเคราะห์ TPU เชิงลึก ของ Henry Ko ควบคู่กับบทความนี้อย่างสนุกมาก งานของ XLA และ scheduler น่าประทับใจจริง ๆ โครงสร้างมันซับซ้อนกว่า Itanium มาก แต่ก็น่าทึ่งที่ซอฟต์แวร์ยังสามารถดึงศักยภาพของชิปสัตว์ประหลาดนี้มาใช้ได้จริง อยากให้ XLA ถูกนำไปใช้อย่างแพร่หลายกว่านี้ แม้จะเป็นโอเพนซอร์สแต่ก็น่าเสียดายที่วงการยัง ให้ความสนใจไม่มากพอ ดูเหมือนว่า Nvidia เพิ่งเริ่มเดินตามแนวทางคล้ายกันด้วย Tiles อย่างไรก็ตาม เท่าที่ทราบ XLA ยังไม่ได้มีประโยชน์มากนักสำหรับการสเกจูลข้ามหลายเครื่อง
ชอบ การอธิบายเชิงโครงสร้าง ของบทความนี้ ปกติบทความเกี่ยวกับ TPU ส่วนใหญ่มักข้ามส่วนที่ใช้งานจริงไป แต่บทความนี้เชื่อมแนวคิดเข้ากับของจริง ทำให้เข้าใจได้ชัดเจนขึ้นมาก
ระดับความตั้งใจในการออกแบบสถาปัตยกรรม TPU ให้ตรงกับเป้าหมายนั้นไม่ได้จบแค่ดีไซน์รุ่นเดียว Ironwood คือ TPU รุ่นที่ 7 และกระบวนการวิวัฒนาการของมันสำคัญมาก
ฉันยังคิดว่า กฎของมัวร์ ยังไม่ตาย ถ้านับจากปี 1965 ถึง 2025 เป็นเวลา 60 ปี และเพิ่มขึ้นเป็นสองเท่าทุก 2 ปี ก็จะเกิดการเพิ่มแบบสองเท่า 30 ครั้ง ตามทฤษฎีแล้วในปี 2025 ควรจะมีทรานซิสเตอร์ราว 107 พันล้านตัว ซึ่งในความเป็นจริง Apple M1 Ultra ก็มีอยู่ 114 พันล้านตัว
- บางคนตีความกฎของมัวร์ในความหมายที่เข้มกว่าว่า ‘ความเร็วในการเพิ่มเป็นสองเท่าคงที่’ ซึ่งเรื่องนั้นจบไปนานแล้ว แต่ถ้ามองความเร็วดังกล่าวเป็น ค่าคงที่ที่เปลี่ยนแปลงอย่างค่อยเป็นค่อยไป มันก็ยังใช้ได้อยู่ ปัญหาคือถ้าดูแค่ค่าขอบเขตแล้วเอามาเฉลี่ย ก็จะไม่สะท้อนแนวโน้มการเปลี่ยนแปลงในช่วงหลัง
น่าแปลกที่มุมมองว่าจีนอาจ ผลิต TPU ในระดับใหญ่ได้ ภายในไม่กี่ปีไม่ได้กลายเป็นข่าวใหญ่กว่านี้ เพราะถ้าเกิดขึ้นจริงอาจกระทบ Google, NVIDIA และบริษัทอื่น ๆ อย่างมาก เคยมี เหตุการณ์ที่เอกสาร TPUv4 และ v6 ถูก รั่วไหล โดยชาวจีนในช่วงปี 2022~2023 ด้วย และตอนนี้ก็มี สตาร์ตอัปจีนที่สร้าง TPU cluster ของตัวเองและมีรายได้แล้ว
- แต่ การผลิตจริงต่างหากที่ยากที่สุด จีนมีความรู้ด้านการออกแบบเพียงพอ แต่ยังขาดความสามารถในการผลิตชิปจริง การผลิตเซมิคอนดักเตอร์ต้องอาศัย ‘เทคโนโลยีระดับเวทมนตร์’ แบบที่ TSMC มี Intel และ Samsung ก็ทำได้ในระดับหนึ่ง แต่ก็ยังมีช่องว่างอยู่มาก
- ครึ่งหนึ่งของบทความพูดถึง การพึ่งพาซอฟต์แวร์ ระหว่าง TPU, Borb, lilpunet, เครือข่าย optical switching และองค์ประกอบอื่น ๆ ระบบซับซ้อนแบบนี้ไม่ใช่สิ่งที่จะลอกเลียนได้ด้วยเทคโนโลยีการผลิตเพียงอย่างเดียว
- Google ใช้ TPU สำหรับบริการของตัวเอง ดังนั้นต่อให้บริษัทอื่นทำชิปคล้ายกันได้ ก็ไม่ได้กระทบมากนัก ตรงกันข้าม การที่ การผูกขาดตลาดของ NVIDIA ถูกทำลายน่าจะเป็นสิ่งที่เป็นจริงได้มากกว่า ยูนิต FMA/MAC ออกแบบไม่ซับซ้อน ทำให้ตอนนี้แทบทุกบริษัทอย่าง Apple, Qualcomm, AMD, Amazon, Huawei ต่างก็ใส่ ‘TPU’ ของตัวเองกันหมดแล้ว ต่อให้สหรัฐฝึกนักศึกษาจีน 600,000 คน แก่นสำคัญจริง ๆ ก็ยังอยู่ที่ เทคโนโลยีการผลิตและกระบวนการผลิต
- เรื่อง “ฐานนิวเคลียร์กับแรงงาน” ฟังแล้วไม่ค่อยเข้าใจ ไม่รู้ว่าฐานนิวเคลียร์เกี่ยวอะไรกับการผลิตเซมิคอนดักเตอร์ และนักศึกษา 600,000 คนก็ไม่ได้เรียนการออกแบบชิปกันทั้งหมด
- คำพูดที่ว่า TPU จะ ถูกลงมากขึ้นจนน่ากลัว ฟังดูเหมือนประชดเล็ก ๆ
สงสัยว่าตอนนี้เวลาใช้ TPU บน GCP ยังต้องผูกติดกับ ระบบ bucket แปลก ๆ ของ Google อยู่หรือเปล่า เมื่อก่อนมันไม่สะดวกเอามาก ๆ