26 คะแนน โดย GN⁺ 2025-12-15 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • TPU คือ ตัวเร่งความเร็วแบบเฉพาะโดเมนของ Google ที่ตัดทุกอย่างที่ไม่จำเป็นออก เหลือไว้เฉพาะการคำนวณที่จำเป็นต่อการทำดีปเลิร์นนิง
  • เริ่มต้นจากข้อจำกัดในการขยายดาต้าเซ็นเตอร์ในปี 2013 และพัฒนามาถึงรุ่นที่ 7 ‘Ironwood’ ภายในเวลา 12 ปี
  • เมื่อยุคที่ประสิทธิภาพเซมิคอนดักเตอร์ดีขึ้นเองโดยอัตโนมัติสิ้นสุดลง กลยุทธ์การออกแบบเองแทนการรอ จึงกลายเป็นทางเลือกสำคัญ
  • TPU ไม่ใช่แค่ชิปตัวเดียว แต่เป็น ระบบที่ออกแบบร่วมกันระหว่างฮาร์ดแวร์ คอมไพเลอร์ เครือข่าย และซอฟต์แวร์ปฏิบัติการ
  • ยิ่งเปลี่ยนผ่านหลายเจเนอเรชัน จุดศูนย์กลางของการออกแบบก็ยิ่งย้ายจากการแข่งขันด้านประสิทธิภาพไปสู่ พลังงาน การติดตั้งใช้งาน และต้นทุนการดำเนินงาน (TCO)
  • ความสามารถในการแข่งขันของ TPU ไม่ได้มาจากเทคโนโลยีตัวเดียว แต่เกิดจาก ผลรวมของประสบการณ์ด้านการออกแบบและการปฏิบัติการที่สั่งสมมานานกว่า 10 ปี

Something New

  • TPU ไม่ใช่อาวุธลับ แต่เป็น ผลลัพธ์ที่ถูกขัดเกลาผ่านงานวิจัยแบบเปิดเผยและการวนปรับปรุงภายในมาอย่างยาวนาน
  • แทนที่จะขยายดาต้าเซ็นเตอร์ต่อไปเรื่อย ๆ Google เลือก หนทางที่เปลี่ยนวิธีการคำนวณอย่างถึงราก
  • ราวปี 2013 แรงกดดันที่ต้องเพิ่มความจุดาต้าเซ็นเตอร์เป็นสองเท่าและข้อจำกัดด้านเวลา นำไปสู่การกำเนิดของ TPU ภายใน 15 เดือน
  • ในเดือนเมษายน 2025 ที่งาน Google Cloud Next มีการประกาศ TPU Ironwood รุ่นที่ 7 พร้อมตัวเลข 9,216 ชิปต่อ pod, 42.5 Exaflops, 10MW
  • GPU ไม่ได้ถูกสร้างมาสำหรับดีปเลิร์นนิงตั้งแต่แรก และ TPU ถูกออกแบบบนสมมติฐานของการคำนวณโครงข่ายประสาทตั้งแต่ต้น
  • การเลือกเช่นนี้ทำให้ได้เปรียบเชิงโครงสร้าง ไม่ใช่แค่ด้านสมรรถนะการคำนวณ แต่รวมถึง ประสิทธิภาพด้านพลังงานและเสถียรภาพในการปฏิบัติการ
  • นี่ไม่ใช่ผลของ “ความบังเอิญ” แต่เป็นผลสะสมจากการทำซ้ำของ ข้อจำกัด การแลกเปลี่ยน และการออกแบบร่วมกัน

Slowing Down

  • เมื่อ Moore’s Law และ Dennard Scaling อ่อนแรงลง แต่เดิมเพียงแค่รอ CPU รุ่นใหม่โปรแกรมก็เร็วขึ้นได้เอง ทว่า สมมติฐานนั้นพังทลายลงแล้ว
  • แม้จำนวนทรานซิสเตอร์ยังเพิ่มขึ้นต่อเนื่อง แต่ ข้อจำกัดด้านพลังงานและความร้อน กลับขวางการยกระดับประสิทธิภาพ
  • ขณะเดียวกัน โครงข่ายประสาทก็ต้องการข้อมูลที่ใหญ่ขึ้นและโมเดลที่ใหญ่ขึ้น ทำให้ ความต้องการด้านการคำนวณพุ่งสูงอย่างมาก
  • ด้วยเหตุนี้ แทนที่จะเป็น “ชิปที่ทำได้ทุกอย่างค่อนข้างดี” จึงต้องการ “ชิปที่ทำสิ่งเดียวได้ดีอย่างสุดขีด”
  • ความจริงที่ว่าแกนหลักของการคำนวณโครงข่ายประสาทคือ การคำนวณซ้ำที่มีการคูณเมทริกซ์เป็นศูนย์กลาง ทำให้การออกแบบแบบเฉพาะทางเป็นไปได้

The Inference Chip

  • TPU รุ่นแรกมุ่งไปที่ การอนุมาน (Inference) หรือการรันโมเดลที่ฝึกเสร็จแล้ว ไม่ใช่การเทรน
  • TPUv1 ตัด cache, branch prediction, multithreading ออก เพื่อลดต้นทุนด้านการควบคุมให้ต่ำที่สุด
  • แทนที่จะกระจายทรัพยากร มันรวมทุกอย่างไว้กับ Systolic Array (MXU) ที่ประมวลผลการคูณเมทริกซ์ขนาดใหญ่ได้ต่อเนื่องไม่หยุด
  • ระหว่างการทำงาน ชิปจะไม่ตัดสินใจเอง แต่ ทำตามลำดับการรันที่ถูกกำหนดไว้ตั้งแต่ตอนคอมไพล์
  • ผลลัพธ์คือ ด้วยพลังงานเท่ากัน มันสามารถจัดการ งานอนุมานได้มากกว่า GPU และ CPU อย่างมาก

The Training Chip

  • การเทรนต้องการการคำนวณมากกว่าการอนุมานอย่างมาก และต้องการ ช่วงการแทนค่าตัวเลขที่กว้างกว่า
  • ตั้งแต่ TPUv2 เป็นต้นมา โครงสร้างที่เคยเน้นการอนุมานโดยเฉพาะได้ขยายไปสู่ ความยืดหยุ่นสำหรับการเทรน
  • การเปลี่ยนแปลงสำคัญคือ การแยกบทบาทของเมทริกซ์ (MXU), เวกเตอร์ (VPU) และการควบคุม (Scalar Unit)
  • ลำดับการทำงานจะถูก คำนวณและกำหนดไว้ล่วงหน้าโดยคอมไพเลอร์ XLA แล้วชิปจึงทำตามนั้น
  • ยังมีการออกแบบ อินเตอร์คอนเนกต์ความเร็วสูงเฉพาะทาง (ICI) ควบคู่กัน เพื่อให้ TPU หลายตัวทำงานเสมือนเป็นอุปกรณ์เดียว

Scaling Up

  • เมื่อระบบใหญ่ขึ้น คำถามก็ย้ายจาก “มันเร็วแค่ไหน” ไปสู่ “จะรันได้นานแค่ไหนและถูกแค่ไหน”
  • เพื่อสิ่งนี้ จึงวาง หน่วยความจำบนชิปขนาดใหญ่ (CMEM) ไว้ใกล้อุปกรณ์คำนวณ เพื่อลดการเข้าถึง DRAM ที่ช้ากว่า
  • สำหรับงานอย่างระบบแนะนำที่มีข้อมูลแบบ sparse จำนวนมาก ก็มีการเพิ่มยูนิตเฉพาะทางอย่าง SparseCore เข้ามาด้วย
  • การแยกการสื่อสารภายในชิปออกจากการสื่อสารระหว่างชิป ช่วย บรรเทาความซับซ้อนของสายสัญญาณและคอขวดในเชิงโครงสร้าง
  • ทำให้ท้ายที่สุดแล้ว ประสิทธิภาพในการปฏิบัติการ กลายเป็นตัวกำหนดการออกแบบโดยรวม มากกว่าตัวเลขสมรรถนะเพียงอย่างเดียว

Island Hopping

  • ในสภาพแวดล้อมที่ใช้ TPU หลายพันตัว ความขัดข้องไม่ใช่ข้อยกเว้น แต่เป็นสมมติฐานพื้นฐาน
  • เป้าหมายคือระบบที่ไม่หยุดทำงาน หรือก็คือ โครงสร้างที่ดูดซับความล้มเหลวบางส่วนได้
  • งานจะถูกแบ่งไปรันบน TPU หลายตัว แต่ ถูกจัดการให้มองเห็นเสมือนเป็นโปรแกรมเดียว
  • เมื่อเกิดปัญหา ระบบจะเลือก การย้ายงานและเริ่มต้นใหม่อย่างรวดเร็ว แทนการหยุดทั้งหมด
  • กระบวนการซับซ้อนนี้ส่วนใหญ่ถูก จัดการอัตโนมัติโดยซอฟต์แวร์ปฏิบัติการ

การขยาย Datacenter Network

  • เมื่อ TPU กลุ่มเดียวไม่เพียงพอ ก็จำเป็นต้องเชื่อมต่อหลายกลุ่มเข้าด้วยกัน
  • เครือข่ายทั่วไปมีข้อจำกัด จึงมีการนำ การสวิตช์แบบออปติคัล (OCS) มาใช้
  • ด้วยสิ่งนี้ ดาต้าเซ็นเตอร์ทั้งแห่งจึงสามารถถูกจัดให้เป็น ทรัพยากรการคำนวณขนาดยักษ์เพียงก้อนเดียว ได้
  • ทั้งแนวทางขยายโมเดลการรันเดิม และ โมเดลการรันแบบอะซิงโครนัสใหม่ทั้งหมด (Pathways) ดำรงอยู่ควบคู่กัน
  • จึงสามารถรองรับโมเดลที่ใหญ่ขึ้นและรูปแบบการสื่อสารที่ซับซ้อนขึ้นได้

Ceci n’est pas une TPU

  • TPU รุ่นล่าสุดอาจดูเหนือชั้นมากเมื่อมองจากตัวเลข แต่ หลักการสำคัญยังคงเหมือนเดิมกับช่วงแรกเริ่ม
  • ยังคงยึดแนวทางการโฟกัสกับการคำนวณที่จำเป็น และ ตัดความซับซ้อนที่ไม่จำเป็นออก
  • ระบบนี้ไม่สามารถถูกทำซ้ำได้ด้วยสเปกฮาร์ดแวร์เพียงอย่างเดียว
  • จำเป็นต้องมี คอมไพเลอร์ (XLA), อินเตอร์คอนเนกต์เฉพาะทาง (ICI), การสวิตช์แบบออปติคัล (OCS), และตัวจัดตารางปฏิบัติการ ทำงานร่วมกัน
  • TPU ไม่ใช่สิ่งประดิษฐ์จากครั้งเดียว แต่เป็น ผลลัพธ์ที่สะสมจากการตัดสินใจธรรมดาหลายร้อยครั้ง

เทคโนโลยีสำคัญที่ควรจำไม่กี่อย่าง

  • Systolic Array (MXU): หัวใจของ TPU ที่ประมวลผลการคูณเมทริกซ์ได้อย่างมีประสิทธิภาพสูง
  • XLA compiler: คำนวณลำดับการรันล่วงหน้าเพื่อตัดต้นทุนด้านการควบคุม
  • BF16: รูปแบบตัวเลขที่ลดต้นทุนฮาร์ดแวร์ลง โดยยังคงช่วงที่จำเป็นสำหรับการเทรนไว้
  • ICI / OCS: โครงสร้างการสื่อสารเฉพาะทางที่เชื่อมชิป แร็ก และดาต้าเซ็นเตอร์เข้าด้วยกัน
  • การออกแบบที่ยึด TCO เป็นศูนย์กลาง: วิธีคิดที่เพิ่มประสิทธิภาพต้นทุนการดำเนินงานระยะยาว มากกว่าสมรรถนะชั่วขณะ

3 ความคิดเห็น

 
crawler 2025-12-15

ผมมีความหวังส่วนตัวอยู่อย่างหนึ่ง
ได้โปรดให้ TPU ถูกใช้งานเชิงพาณิชย์อย่างแพร่หลายมาก จนบริษัทต่าง ๆ อยู่ในสถานการณ์ที่ไม่ต้องใช้ GPU ด้วยเถอะ
เพื่อที่ NVIDIA จะได้กลับมาโฟกัสกับ GPU สำหรับผู้บริโภคทั่วไปอีกครั้ง.....

 
xguru 2025-12-15

ต้นฉบับเป็นบทความที่ลงลึกเชิงเทคนิคมาก หากสรุปตรง ๆ ก็จะกลายเป็นเพียงการไล่เรียงคำศัพท์เทคนิคเท่านั้น จึงได้เรียบเรียงใหม่เล็กน้อยเพื่อให้เข้าใจพัฒนาการได้ง่ายขึ้น ผู้ที่สนใจรายละเอียดทางเทคนิคสามารถดูต้นฉบับซึ่งอธิบายประกอบด้วยภาพได้

 
GN⁺ 2025-12-15
ความเห็นบน Hacker News
  • ในหนังสือ Scaling ML ก็มีส่วนที่ยอดเยี่ยมเกี่ยวกับ TPU ด้วย - How to Think About TPUs
    • ฉันเองก็อ่าน บทวิเคราะห์ TPU เชิงลึก ของ Henry Ko ควบคู่กับบทความนี้อย่างสนุกมาก งานของ XLA และ scheduler น่าประทับใจจริง ๆ โครงสร้างมันซับซ้อนกว่า Itanium มาก แต่ก็น่าทึ่งที่ซอฟต์แวร์ยังสามารถดึงศักยภาพของชิปสัตว์ประหลาดนี้มาใช้ได้จริง อยากให้ XLA ถูกนำไปใช้อย่างแพร่หลายกว่านี้ แม้จะเป็นโอเพนซอร์สแต่ก็น่าเสียดายที่วงการยัง ให้ความสนใจไม่มากพอ ดูเหมือนว่า Nvidia เพิ่งเริ่มเดินตามแนวทางคล้ายกันด้วย Tiles อย่างไรก็ตาม เท่าที่ทราบ XLA ยังไม่ได้มีประโยชน์มากนักสำหรับการสเกจูลข้ามหลายเครื่อง
  • ชอบ การอธิบายเชิงโครงสร้าง ของบทความนี้ ปกติบทความเกี่ยวกับ TPU ส่วนใหญ่มักข้ามส่วนที่ใช้งานจริงไป แต่บทความนี้เชื่อมแนวคิดเข้ากับของจริง ทำให้เข้าใจได้ชัดเจนขึ้นมาก
  • ระดับความตั้งใจในการออกแบบสถาปัตยกรรม TPU ให้ตรงกับเป้าหมายนั้นไม่ได้จบแค่ดีไซน์รุ่นเดียว Ironwood คือ TPU รุ่นที่ 7 และกระบวนการวิวัฒนาการของมันสำคัญมาก
  • ฉันยังคิดว่า กฎของมัวร์ ยังไม่ตาย ถ้านับจากปี 1965 ถึง 2025 เป็นเวลา 60 ปี และเพิ่มขึ้นเป็นสองเท่าทุก 2 ปี ก็จะเกิดการเพิ่มแบบสองเท่า 30 ครั้ง ตามทฤษฎีแล้วในปี 2025 ควรจะมีทรานซิสเตอร์ราว 107 พันล้านตัว ซึ่งในความเป็นจริง Apple M1 Ultra ก็มีอยู่ 114 พันล้านตัว
    • บางคนตีความกฎของมัวร์ในความหมายที่เข้มกว่าว่า ‘ความเร็วในการเพิ่มเป็นสองเท่าคงที่’ ซึ่งเรื่องนั้นจบไปนานแล้ว แต่ถ้ามองความเร็วดังกล่าวเป็น ค่าคงที่ที่เปลี่ยนแปลงอย่างค่อยเป็นค่อยไป มันก็ยังใช้ได้อยู่ ปัญหาคือถ้าดูแค่ค่าขอบเขตแล้วเอามาเฉลี่ย ก็จะไม่สะท้อนแนวโน้มการเปลี่ยนแปลงในช่วงหลัง
  • น่าแปลกที่มุมมองว่าจีนอาจ ผลิต TPU ในระดับใหญ่ได้ ภายในไม่กี่ปีไม่ได้กลายเป็นข่าวใหญ่กว่านี้ เพราะถ้าเกิดขึ้นจริงอาจกระทบ Google, NVIDIA และบริษัทอื่น ๆ อย่างมาก เคยมี เหตุการณ์ที่เอกสาร TPUv4 และ v6 ถูก รั่วไหล โดยชาวจีนในช่วงปี 2022~2023 ด้วย และตอนนี้ก็มี สตาร์ตอัปจีนที่สร้าง TPU cluster ของตัวเองและมีรายได้แล้ว
    • แต่ การผลิตจริงต่างหากที่ยากที่สุด จีนมีความรู้ด้านการออกแบบเพียงพอ แต่ยังขาดความสามารถในการผลิตชิปจริง การผลิตเซมิคอนดักเตอร์ต้องอาศัย ‘เทคโนโลยีระดับเวทมนตร์’ แบบที่ TSMC มี Intel และ Samsung ก็ทำได้ในระดับหนึ่ง แต่ก็ยังมีช่องว่างอยู่มาก
    • ครึ่งหนึ่งของบทความพูดถึง การพึ่งพาซอฟต์แวร์ ระหว่าง TPU, Borb, lilpunet, เครือข่าย optical switching และองค์ประกอบอื่น ๆ ระบบซับซ้อนแบบนี้ไม่ใช่สิ่งที่จะลอกเลียนได้ด้วยเทคโนโลยีการผลิตเพียงอย่างเดียว
    • Google ใช้ TPU สำหรับบริการของตัวเอง ดังนั้นต่อให้บริษัทอื่นทำชิปคล้ายกันได้ ก็ไม่ได้กระทบมากนัก ตรงกันข้าม การที่ การผูกขาดตลาดของ NVIDIA ถูกทำลายน่าจะเป็นสิ่งที่เป็นจริงได้มากกว่า ยูนิต FMA/MAC ออกแบบไม่ซับซ้อน ทำให้ตอนนี้แทบทุกบริษัทอย่าง Apple, Qualcomm, AMD, Amazon, Huawei ต่างก็ใส่ ‘TPU’ ของตัวเองกันหมดแล้ว ต่อให้สหรัฐฝึกนักศึกษาจีน 600,000 คน แก่นสำคัญจริง ๆ ก็ยังอยู่ที่ เทคโนโลยีการผลิตและกระบวนการผลิต
    • เรื่อง “ฐานนิวเคลียร์กับแรงงาน” ฟังแล้วไม่ค่อยเข้าใจ ไม่รู้ว่าฐานนิวเคลียร์เกี่ยวอะไรกับการผลิตเซมิคอนดักเตอร์ และนักศึกษา 600,000 คนก็ไม่ได้เรียนการออกแบบชิปกันทั้งหมด
    • คำพูดที่ว่า TPU จะ ถูกลงมากขึ้นจนน่ากลัว ฟังดูเหมือนประชดเล็ก ๆ
  • สงสัยว่าตอนนี้เวลาใช้ TPU บน GCP ยังต้องผูกติดกับ ระบบ bucket แปลก ๆ ของ Google อยู่หรือเปล่า เมื่อก่อนมันไม่สะดวกเอามาก ๆ