ชิปสองรุ่นสำหรับยุคเอเจนต์: TPU รุ่นที่ 8 ของ Google
(blog.google)- Google เปิดตัว TPU รุ่นที่ 8 สองแบบ ซึ่งรวบรวมประสบการณ์การพัฒนา TPU มากกว่า 10 ปี โดยใช้สถาปัตยกรรมที่แยกเฉพาะสำหรับ TPU 8t ที่เน้นการฝึกโมเดลขนาดใหญ่ และ TPU 8i ที่เน้นการอนุมานความเร็วสูง
- TPU 8t สามารถขยายซูเปอร์พ็อดเดี่ยวได้ถึง 9,600 ชิป, 121 ExaFlops และเพิ่มสมรรถนะการประมวลผลต่อพ็อดราว 3 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
- TPU 8i ถูกออกแบบใหม่ให้เหมาะกับการอนุมานแบบเอเจนต์ โดยเน้นการปรับแบนด์วิดท์หน่วยความจำและเวลาแฝง พร้อมเพิ่ม on-chip SRAM, โฮสต์ Axion CPU และปรับปรุงเครือข่ายสำหรับ MoE จนทำได้ ประสิทธิภาพต่อค่าใช้จ่ายดีขึ้น 80%
- ชิปทั้งสองรุ่นทำงานบนโฮสต์ Axion CPU ที่ใช้ ARM ซึ่ง Google ออกแบบเอง และให้ประสิทธิภาพต่อวัตต์ดีขึ้นสูงสุด 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
- เป็นกลยุทธ์โครงสร้างพื้นฐานที่ แยกการเพิ่มประสิทธิภาพระหว่างการฝึกและการอนุมาน เพื่อรองรับยุคที่ AI agent ต้องอนุมาน วางแผน และลงมือทำอย่างต่อเนื่อง โดยมีกำหนดเปิดให้ใช้งานทั่วไปในช่วงครึ่งหลังของปีนี้ และใช้งานได้เป็นส่วนหนึ่งของ Google AI Hypercomputer
ภาพรวม TPU รุ่นที่ 8
- Google เปิดตัว Tensor Processor Unit(TPU) รุ่นที่ 8 ในงาน Google Cloud Next โดยประกอบด้วยสองสถาปัตยกรรมคือ TPU 8t สำหรับการฝึก และ TPU 8i สำหรับการอนุมาน
- ออกแบบมาเพื่อขับเคลื่อนซูเปอร์คอมพิวเตอร์แบบคัสตอม และครอบคลุมทั้งการฝึกโมเดลล้ำสมัย การพัฒนาเอเจนต์ และเวิร์กโหลดการอนุมานขนาดใหญ่
- Google ใช้ TPU ขับเคลื่อนฟาวน์เดชันโมเดลหลักรวมถึง Gemini มาหลายปี และในรุ่นที่ 8 นี้มุ่งให้ทั้งสเกล ประสิทธิภาพ และสมรรถนะในงานฝึก งานเสิร์ฟโมเดล และเวิร์กโหลดแบบ agentic
- ในยุคของ AI agent โมเดลต้องอนุมานปัญหา รันเวิร์กโฟลว์หลายขั้นตอน และเรียนรู้จากการกระทำของตัวเองในลูปต่อเนื่อง จึงทำให้โครงสร้างพื้นฐานต้องรองรับข้อกำหนดใหม่
- ออกแบบร่วมกับ Google DeepMind เพื่อรองรับเวิร์กโหลด AI ที่ท้าทายที่สุดและปรับตัวตามสถาปัตยกรรมโมเดลที่เปลี่ยนแปลงอยู่เสมอ
ปรัชญาการออกแบบที่สั่งสมมากว่า 10 ปี
- TPU ได้วางมาตรฐานขององค์ประกอบซูเปอร์คอมพิวติ้งสำหรับ ML มาอย่างต่อเนื่อง ไม่ว่าจะเป็นการคำนวณเชิงตัวเลขแบบคัสตอม, liquid cooling, และอินเตอร์คอนเนกต์แบบคัสตอม โดยรุ่นที่ 8 คือผลรวมของการพัฒนากว่า 10 ปี
- หลักการออกแบบสำคัญคือการ co-design ซิลิคอนร่วมกับฮาร์ดแวร์ เครือข่าย และซอฟต์แวร์ รวมถึงสถาปัตยกรรมโมเดลและความต้องการของแอปพลิเคชัน เพื่อให้ได้ทั้งประสิทธิภาพพลังงานและสมรรถนะสูงสุดที่ดีขึ้นอย่างมาก
- Google ยกตัวอย่างว่า Citadel Securities เลือกใช้ TPU สำหรับเวิร์กโหลด AI ของตน เป็นกรณีศึกษาขององค์กรชั้นนำ
เหตุผลที่แยกการฝึกและการอนุมาน
- วงจรการพัฒนาฮาร์ดแวร์ยาวนานกว่าซอฟต์แวร์มาก จึงต้องคาดการณ์เทคโนโลยีและความต้องการล่วงหน้าตั้งแต่ตอนออกแบบ TPU แต่ละรุ่น
- Google คาดการณ์มาหลายปีแล้วว่า ความต้องการด้านการอนุมานจะเพิ่มขึ้น จากการนำฟรอนเทียร์ AI โมเดลไปใช้งานจริงในโปรดักชัน
- การเกิดขึ้นของ AI agent ทำให้ข้อกำหนดของการฝึกและการเสิร์ฟโมเดลแตกต่างกัน จึงมองว่าการมีชิปเฉพาะทางแยกกันจะเป็นประโยชน์ต่อชุมชนมากกว่า
- TPU 8t ถูกปรับให้เหมาะกับ การฝึกขนาดใหญ่ ด้วยทรูพุตการประมวลผลที่มากกว่าและแบนด์วิดท์สำหรับการ scale-up ที่สูงกว่า
- TPU 8i ถูกปรับให้เหมาะกับ เวิร์กโหลดการอนุมานที่ไวต่อเวลาแฝง ด้วยแบนด์วิดท์หน่วยความจำที่มากกว่า เพราะเมื่อเอเจนต์โต้ตอบกันในสเกลใหญ่ แม้ความไม่มีประสิทธิภาพเพียงเล็กน้อยก็จะถูกขยายผล
- แม้ชิปทั้งสองจะรองรับเวิร์กโหลดได้หลากหลาย แต่การแยกให้เฉพาะทางช่วยเพิ่มประสิทธิภาพได้อย่างมาก
TPU 8t: ขุมพลังสำหรับการฝึกโดยเฉพาะ
- เป้าหมายคือย่นรอบการพัฒนาฟรอนเทียร์โมเดลจาก หลายเดือนเหลือหลายสัปดาห์
- ผสานทรูพุตการประมวลผลระดับสูงสุด หน่วยความจำร่วม และแบนด์วิดท์ระหว่างชิป เข้ากับประสิทธิภาพพลังงานที่เหมาะสมและเวลาคำนวณที่เกิดประโยชน์สูงสุดอย่างสมดุล
- ให้ สมรรถนะการประมวลผลต่อพ็อดสูงขึ้นราว 3 เท่า เมื่อเทียบกับรุ่นก่อนหน้า
-
การขยายขนาดมหาศาล(Massive Scale)
- ซูเปอร์พ็อด TPU 8t เดี่ยวขยายได้ถึง 9,600 ชิป, shared HBM 2 เพตะไบต์
- แบนด์วิดท์ระหว่างชิปเพิ่มขึ้น 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
- ให้สมรรถนะการประมวลผล 121 ExaFlops ทำให้โมเดลที่ซับซ้อนที่สุดสามารถใช้พูลหน่วยความจำขนาดใหญ่ชุดเดียวได้
-
การใช้ทรัพยากรสูงสุด(Maximum Utilization)
- รวมการเข้าถึงสตอเรจที่ เร็วขึ้น 10 เท่า
- ใช้ TPUDirect เพื่อดึงข้อมูลเข้าสู่ TPU โดยตรง ช่วยให้ระบบ end-to-end ใช้งานทรัพยากรได้สูงสุด
-
การสเกลแบบเกือบเชิงเส้น(Near-Linear Scaling)
- ผสาน Virgo Network แบบใหม่เข้ากับซอฟต์แวร์ JAX และ Pathways เพื่อสเกลแบบเกือบเชิงเส้นได้ถึง 1 ล้านชิป ในคลัสเตอร์เชิงตรรกะเดียว
-
ความน่าเชื่อถือและความพร้อมใช้งาน
- ตั้งเป้า goodput(เวลาคำนวณที่ก่อให้เกิดผลผลิตจริง) มากกว่า 97%
- มีความสามารถ RAS(Reliability, Availability, Serviceability) แบบครบถ้วน
- เทเลเมทรีแบบเรียลไทม์ครอบคลุมหลายหมื่นชิป
- ตรวจจับลิงก์ ICI ที่ผิดพลาดโดยอัตโนมัติและ reroute ได้โดยไม่ต้องหยุดงาน
- ใช้ OCS(Optical Circuit Switching) เพื่อปรับโครงสร้างฮาร์ดแวร์รอบจุดขัดข้องโดยไม่ต้องมีมนุษย์เข้ามาแทรกแซง
- ในสเกลการฝึกฟรอนเทียร์โมเดล ความขัดข้องของฮาร์ดแวร์ ความหน่วงของเครือข่าย และการรีสตาร์ตจากเช็กพอยต์ล้วนเป็นเวลาที่ไม่ได้ใช้ฝึก และความต่างเพียง 1 จุดเปอร์เซ็นต์อาจแปลเป็นเวลาฝึกหลายวัน
TPU 8i: เอนจินสำหรับการอนุมาน
- ในยุค agentic ผู้ใช้คาดหวังประสบการณ์ที่สามารถถาม มอบหมายงาน และรับผลลัพธ์ได้ จึงออกแบบมาให้เหมาะกับงานที่เอเจนต์เฉพาะทางหลายตัว swarming และทำงานร่วมกันในโฟลว์ที่ซับซ้อน
- Google ออกแบบสแต็กใหม่เพื่อขจัด “ผลกระทบแบบห้องรอ” และใช้ 4 นวัตกรรมหลัก
-
ทลายกำแพงหน่วยความจำ(Breaking the Memory Wall)
- มาพร้อม HBM 288GB และ on-chip SRAM 384MB ซึ่งมากกว่ารุ่นก่อนหน้า 3 เท่า
- ทำให้สามารถเก็บ active working set ทั้งหมดของโมเดลไว้บนชิป เพื่อป้องกันไม่ให้โปรเซสเซอร์ว่างงาน
-
ประสิทธิภาพบนพื้นฐาน Axion
- เพิ่มจำนวนโฮสต์ CPU จริงต่อเซิร์ฟเวอร์เป็น 2 เท่า และใช้ Axion CPU ที่ใช้ ARM ซึ่ง Google ออกแบบเอง
- ปรับประสิทธิภาพทั้งระบบผ่านการแยก NUMA(Non-Uniform Memory Architecture)
-
การขยายโมเดล MoE
- เพิ่มแบนด์วิดท์ ICI เป็น 19.2 Tb/s หรือ 2 เท่า เพื่อรองรับโมเดล Mixture of Expert(MoE) รุ่นล่าสุด
- ใช้ สถาปัตยกรรม Boardfly ใหม่เพื่อลด network diameter สูงสุดลงมากกว่า 50% ทำให้ทำงานเป็นยูนิตที่มีความหน่วงต่ำและเชื่อมโยงกันแน่นแฟ้น
-
กำจัดเวลาแฝง(Eliminating Lag)
- CAE(Collectives Acceleration Engine) แบบ on-chip ใหม่ช่วย offload การคำนวณแบบ global และลดเวลาแฝงบนชิปได้สูงสุด 5 เท่า
-
ประสิทธิภาพต่อค่าใช้จ่าย
- ให้ ประสิทธิภาพต่อดอลลาร์ดีขึ้น 80% เมื่อเทียบกับรุ่นก่อนหน้า ทำให้รองรับปริมาณงานลูกค้าได้เกือบ 2 เท่าในต้นทุนเท่าเดิม
ออกแบบร่วมกับ Gemini และเปิดให้ทุกคนใช้
- TPU รุ่นที่ 8 คือการแสดงออกล่าสุดของ ปรัชญา co-design ที่ออกแบบทุกสเปกเพื่อแก้ปัญหาที่ใหญ่ที่สุดของ AI
- โทโพโลยี Boardfly: ออกแบบให้สอดคล้องกับความต้องการด้านการสื่อสารของโมเดลการอนุมานที่ดีที่สุดในปัจจุบัน
- ความจุ SRAM ของ TPU 8i: คำนวณให้เหมาะกับขนาด KV cache footprint ของโมเดลอนุมานระดับโปรดักชัน
- เป้าหมายแบนด์วิดท์ของ Virgo Network: มาจากข้อกำหนดด้านการทำงานขนานสำหรับการฝึกโมเดลระดับล้านล้านพารามิเตอร์
- ชิปทั้งสองรุ่นเป็นครั้งแรกที่ทำงานบน Axion CPU host ที่ใช้ ARM ซึ่ง Google ออกแบบเอง ทำให้เพิ่มประสิทธิภาพได้ทั้งระบบ ไม่ใช่เฉพาะตัวชิป
-
เฟรมเวิร์กและการเข้าถึง
- รองรับ JAX, MaxText, PyTorch, SGLang, vLLM แบบเนทีฟ
- มี การเข้าถึงแบบ bare metal ให้เข้าถึงฮาร์ดแวร์โดยตรงโดยไม่มี virtualized overhead
- สนับสนุนโอเพนซอร์ส เช่น อิมพลีเมนเทชันอ้างอิง MaxText และ Tunix สำหรับ reinforcement learning เพื่อรองรับเส้นทางหลักตั้งแต่การพัฒนาไปจนถึงการนำขึ้นโปรดักชัน
การออกแบบเพื่อประสิทธิภาพพลังงานในสเกลใหญ่
- ปัจจุบันดาต้าเซ็นเตอร์ไม่ได้ติดข้อจำกัดแค่การจัดหาชิป แต่ พลังงานคือข้อจำกัดหลักที่ผูกระบบไว้
- Google ปรับประสิทธิภาพครอบคลุมทั้งสแต็ก และใช้ การจัดการพลังงานแบบบูรณาการ ที่ปรับการใช้พลังงานแบบไดนามิกตามความต้องการจริงแบบเรียลไทม์
- ทั้ง TPU 8t และ TPU 8i ให้ ประสิทธิภาพต่อวัตต์ดีขึ้นสูงสุด 2 เท่า เมื่อเทียบกับรุ่นก่อนหน้า (Ironwood)
- ประสิทธิภาพไม่ได้เป็นเพียงตัวชี้วัดระดับชิป แต่เป็น พันธสัญญาระดับระบบ ตั้งแต่ซิลิคอนไปจนถึงดาต้าเซ็นเตอร์
- รวมการเชื่อมต่อเครือข่ายไว้บนชิปเดียวกับการประมวลผล ช่วยลดต้นทุนพลังงานของการเคลื่อนย้ายข้อมูลภายใน TPU pod ได้อย่างมาก
- ดาต้าเซ็นเตอร์ก็ถูก co-design ร่วมกับ TPU เช่นกัน ทำให้พลังประมวลผลต่อหน่วยพลังงานดีขึ้น 6 เท่า เมื่อเทียบกับ 5 ปีก่อน
- ชิปทั้งสองรุ่นรองรับด้วยเทคโนโลยี liquid cooling รุ่นที่ 4 เพื่อรักษาความหนาแน่นของสมรรถนะในระดับที่ระบบระบายความร้อนด้วยอากาศทำไม่ได้
- การเป็นเจ้าของทั้งสแต็กตั้งแต่โฮสต์ Axion ไปจนถึงตัวเร่งความเร็ว ทำให้ Google ปรับประสิทธิภาพพลังงานระดับระบบได้ในแบบที่เป็นไปไม่ได้หากออกแบบโฮสต์และชิปแยกจากกัน
โครงสร้างพื้นฐานสำหรับยุค agentic
- ทุกการเปลี่ยนผ่านครั้งสำคัญของการประมวลผลต้องมาพร้อมนวัตกรรมด้านโครงสร้างพื้นฐาน และยุค agentic ก็เช่นกัน
- โครงสร้างพื้นฐานต้องวิวัฒน์เพื่อรองรับความต้องการที่เอเจนต์อัตโนมัติจะต้องอนุมาน วางแผน ลงมือทำ และเรียนรู้ในลูปต่อเนื่อง
- TPU 8t และ TPU 8i คือคำตอบต่อโจทย์นี้ เป็น สถาปัตยกรรมเฉพาะทางสองแบบ ที่นิยามใหม่ทั้งการสร้าง AI โมเดลที่ดีที่สุด การประสานงาน agent swarm อย่างสมบูรณ์ และการจัดการงานอนุมานที่ซับซ้อนที่สุด
- ชิปทั้งสองรุ่นมีกำหนด เปิดให้ใช้งานทั่วไปในช่วงครึ่งหลังของปีนี้
- ใช้งานได้เป็นส่วนหนึ่งของ AI Hypercomputer ของ Google
- ซึ่งรวมฮาร์ดแวร์เฉพาะงาน (คอมพิวต์ สตอเรจ เครือข่าย), ซอฟต์แวร์แบบเปิด (เฟรมเวิร์ก เอนจินการอนุมาน) และโมเดลการใช้งานที่ยืดหยุ่น (orchestration, การจัดการคลัสเตอร์, delivery model) ไว้ในสแต็กเดียว
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ฉันรู้สึกว่า Gemini 3 ได้แสดงให้เห็นไปแล้วว่าการฝึกแบบ เน้นประสิทธิภาพ ไปได้ไกลแค่ไหน ฉันเดาว่า Pro กับ Flash น่าจะเล็กกว่าโมเดลระดับ Opus หรือ GPT-5 ราว 5 ถึง 10 เท่า การเรียกใช้เครื่องมือมักพังบ่อย และโดยรวมก็อ่อนในงานแบบ agentic เลยดูเหมือนว่ายังขัดเกลาทั้งด้านการให้เหตุผลและการลงมือทำไม่พอ ถึงอย่างนั้นถ้ามองเฉพาะการแก้ปัญหาแบบเพียว ๆ โดยไม่ใช้เครื่องมือหรือการค้นหา มันก็ดูสูสีกับ Opus และ GPT แต่ขนาดเหมือนจะเล็กกว่ามาก ถ้าวันหนึ่ง Google เลิกทำต้นแบบช่วงพรีวิวแล้วออกโมเดลจริงจังแบบตัวเต็ม ฉันคิดว่าพวกเขาอาจทำให้ทุกคนตกใจด้วยโมเดลที่ก้าวล้ำกว่าสถานะ SOTA ปัจจุบันไปราวหนึ่งรุ่น โมเดลที่ออกมาจนถึงตอนนี้ให้ความรู้สึกเหมือน ต้นแบบ ที่รีบเข็นเข้า GA เพื่อโชว์นักลงทุนและใส่เป็น proof of concept ในไลน์ผลิตภัณฑ์มากกว่า
ตอนนี้ถ้าจะทำ AI ขนาดใหญ่จริง ๆ ก็ดูเหมือนแทบต้องซื้อจาก NVidia หรือเช่าจาก Google เท่านั้น และ Google สามารถออกแบบชิป เอนจิน และระบบจากมุมมอง ทั้งดาต้าเซ็นเตอร์ ได้ เลยปรับแต่งในจุดที่ผู้ขายชิปซึ่งรวมศูนย์อยู่ทำไม่ได้ เพราะงั้นฉันเดาว่ายิ่งสเกลใหญ่จริง ระบบของ Google จะยิ่ง คุ้มต้นทุน กว่าเสมอ อ้างอิงไว้ก่อนว่าฉันถือสถานะ long ใน GOOG ด้วย ส่วนหนึ่งก็เพราะเหตุผลนี้
ระหว่างที่บริษัทอื่น ๆ ดึงความสนใจในรอบข่าวไป Google ดูเหมือนกำลังสะสมส่วนแบ่งตลาดผู้บริโภคอย่างเงียบ ๆ บนกระแสที่ แข็งแกร่งขึ้นเรื่อย ๆ อาจเพราะทำ AI แบบบูรณาการแนวดิ่งมาตั้งแต่แรก ปัญหาโครงสร้างพื้นฐานเลยแทบไม่เห็นเลย ช่วงหนึ่งมันเคยดูเหมือนบริษัทที่หมดสภาพไปแล้ว แต่ตอนนี้กลับให้ความรู้สึกเหมือนน้ำขึ้นที่ขยายออกทุกทิศทาง
จากมุมของคนที่ใช้ทั้ง Gemini, ChatGPT และ Claude ฉันรู้สึกว่า Gemini ใช้ token น้อยกว่ามาก อย่างสม่ำเสมอเมื่อเทียบกับอีกสองตัว สุดท้ายเลยดูเหมือนเหตุที่ Gemini ยังอยู่แค่ระดับนี้เป็นเพราะมี thinking budget เล็กกว่า Google น่าจะมีทั้ง compute มากที่สุดและโครงสร้างต้นทุนต่ำที่สุดแล้วด้วยซ้ำ เลยยิ่งสงสัยว่าทำไมไม่ดัน compute ฝั่งการให้เหตุผลแรง ๆ แบบอีกสองเจ้า ไม่รู้ว่าเป็นเพราะภาระจากบริการอื่น หรือเป็นกลยุทธ์ที่เน้นการฝึกมากกว่า แต่เป็นจุดที่น่าสนใจมาก
คำอธิบายว่า superpod ของ TPU 8t หนึ่งชุดขยายได้ถึง 9,600 ชิป พร้อมหน่วยความจำแบนด์วิดท์สูงแบบแชร์ขนาด 2PB นั้น น่าประทับใจ มาก ฉันไม่ได้เชี่ยวชาญด้านนี้ แต่เท่าที่มอง อย่างน้อยมันก็ดูเป็น ข้อได้เปรียบในการแข่งขัน ที่ค่อนข้างใหญ่ของ Google
เรื่องที่ TPU 8t และ TPU 8i มีประสิทธิภาพต่อวัตต์สูงขึ้นได้ถึง 2 เท่าเมื่อเทียบกับรุ่นก่อนนั้น น่าประทับใจ มาก ยิ่งน่าสนใจตรงที่รุ่นก่อนก็ใหม่มากถึงขั้นเป็นผลิตภัณฑ์ปี 2025 และยังเห็นชัดว่าฮาร์ดแวร์สำหรับการฝึกกับการอนุมานถูกแยกกัน ฉันเลยสงสัยว่าบริษัทที่ใช้ฮาร์ดแวร์ของ NV ก็แยกแบบนี้เหมือนกันหรือเปล่า หรือเป็นแนว อเนกประสงค์ มากกว่า
ฉันใช้ Gemini คู่กับ Junie ของ JetBrains อยู่ และแม้ Junie เองจะยังไม่ดีเท่า Claude Code แต่มันก็ นำหน้า เครื่องมือของ Google ตอนนี้ไปไกลพอสมควร ด้วยชุดนี้ ฉันได้ ผลลัพธ์ที่สม่ำเสมอ ดีมากในราคาที่ค่อนข้างถูก
ในบรรดาผู้ให้บริการโมเดลอนุมานรายใหญ่ Google ให้ความรู้สึกว่าเป็นฝั่งที่มีนโยบาย เลิกใช้โมเดล น่ารำคาญที่สุดฝั่งหนึ่ง พอครบ 1 ปีหลังเปิดตัวเป๊ะก็ลบโมเดลทิ้งแล้วบังคับย้ายไปเจเนอเรชันถัดไป ทั้งที่ใช้ซิลิคอนของตัวเองแท้ ๆ ฉันนึกว่าจะเสถียรกว่านี้ แต่กลับตรงกันข้าม ส่วน rate limiting ก็เข้มกว่า OpenAI มาก เลยสงสัยว่านี่เป็นเพราะ TPU หรือแค่การตัดสินใจเชิงนโยบายแปลก ๆ กันแน่
ถ้าจะมีผู้ชนะสุดท้ายของ AI ฉันนึกภาพออกอยู่ไม่กี่แบบ คือไม่ Google ที่มี สแตกครบทั้งก้อน ก็ Apple ที่กระจายไซต์ edge ที่รองรับ AI ได้มากที่สุดน่าจะเป็นฝ่ายชนะ
ลิงก์นี้มีคำอธิบายสถาปัตยกรรมแบบละเอียดกว่าอยู่ https://cloud.google.com/blog/products/compute/tpu-8t-and-tpu-8i-technical-deep-dive