Ironwood - TPU รุ่นแรกของ Google สำหรับยุคแห่งการอนุมาน

(blog.google)

6 คะแนน โดย GN⁺ 2025-04-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Google เปิดตัว Ironwood ซึ่งเป็น Tensor Processing Unit (TPU) รุ่นที่ 7
Ironwood คือ TPU ตัวแรกที่ออกแบบมาเฉพาะสำหรับการอนุมานของ AI และเป็นรุ่นที่ทรงพลังและประหยัดพลังงานที่สุดเท่าที่เคยมีมา
ออกแบบมาสำหรับการรันโมเดล AI สมรรถนะสูง เช่น large language model (LLM) และ Mixture of Experts (MoE)
ขยายได้สูงสุด 9,216 ชิป และให้สมรรถนะการประมวลผล 42.5 exaflops
นั่นคือมากกว่าซูเปอร์คอมพิวเตอร์ที่เร็วที่สุดในโลกอย่าง El Capitan กว่า 24 เท่า

ยุคแห่งการอนุมานที่เกิดขึ้นได้ด้วย Ironwood

หาก AI แบบเดิมทำงานโดยตอบสนองต่อคำขอของผู้ใช้ Ironwood จะเป็นรากฐานสำหรับยุคของ AI ที่ตีความข้อมูลเชิงรุกและสร้างข้อมูลเชิงลึกได้
ในยุคแห่งการอนุมานนี้ AI จะ รวบรวมและวิเคราะห์ข้อมูลแทนผู้ใช้ เพื่อให้ได้ผลลัพธ์ที่ลึกซึ้งยิ่งขึ้น
Ironwood มีความสามารถด้าน การประมวลผลแบบขนานขนาดใหญ่และการเข้าถึงข้อมูลความเร็วสูง เพื่อรองรับความต้องการใหม่ของ AI ลักษณะนี้

ฮาร์ดแวร์และสมรรถนะของ Ironwood

เมื่อจัดเป็น TPU pod ที่ประกอบด้วย 9,216 ชิป จะให้สมรรถนะ 42.5 exaflops
4,614 TFLOPs ต่อชิป รองรับทั้งการฝึกและการอนุมานของโมเดล LLM และ MoE ขนาดใหญ่
ปรับปรุงความสามารถของ SparseCore เพื่อเร่งการประมวลผล embedding ขนาดมหึมา และนำไปใช้ได้ในหลายด้าน เช่น การเงินและวิทยาศาสตร์
สามารถบริหารจัดการชิป Ironwood หลายหมื่นตัวได้อย่างมีประสิทธิภาพผ่านซอฟต์แวร์ Pathways

คุณลักษณะทางเทคนิคหลักของ Ironwood

อัตราส่วน ประสิทธิภาพต่อการใช้พลังงาน ดีขึ้น 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
- ประสิทธิภาพด้านพลังงานสูงกว่า Trillium ราว 30 เท่า
- รักษาสมรรถนะได้อย่างเสถียรแม้ภายใต้งานหนักต่อเนื่อง ด้วยเทคโนโลยีระบายความร้อนด้วยของเหลวสมรรถนะสูง
เพิ่มความจุของ high-bandwidth memory (HBM) อย่างมาก
- 192GB ต่อชิป มากกว่า Trillium 6 เท่า
- เหมาะกับการประมวลผลโมเดลและชุดข้อมูลขนาดใหญ่
โฆษณา
ปรับปรุง แบนด์วิดท์หน่วยความจำ HBM
- 7.2 TBps ต่อชิป เพิ่มขึ้น 4.5 เท่าเมื่อเทียบกับ Trillium
ปรับปรุงแบนด์วิดท์ Inter-Chip Interconnect (ICI)
- 1.2 Tbps แบบสองทิศทาง เพิ่มขึ้น 1.5 เท่าเมื่อเทียบกับ Trillium
- การสื่อสารระหว่างชิปที่รวดเร็ว ทำให้เหมาะกับการฝึกและการอนุมานแบบกระจายขนาดใหญ่

ผลกระทบและศักยภาพการใช้งานของ Ironwood

Ironwood เป็นองค์ประกอบหลักของสถาปัตยกรรม Google Cloud Hypercomputer และได้รับการปรับแต่งสำหรับความต้องการของ generative AI ยุคถัดไป
โมเดล AI ล่าสุดอย่าง Gemini 2.5 และ AlphaFold ก็ทำงานบนพื้นฐานของ TPU เช่นกัน
ลูกค้า Google Cloud จะสามารถใช้ Ironwood เพื่อจัดการเวิร์กโหลด AI ด้วย สมรรถนะสูง, latency ต่ำ, และประสิทธิภาพพลังงานที่ดีขึ้น
มีกำหนดเปิดให้ลูกค้าใช้งานภายในปี 2025 และคาดว่าจะเป็นรากฐานที่ขับเคลื่อนนวัตกรรมใหม่ทั้งในงานวิจัย AI และการประยุกต์ใช้จริง

1 ความคิดเห็น

iwanhae 2025-04-10

ช่วงนี้ผมก็สงสัยอยู่เหมือนกันว่าทำไม Gemini ถึงมีความเร็ว time to first token ที่ทิ้งห่างแบบเห็นได้ชัด ที่แท้ก็มีเหตุผลแบบนี้นี่เอง...