- Google เปิดตัว Ironwood ซึ่งเป็น Tensor Processing Unit (TPU) รุ่นที่ 7
- Ironwood คือ TPU ตัวแรกที่ออกแบบมาเฉพาะสำหรับการอนุมานของ AI และเป็นรุ่นที่ทรงพลังและประหยัดพลังงานที่สุดเท่าที่เคยมีมา
- ออกแบบมาสำหรับการรันโมเดล AI สมรรถนะสูง เช่น large language model (LLM) และ Mixture of Experts (MoE)
- ขยายได้สูงสุด 9,216 ชิป และให้สมรรถนะการประมวลผล 42.5 exaflops
- นั่นคือมากกว่าซูเปอร์คอมพิวเตอร์ที่เร็วที่สุดในโลกอย่าง El Capitan กว่า 24 เท่า
ยุคแห่งการอนุมานที่เกิดขึ้นได้ด้วย Ironwood
- หาก AI แบบเดิมทำงานโดยตอบสนองต่อคำขอของผู้ใช้ Ironwood จะเป็นรากฐานสำหรับยุคของ AI ที่ตีความข้อมูลเชิงรุกและสร้างข้อมูลเชิงลึกได้
- ในยุคแห่งการอนุมานนี้ AI จะ รวบรวมและวิเคราะห์ข้อมูลแทนผู้ใช้ เพื่อให้ได้ผลลัพธ์ที่ลึกซึ้งยิ่งขึ้น
- Ironwood มีความสามารถด้าน การประมวลผลแบบขนานขนาดใหญ่และการเข้าถึงข้อมูลความเร็วสูง เพื่อรองรับความต้องการใหม่ของ AI ลักษณะนี้
ฮาร์ดแวร์และสมรรถนะของ Ironwood
- เมื่อจัดเป็น TPU pod ที่ประกอบด้วย 9,216 ชิป จะให้สมรรถนะ 42.5 exaflops
- 4,614 TFLOPs ต่อชิป รองรับทั้งการฝึกและการอนุมานของโมเดล LLM และ MoE ขนาดใหญ่
- ปรับปรุงความสามารถของ SparseCore เพื่อเร่งการประมวลผล embedding ขนาดมหึมา และนำไปใช้ได้ในหลายด้าน เช่น การเงินและวิทยาศาสตร์
- สามารถบริหารจัดการชิป Ironwood หลายหมื่นตัวได้อย่างมีประสิทธิภาพผ่านซอฟต์แวร์ Pathways
คุณลักษณะทางเทคนิคหลักของ Ironwood
- อัตราส่วน ประสิทธิภาพต่อการใช้พลังงาน ดีขึ้น 2 เท่าเมื่อเทียบกับรุ่นก่อนหน้า
- ประสิทธิภาพด้านพลังงานสูงกว่า Trillium ราว 30 เท่า
- รักษาสมรรถนะได้อย่างเสถียรแม้ภายใต้งานหนักต่อเนื่อง ด้วยเทคโนโลยีระบายความร้อนด้วยของเหลวสมรรถนะสูง
- เพิ่มความจุของ high-bandwidth memory (HBM) อย่างมาก
- 192GB ต่อชิป มากกว่า Trillium 6 เท่า
- เหมาะกับการประมวลผลโมเดลและชุดข้อมูลขนาดใหญ่
- ปรับปรุง แบนด์วิดท์หน่วยความจำ HBM
- 7.2 TBps ต่อชิป เพิ่มขึ้น 4.5 เท่าเมื่อเทียบกับ Trillium
- ปรับปรุงแบนด์วิดท์ Inter-Chip Interconnect (ICI)
- 1.2 Tbps แบบสองทิศทาง เพิ่มขึ้น 1.5 เท่าเมื่อเทียบกับ Trillium
- การสื่อสารระหว่างชิปที่รวดเร็ว ทำให้เหมาะกับการฝึกและการอนุมานแบบกระจายขนาดใหญ่
ผลกระทบและศักยภาพการใช้งานของ Ironwood
- Ironwood เป็นองค์ประกอบหลักของสถาปัตยกรรม Google Cloud Hypercomputer และได้รับการปรับแต่งสำหรับความต้องการของ generative AI ยุคถัดไป
- โมเดล AI ล่าสุดอย่าง Gemini 2.5 และ AlphaFold ก็ทำงานบนพื้นฐานของ TPU เช่นกัน
- ลูกค้า Google Cloud จะสามารถใช้ Ironwood เพื่อจัดการเวิร์กโหลด AI ด้วย สมรรถนะสูง, latency ต่ำ, และประสิทธิภาพพลังงานที่ดีขึ้น
- มีกำหนดเปิดให้ลูกค้าใช้งานภายในปี 2025 และคาดว่าจะเป็นรากฐานที่ขับเคลื่อนนวัตกรรมใหม่ทั้งในงานวิจัย AI และการประยุกต์ใช้จริง
1 ความคิดเห็น
ช่วงนี้ผมก็สงสัยอยู่เหมือนกันว่าทำไม Gemini ถึงมีความเร็ว
time to first tokenที่ทิ้งห่างแบบเห็นได้ชัด ที่แท้ก็มีเหตุผลแบบนี้นี่เอง...