ระบบระบายความร้อนด้วยของเหลวของ Google: เปิดเผยที่งาน Hot Chips 2025

(chipsandcheese.com)

4 คะแนน โดย GN⁺ 2025-08-26 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

การระบายความร้อนด้วยของเหลว กำลังแพร่หลายอย่างรวดเร็วเพื่อแก้ปัญหาความร้อนของชิปกำลังสูงในดาต้าเซ็นเตอร์
ด้วย ค่าการนำความร้อนสูงกว่าอากาศราว 4,000 เท่า Google จึงนำมาใช้อย่างจริงจังเพื่อตอบสนอง ความต้องการระบายความร้อนให้ TPU โดยเฉพาะท่ามกลางกระแส AI
Google ใช้งานลูประบายความร้อนด้วยของเหลวระดับแร็กที่อิง CDU(Coolant Distribution Unit) เพื่อเพิ่มความสะดวกในการบำรุงรักษาและการขยายระบบ
มีการนำเทคนิคจากตลาดพีซีประสิทธิภาพสูง เช่น Split-flow cold plate และ การระบายความร้อนแบบ bare-die (TPUv4) มาปรับใช้ในสเกลดาต้าเซ็นเตอร์
การระบายความร้อนด้วยของเหลวมีประสิทธิภาพ โดยใช้พลังงาน ไม่ถึง 5% เมื่อเทียบกับพัดลม และเพื่อรับมือกับปัญหาอย่างการรั่วไหลหรือการเติบโตของจุลินทรีย์ Google ใช้ทั้งการตรวจสอบอย่างเข้มงวด ระบบแจ้งเตือน และการบำรุงรักษาเชิงป้องกันควบคู่กัน
NVIDIA, Rebellions AI และรายอื่น ๆ ก็เริ่มนำการระบายความร้อนด้วยของเหลวมาใช้ ทำให้ แนวโน้มสู่มาตรฐานของการระบายความร้อนดาต้าเซ็นเตอร์ เร่งตัวขึ้น

ความจำเป็นและที่มาของการระบายความร้อนด้วยของเหลว

การระบายความร้อนด้วยของเหลว เป็นสิ่งคุ้นเคยในหมู่ผู้หลงใหลพีซี และก็มีประวัติการใช้งานมายาวนานในสภาพแวดล้อมคอมพิวติ้งระดับองค์กร
ช่วงหลังมานี้ การใช้พลังงานที่เพิ่มขึ้นของเวิร์กโหลด AI และแมชชีนเลิร์นนิง ทำให้ความสำคัญของการระบายความร้อนด้วยของเหลวในดาต้าเซ็นเตอร์เพิ่มสูงขึ้นมาก
Google ให้ความสำคัญกับข้อเท็จจริงที่ว่า ค่าการนำความร้อนของน้ำ สูงกว่าอากาศราว 4,000 เท่า จึงเลือกใช้เป็นวิธีรับมือความร้อนสูงของชิปสมัยใหม่
ในงาน Hot Chips 2025 Google ได้แนะนำแนวทางการระบายความร้อนด้วยของเหลวในระดับดาต้าเซ็นเตอร์ที่เกี่ยวข้องกับการระบายความร้อนให้ TPU (ตัวเร่งความเร็วแมชชีนเลิร์นนิง)

องค์ประกอบของระบบระบายความร้อนด้วยของเหลวของ Google

Google เริ่มใช้การระบายความร้อนด้วยของเหลวกับ TPU ตั้งแต่ปี 2018 และผ่านการทดลองกับการปรับปรุงมาหลากหลายรูปแบบ
โซลูชันระบายความร้อนรุ่นล่าสุด ไม่ได้จำกัดอยู่แค่ภายในเซิร์ฟเวอร์ แต่ขยายลูปของเหลวไปทั้งแร็ก
แร็กระบายความร้อนหนึ่งชุดประกอบด้วย CDU(Coolant Distribution Unit) 6 ตัว ซึ่งทำหน้าที่คล้ายชุดหม้อน้ำ+ปั๊มในพีซี
มีการใช้ ท่อแบบยืดหยุ่น และ ข้อต่อ quick disconnect เพื่อเพิ่มความสะดวกในการบำรุงรักษาและปรับปรุงค่าความคลาดเคลื่อนที่ยอมรับได้ในการติดตั้ง
แม้จะเดินเครื่องเพียง 5 จาก 6 CDU ก็ยังให้การระบายความร้อนเพียงพอ ทำให้ไม่จำเป็นต้องหยุดทั้งระบบเมื่อมีการบำรุงรักษาหนึ่งยูนิต

การแลกเปลี่ยนความร้อนและเลย์เอาต์ของชิป

CDU แลกเปลี่ยนเฉพาะความร้อนระหว่างน้ำหล่อเย็นภายในกับน้ำจ่ายจากภายนอกของดาต้าเซ็นเตอร์ โดยของเหลวทั้งสองฝั่งจะไม่ผสมกันโดยตรง
น้ำหล่อเย็นที่ออกจาก CDU จะถูกกระจายไปยังเซิร์ฟเวอร์ TPU หลายเครื่องผ่าน manifold
การเชื่อมต่อชิป TPU ใช้โครงสร้างแบบลำดับต่อเนื่อง (series) และคำนวณงบประมาณการระบายความร้อนทั้งหมดโดยอิงจากความต้องการความร้อนของชิปตัวสุดท้ายในลูป

การเพิ่มประสิทธิภาพเทคโนโลยีระบายความร้อน

มีการใช้โครงสร้าง Split-flow cold plate เพื่อให้ได้ประสิทธิภาพการระบายความร้อนที่ดีกว่าดีไซน์แบบตรงเดิม
นอกจากนี้ยังใช้ การระบายความร้อนแบบ bare-die (TPUv4 ส่วน TPUv3 ก่อนหน้านี้เป็นแบบ lidded) ซึ่งคล้ายกับการทำ ‘delidding’ ที่ผู้ใช้พีซีระดับสูงมักใช้เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน
TPUv4 ต้องการวิธีระบายความร้อนเพิ่มเติมเหล่านี้ เพราะมีการใช้พลังงานสูงกว่า v3 ถึง 1.6 เท่า

ประสิทธิภาพพลังงานและการถ่ายเทความร้อน

การใช้พลังงานของ ปั๊มระบายความร้อนด้วยของเหลว อยู่ที่น้อยกว่า 5% เมื่อเทียบกับการใช้พลังงานของพัดลมระบายความร้อนแบบอากาศเดิม
ระบบของ Google ใช้วิธี water-to-water heat exchange ทำให้พลังในการระบายความร้อนส่วนใหญ่เกิดจากปั๊มเป็นหลัก
ในสภาพแวดล้อมของผู้เล่นพีซี ส่วนใหญ่ยังคงใช้ชุดพัดลม-หม้อน้ำร่วมกัน จึงไม่ได้มีข้อได้เปรียบด้านพลังงานมากเท่าดาต้าเซ็นเตอร์

การบำรุงรักษา ความน่าเชื่อถือ และความปลอดภัย

ในมุมมองของ การบำรุงรักษา ความเสี่ยงทั่วไปของระบบระบายความร้อนด้วยน้ำ เช่น การเติบโตของจุลินทรีย์หรือความเสี่ยงจากการรั่วไหล ก็ยังคงมีอยู่ในระดับดาต้าเซ็นเตอร์เช่นกัน
ด้วย ข้อต่อ quick disconnect, CDU สำรอง และอุปกรณ์อำนวยความสะดวกในการบำรุงรักษาอื่น ๆ ระบบจึงมุ่งสู่การจัดการขนาดใหญ่โดยไม่เกิด downtime
มีการเตรียมมาตรการอย่างการบำรุงรักษาเชิงป้องกัน, การทดสอบการรั่วไหล, การตรวจจับสัญญาณผิดปกติต่าง ๆ และโปรโตคอลรับมืออย่างเป็นระบบ เพื่อให้ได้ความสม่ำเสมอและความน่าเชื่อถือในระดับองค์กร
สิ่งนี้แตกต่างจากแนวทางการดูแลแบบไม่เป็นทางการของผู้เล่นพีซีรายบุคคล

แนวโน้มอุตสาหกรรมและกระแส AI

NVIDIA, Rebellions AI และรายอื่น ๆ ต่างก็จัดแสดงระบบระบายความร้อนด้วยของเหลวภายนอกหลากหลายรูปแบบในงาน Hot Chips 2025
- NVIDIA GB300 server: จัดวางพอร์ตระบายความร้อนด้วยของเหลวภายนอกและพัดลมไว้ร่วมกัน
- Rebellions AI ซึ่งเป็นบริษัทเกาหลี ได้สาธิตต้นแบบตัวเร่ง ML รุ่นใหม่ ‘REBEL Quad’ ด้วยแนวทางคล้ายกันที่ผสานคูลเลอร์และชิลเลอร์เข้าด้วยกัน
การเพิ่มขึ้นของเวิร์กโหลด AI มีแนวโน้มจะเร่งความต้องการและการนำ การระบายความร้อนด้วยของเหลวสำหรับดาต้าเซ็นเตอร์ ไปใช้อย่างต่อเนื่องในอนาคต

ระบบระบายความร้อนด้วยของเหลวของ Google: เปิดเผยที่งาน Hot Chips 2025

ความจำเป็นและที่มาของการระบายความร้อนด้วยของเหลว

องค์ประกอบของระบบระบายความร้อนด้วยของเหลวของ Google

การแลกเปลี่ยนความร้อนและเลย์เอาต์ของชิป

การเพิ่มประสิทธิภาพเทคโนโลยีระบายความร้อน

ประสิทธิภาพพลังงานและการถ่ายเทความร้อน

การบำรุงรักษา ความน่าเชื่อถือ และความปลอดภัย

แนวโน้มอุตสาหกรรมและกระแส AI

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น