ระบบระบายความร้อนด้วยของเหลวของ Google: เปิดเผยที่งาน Hot Chips 2025
(chipsandcheese.com)- การระบายความร้อนด้วยของเหลว กำลังแพร่หลายอย่างรวดเร็วเพื่อแก้ปัญหาความร้อนของชิปกำลังสูงในดาต้าเซ็นเตอร์
- ด้วย ค่าการนำความร้อนสูงกว่าอากาศราว 4,000 เท่า Google จึงนำมาใช้อย่างจริงจังเพื่อตอบสนอง ความต้องการระบายความร้อนให้ TPU โดยเฉพาะท่ามกลางกระแส AI
- Google ใช้งานลูประบายความร้อนด้วยของเหลวระดับแร็กที่อิง CDU(Coolant Distribution Unit) เพื่อเพิ่มความสะดวกในการบำรุงรักษาและการขยายระบบ
- มีการนำเทคนิคจากตลาดพีซีประสิทธิภาพสูง เช่น Split-flow cold plate และ การระบายความร้อนแบบ bare-die (TPUv4) มาปรับใช้ในสเกลดาต้าเซ็นเตอร์
- การระบายความร้อนด้วยของเหลวมีประสิทธิภาพ โดยใช้พลังงาน ไม่ถึง 5% เมื่อเทียบกับพัดลม และเพื่อรับมือกับปัญหาอย่างการรั่วไหลหรือการเติบโตของจุลินทรีย์ Google ใช้ทั้งการตรวจสอบอย่างเข้มงวด ระบบแจ้งเตือน และการบำรุงรักษาเชิงป้องกันควบคู่กัน
- NVIDIA, Rebellions AI และรายอื่น ๆ ก็เริ่มนำการระบายความร้อนด้วยของเหลวมาใช้ ทำให้ แนวโน้มสู่มาตรฐานของการระบายความร้อนดาต้าเซ็นเตอร์ เร่งตัวขึ้น
ความจำเป็นและที่มาของการระบายความร้อนด้วยของเหลว
- การระบายความร้อนด้วยของเหลว เป็นสิ่งคุ้นเคยในหมู่ผู้หลงใหลพีซี และก็มีประวัติการใช้งานมายาวนานในสภาพแวดล้อมคอมพิวติ้งระดับองค์กร
- ช่วงหลังมานี้ การใช้พลังงานที่เพิ่มขึ้นของเวิร์กโหลด AI และแมชชีนเลิร์นนิง ทำให้ความสำคัญของการระบายความร้อนด้วยของเหลวในดาต้าเซ็นเตอร์เพิ่มสูงขึ้นมาก
- Google ให้ความสำคัญกับข้อเท็จจริงที่ว่า ค่าการนำความร้อนของน้ำ สูงกว่าอากาศราว 4,000 เท่า จึงเลือกใช้เป็นวิธีรับมือความร้อนสูงของชิปสมัยใหม่
- ในงาน Hot Chips 2025 Google ได้แนะนำแนวทางการระบายความร้อนด้วยของเหลวในระดับดาต้าเซ็นเตอร์ที่เกี่ยวข้องกับการระบายความร้อนให้ TPU (ตัวเร่งความเร็วแมชชีนเลิร์นนิง)
องค์ประกอบของระบบระบายความร้อนด้วยของเหลวของ Google
- Google เริ่มใช้การระบายความร้อนด้วยของเหลวกับ TPU ตั้งแต่ปี 2018 และผ่านการทดลองกับการปรับปรุงมาหลากหลายรูปแบบ
- โซลูชันระบายความร้อนรุ่นล่าสุด ไม่ได้จำกัดอยู่แค่ภายในเซิร์ฟเวอร์ แต่ขยายลูปของเหลวไปทั้งแร็ก
- แร็กระบายความร้อนหนึ่งชุดประกอบด้วย CDU(Coolant Distribution Unit) 6 ตัว ซึ่งทำหน้าที่คล้ายชุดหม้อน้ำ+ปั๊มในพีซี
- มีการใช้ ท่อแบบยืดหยุ่น และ ข้อต่อ quick disconnect เพื่อเพิ่มความสะดวกในการบำรุงรักษาและปรับปรุงค่าความคลาดเคลื่อนที่ยอมรับได้ในการติดตั้ง
- แม้จะเดินเครื่องเพียง 5 จาก 6 CDU ก็ยังให้การระบายความร้อนเพียงพอ ทำให้ไม่จำเป็นต้องหยุดทั้งระบบเมื่อมีการบำรุงรักษาหนึ่งยูนิต
การแลกเปลี่ยนความร้อนและเลย์เอาต์ของชิป
- CDU แลกเปลี่ยนเฉพาะความร้อนระหว่างน้ำหล่อเย็นภายในกับน้ำจ่ายจากภายนอกของดาต้าเซ็นเตอร์ โดยของเหลวทั้งสองฝั่งจะไม่ผสมกันโดยตรง
- น้ำหล่อเย็นที่ออกจาก CDU จะถูกกระจายไปยังเซิร์ฟเวอร์ TPU หลายเครื่องผ่าน manifold
- การเชื่อมต่อชิป TPU ใช้โครงสร้างแบบลำดับต่อเนื่อง (series) และคำนวณงบประมาณการระบายความร้อนทั้งหมดโดยอิงจากความต้องการความร้อนของชิปตัวสุดท้ายในลูป
การเพิ่มประสิทธิภาพเทคโนโลยีระบายความร้อน
- มีการใช้โครงสร้าง Split-flow cold plate เพื่อให้ได้ประสิทธิภาพการระบายความร้อนที่ดีกว่าดีไซน์แบบตรงเดิม
- นอกจากนี้ยังใช้ การระบายความร้อนแบบ bare-die (TPUv4 ส่วน TPUv3 ก่อนหน้านี้เป็นแบบ lidded) ซึ่งคล้ายกับการทำ ‘delidding’ ที่ผู้ใช้พีซีระดับสูงมักใช้เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน
- TPUv4 ต้องการวิธีระบายความร้อนเพิ่มเติมเหล่านี้ เพราะมีการใช้พลังงานสูงกว่า v3 ถึง 1.6 เท่า
ประสิทธิภาพพลังงานและการถ่ายเทความร้อน
- การใช้พลังงานของ ปั๊มระบายความร้อนด้วยของเหลว อยู่ที่น้อยกว่า 5% เมื่อเทียบกับการใช้พลังงานของพัดลมระบายความร้อนแบบอากาศเดิม
- ระบบของ Google ใช้วิธี water-to-water heat exchange ทำให้พลังในการระบายความร้อนส่วนใหญ่เกิดจากปั๊มเป็นหลัก
- ในสภาพแวดล้อมของผู้เล่นพีซี ส่วนใหญ่ยังคงใช้ชุดพัดลม-หม้อน้ำร่วมกัน จึงไม่ได้มีข้อได้เปรียบด้านพลังงานมากเท่าดาต้าเซ็นเตอร์
การบำรุงรักษา ความน่าเชื่อถือ และความปลอดภัย
- ในมุมมองของ การบำรุงรักษา ความเสี่ยงทั่วไปของระบบระบายความร้อนด้วยน้ำ เช่น การเติบโตของจุลินทรีย์หรือความเสี่ยงจากการรั่วไหล ก็ยังคงมีอยู่ในระดับดาต้าเซ็นเตอร์เช่นกัน
- ด้วย ข้อต่อ quick disconnect, CDU สำรอง และอุปกรณ์อำนวยความสะดวกในการบำรุงรักษาอื่น ๆ ระบบจึงมุ่งสู่การจัดการขนาดใหญ่โดยไม่เกิด downtime
- มีการเตรียมมาตรการอย่างการบำรุงรักษาเชิงป้องกัน, การทดสอบการรั่วไหล, การตรวจจับสัญญาณผิดปกติต่าง ๆ และโปรโตคอลรับมืออย่างเป็นระบบ เพื่อให้ได้ความสม่ำเสมอและความน่าเชื่อถือในระดับองค์กร
- สิ่งนี้แตกต่างจากแนวทางการดูแลแบบไม่เป็นทางการของผู้เล่นพีซีรายบุคคล
แนวโน้มอุตสาหกรรมและกระแส AI
- NVIDIA, Rebellions AI และรายอื่น ๆ ต่างก็จัดแสดงระบบระบายความร้อนด้วยของเหลวภายนอกหลากหลายรูปแบบในงาน Hot Chips 2025
- NVIDIA GB300 server: จัดวางพอร์ตระบายความร้อนด้วยของเหลวภายนอกและพัดลมไว้ร่วมกัน
- Rebellions AI ซึ่งเป็นบริษัทเกาหลี ได้สาธิตต้นแบบตัวเร่ง ML รุ่นใหม่ ‘REBEL Quad’ ด้วยแนวทางคล้ายกันที่ผสานคูลเลอร์และชิลเลอร์เข้าด้วยกัน
- การเพิ่มขึ้นของเวิร์กโหลด AI มีแนวโน้มจะเร่งความต้องการและการนำ การระบายความร้อนด้วยของเหลวสำหรับดาต้าเซ็นเตอร์ ไปใช้อย่างต่อเนื่องในอนาคต
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ผมเคยดูบทสัมภาษณ์ของ SVP ที่คุมการสร้างศูนย์ข้อมูล Azure มาก่อน ประโยคที่ยังติดหัวคือเขาบอกว่าพอถึงจุดหนึ่งเขาก็ตระหนักว่าตัวเองไม่ได้ทำธุรกิจคอมพิวเตอร์อีกต่อไป แต่กำลังทำธุรกิจระบบทำความเย็นอุตสาหกรรมอยู่ และเมื่อคิดแบบนั้นงานก็ง่ายขึ้นมาก พออ่านบทความนี้ก็เลยนึกถึงเรื่องนั้นทันที
เมนเฟรม (S/3x0, Cray ฯลฯ) ใช้การระบายความร้อนด้วยน้ำกันอย่างกว้างขวางมานานกว่า 50 ปีแล้ว และศูนย์ข้อมูล HPC ระดับซูเปอร์คอมพิวเตอร์ก็ใช้ liquid cooling มาอย่างน้อย 20 ปี การเอาการออกแบบศูนย์ข้อมูลระดับ Google ไปเทียบกับชุดน้ำของสายแต่ง PC จึงรู้สึกแปลกพอสมควร เหมือนลืมอดีตไปหรือไม่ก็เทียบผิดฝาผิดตัวตั้งแต่ต้น
ในทางทฤษฎี การทำความเย็นศูนย์ข้อมูลเป็นเรื่องง่าย CPU ทำงานที่ 60~70 องศา และอุณหภูมิภายนอกส่วนมากต่ำกว่า 30 องศา แค่มีพัดลมหรือปั๊มช่วยเล็กน้อย ความร้อนก็ควร “ไหลลง” เองตามธรรมชาติ ปัญหาของการระบายความร้อนด้วยอากาศคือพนักงานใน facility ต้องหายใจเอาอากาศเดียวกับที่ใช้ระบายความร้อนคอมพิวเตอร์เข้าไปด้วย ถ้าตั้งอุณหภูมิแอร์สูงขึ้นก็ไม่ค่อยดีต่อสุขภาพพนักงาน (เรารัน hot aisle ไว้ราว 100F แม้ในฤดูหนาว และติดตั้ง heat exchanger ทุก 3 แร็กเพื่อใช้น้ำเย็นจาก chiller ภายนอก) เมื่ออุณหภูมิภายนอกสูงขึ้น อุณหภูมิของของไหลที่ใช้ระบายความร้อนก็ต้องสูงขึ้นตามถ้าจะคายความร้อนออกนอกอาคารให้ได้ และสุดท้ายก็ต้องพึ่ง chiller พออากาศร้อนจัด การใช้พลังงานก็พุ่งขึ้นมาก ถ้าเปลี่ยนทั้งศูนย์ข้อมูลเป็น liquid cooling ได้ ก็น่าจะเพิ่มอุณหภูมิ coolant ที่ออกจากแร็กได้อีกมาก และอาจระบายความร้อนได้แม้ช่วงที่ร้อนที่สุดโดยไม่ต้องใช้ chiller ตอนนี้เราทำ liquid cooling แค่บางส่วน และอุณหภูมิ coolant ก็ถูกจำกัดให้สอดคล้องกับอุณหภูมิ hot aisle ซึ่งแค่นี้ก็รู้สึกร้อนมากแล้ว
ในบทความมีพูดถึงการต่อชิป TPU แบบอนุกรมให้ coolant ไหลผ่าน และคำนวณความจุจากอุณหภูมิของชิปตัวสุดท้าย ถ้าชิป 4 ตัวคายความร้อนตัวละ 250W และปั๊มดันน้ำได้ 1 ลิตรต่อนาที น้ำที่ออกจากปลายทางจะต้องร้อนกว่าตอนเข้า 14 องศาแน่นอน ไม่ว่าจะต่อแบบอนุกรมหรือขนานก็ตาม (เพราะค่าความร้อนจำเพาะของน้ำ)
ผมไม่ได้คาดหวังกับโครงสร้างพื้นฐานของ Google มากเหมือนเมื่อก่อนแล้ว เพราะ Google เดินหน้ากระทำที่ละเมิดเสรีภาพของอินเทอร์เน็ตต่อเนื่องจนความชอบส่วนตัวของผมลดลงมาก ตอนนี้แม้แต่ระบบ liquid cooling ที่พวกเขาเอามาใช้ก็ไม่รู้สึกตื่นเต้นอะไรนัก รายละเอียดอาจทำให้มันยากก็จริง แต่ก็ไม่ได้รู้สึกว่านวัตกรรมอะไรเป็นพิเศษ ถ้ามีพนักงาน Google มาเห็นข้อความนี้แล้วรู้สึกแย่ ก็อยากให้เข้าใจว่าปัญหาไม่ใช่ตัวบุคคล แต่เป็นตัว Google เอง ลองพิจารณาไปทำสิ่งเจ๋ง ๆ ที่อื่นดูอาจดีกว่า
ทำให้นึกถึงกรณีน่าสนใจที่เคยเห็นใน B1M สระว่ายน้ำโอลิมปิกที่ปารีสบอกว่าอุ่นด้วยความร้อนจากอินเทอร์เน็ต วิดีโอ YouTube
ผมเห็นมีคนพูดบ่อยว่า AI สิ้นเปลืองน้ำ เลยสงสัยว่ากรณีนี้ก็เป็นแบบนั้นหรือไม่ อยากรู้เหมือนกันว่า CDU ใช้น้ำใน facility สำหรับการระบายความร้อนแบบระเหยหรือเปล่า
ผมสงสัยเรื่องความคุ้มค่าทางเศรษฐศาสตร์ของการระบายความร้อนด้วยน้ำ ว่ามันคุ้มเพราะชิปแพงขึ้นเลยต้องเร่งให้ทำงานเร็วขึ้นใช่ไหม หรือเพราะพื้นที่ศูนย์ข้อมูลแพงขึ้นเลยต้องเพิ่มความหนาแน่น หรือเพราะลดระยะทางส่งสัญญาณ (1 ฟุต = 1 นาโนวินาที) แล้วประสิทธิภาพการคำนวณเพิ่มขึ้นตามนั้น
ตามทฤษฎีแล้วผู้ใช้ PC ก็อาจหมุนเวียนน้ำระบายความร้อนไปไว้ในถังพักน้ำชักโครกได้ เวลากดชักโครกแต่ละครั้งก็จะได้การระบายความร้อนอย่างมีประสิทธิภาพ อนาคตอยู่ตรงนี้แล้ว
ผมเคยทำงานในศูนย์ข้อมูลบ่อยมากช่วงปี 2006~2012 และมักต้องเข้าไปดึก ๆ ศูนย์ข้อมูลเป็นสภาพแวดล้อมที่โหดกว่าที่คนคิดไว้เยอะ ถ้าระบบระบายความร้อนเงียบกว่านี้และสุดโต่งน้อยกว่านี้ก็คงดี พอร์ตต่าง ๆ อยู่ด้านหลังเพราะด้านนั้นคือทางดูดอากาศพอดี เป็นประสบการณ์แบบต้องเดินไปยืนฝั่งอุ่นเพื่ออังมือให้หายหนาว