• การระบายความร้อนด้วยของเหลว กำลังแพร่หลายอย่างรวดเร็วเพื่อแก้ปัญหาความร้อนของชิปกำลังสูงในดาต้าเซ็นเตอร์
  • ด้วย ค่าการนำความร้อนสูงกว่าอากาศราว 4,000 เท่า Google จึงนำมาใช้อย่างจริงจังเพื่อตอบสนอง ความต้องการระบายความร้อนให้ TPU โดยเฉพาะท่ามกลางกระแส AI
  • Google ใช้งานลูประบายความร้อนด้วยของเหลวระดับแร็กที่อิง CDU(Coolant Distribution Unit) เพื่อเพิ่มความสะดวกในการบำรุงรักษาและการขยายระบบ
  • มีการนำเทคนิคจากตลาดพีซีประสิทธิภาพสูง เช่น Split-flow cold plate และ การระบายความร้อนแบบ bare-die (TPUv4) มาปรับใช้ในสเกลดาต้าเซ็นเตอร์
  • การระบายความร้อนด้วยของเหลวมีประสิทธิภาพ โดยใช้พลังงาน ไม่ถึง 5% เมื่อเทียบกับพัดลม และเพื่อรับมือกับปัญหาอย่างการรั่วไหลหรือการเติบโตของจุลินทรีย์ Google ใช้ทั้งการตรวจสอบอย่างเข้มงวด ระบบแจ้งเตือน และการบำรุงรักษาเชิงป้องกันควบคู่กัน
  • NVIDIA, Rebellions AI และรายอื่น ๆ ก็เริ่มนำการระบายความร้อนด้วยของเหลวมาใช้ ทำให้ แนวโน้มสู่มาตรฐานของการระบายความร้อนดาต้าเซ็นเตอร์ เร่งตัวขึ้น

ความจำเป็นและที่มาของการระบายความร้อนด้วยของเหลว

  • การระบายความร้อนด้วยของเหลว เป็นสิ่งคุ้นเคยในหมู่ผู้หลงใหลพีซี และก็มีประวัติการใช้งานมายาวนานในสภาพแวดล้อมคอมพิวติ้งระดับองค์กร
  • ช่วงหลังมานี้ การใช้พลังงานที่เพิ่มขึ้นของเวิร์กโหลด AI และแมชชีนเลิร์นนิง ทำให้ความสำคัญของการระบายความร้อนด้วยของเหลวในดาต้าเซ็นเตอร์เพิ่มสูงขึ้นมาก
  • Google ให้ความสำคัญกับข้อเท็จจริงที่ว่า ค่าการนำความร้อนของน้ำ สูงกว่าอากาศราว 4,000 เท่า จึงเลือกใช้เป็นวิธีรับมือความร้อนสูงของชิปสมัยใหม่
  • ในงาน Hot Chips 2025 Google ได้แนะนำแนวทางการระบายความร้อนด้วยของเหลวในระดับดาต้าเซ็นเตอร์ที่เกี่ยวข้องกับการระบายความร้อนให้ TPU (ตัวเร่งความเร็วแมชชีนเลิร์นนิง)

องค์ประกอบของระบบระบายความร้อนด้วยของเหลวของ Google

  • Google เริ่มใช้การระบายความร้อนด้วยของเหลวกับ TPU ตั้งแต่ปี 2018 และผ่านการทดลองกับการปรับปรุงมาหลากหลายรูปแบบ
  • โซลูชันระบายความร้อนรุ่นล่าสุด ไม่ได้จำกัดอยู่แค่ภายในเซิร์ฟเวอร์ แต่ขยายลูปของเหลวไปทั้งแร็ก
  • แร็กระบายความร้อนหนึ่งชุดประกอบด้วย CDU(Coolant Distribution Unit) 6 ตัว ซึ่งทำหน้าที่คล้ายชุดหม้อน้ำ+ปั๊มในพีซี
  • มีการใช้ ท่อแบบยืดหยุ่น และ ข้อต่อ quick disconnect เพื่อเพิ่มความสะดวกในการบำรุงรักษาและปรับปรุงค่าความคลาดเคลื่อนที่ยอมรับได้ในการติดตั้ง
  • แม้จะเดินเครื่องเพียง 5 จาก 6 CDU ก็ยังให้การระบายความร้อนเพียงพอ ทำให้ไม่จำเป็นต้องหยุดทั้งระบบเมื่อมีการบำรุงรักษาหนึ่งยูนิต

การแลกเปลี่ยนความร้อนและเลย์เอาต์ของชิป

  • CDU แลกเปลี่ยนเฉพาะความร้อนระหว่างน้ำหล่อเย็นภายในกับน้ำจ่ายจากภายนอกของดาต้าเซ็นเตอร์ โดยของเหลวทั้งสองฝั่งจะไม่ผสมกันโดยตรง
  • น้ำหล่อเย็นที่ออกจาก CDU จะถูกกระจายไปยังเซิร์ฟเวอร์ TPU หลายเครื่องผ่าน manifold
  • การเชื่อมต่อชิป TPU ใช้โครงสร้างแบบลำดับต่อเนื่อง (series) และคำนวณงบประมาณการระบายความร้อนทั้งหมดโดยอิงจากความต้องการความร้อนของชิปตัวสุดท้ายในลูป

การเพิ่มประสิทธิภาพเทคโนโลยีระบายความร้อน

  • มีการใช้โครงสร้าง Split-flow cold plate เพื่อให้ได้ประสิทธิภาพการระบายความร้อนที่ดีกว่าดีไซน์แบบตรงเดิม
  • นอกจากนี้ยังใช้ การระบายความร้อนแบบ bare-die (TPUv4 ส่วน TPUv3 ก่อนหน้านี้เป็นแบบ lidded) ซึ่งคล้ายกับการทำ ‘delidding’ ที่ผู้ใช้พีซีระดับสูงมักใช้เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน
  • TPUv4 ต้องการวิธีระบายความร้อนเพิ่มเติมเหล่านี้ เพราะมีการใช้พลังงานสูงกว่า v3 ถึง 1.6 เท่า

ประสิทธิภาพพลังงานและการถ่ายเทความร้อน

  • การใช้พลังงานของ ปั๊มระบายความร้อนด้วยของเหลว อยู่ที่น้อยกว่า 5% เมื่อเทียบกับการใช้พลังงานของพัดลมระบายความร้อนแบบอากาศเดิม
  • ระบบของ Google ใช้วิธี water-to-water heat exchange ทำให้พลังในการระบายความร้อนส่วนใหญ่เกิดจากปั๊มเป็นหลัก
  • ในสภาพแวดล้อมของผู้เล่นพีซี ส่วนใหญ่ยังคงใช้ชุดพัดลม-หม้อน้ำร่วมกัน จึงไม่ได้มีข้อได้เปรียบด้านพลังงานมากเท่าดาต้าเซ็นเตอร์

การบำรุงรักษา ความน่าเชื่อถือ และความปลอดภัย

  • ในมุมมองของ การบำรุงรักษา ความเสี่ยงทั่วไปของระบบระบายความร้อนด้วยน้ำ เช่น การเติบโตของจุลินทรีย์หรือความเสี่ยงจากการรั่วไหล ก็ยังคงมีอยู่ในระดับดาต้าเซ็นเตอร์เช่นกัน
  • ด้วย ข้อต่อ quick disconnect, CDU สำรอง และอุปกรณ์อำนวยความสะดวกในการบำรุงรักษาอื่น ๆ ระบบจึงมุ่งสู่การจัดการขนาดใหญ่โดยไม่เกิด downtime
  • มีการเตรียมมาตรการอย่างการบำรุงรักษาเชิงป้องกัน, การทดสอบการรั่วไหล, การตรวจจับสัญญาณผิดปกติต่าง ๆ และโปรโตคอลรับมืออย่างเป็นระบบ เพื่อให้ได้ความสม่ำเสมอและความน่าเชื่อถือในระดับองค์กร
  • สิ่งนี้แตกต่างจากแนวทางการดูแลแบบไม่เป็นทางการของผู้เล่นพีซีรายบุคคล

แนวโน้มอุตสาหกรรมและกระแส AI

  • NVIDIA, Rebellions AI และรายอื่น ๆ ต่างก็จัดแสดงระบบระบายความร้อนด้วยของเหลวภายนอกหลากหลายรูปแบบในงาน Hot Chips 2025
    • NVIDIA GB300 server: จัดวางพอร์ตระบายความร้อนด้วยของเหลวภายนอกและพัดลมไว้ร่วมกัน
    • Rebellions AI ซึ่งเป็นบริษัทเกาหลี ได้สาธิตต้นแบบตัวเร่ง ML รุ่นใหม่ ‘REBEL Quad’ ด้วยแนวทางคล้ายกันที่ผสานคูลเลอร์และชิลเลอร์เข้าด้วยกัน
  • การเพิ่มขึ้นของเวิร์กโหลด AI มีแนวโน้มจะเร่งความต้องการและการนำ การระบายความร้อนด้วยของเหลวสำหรับดาต้าเซ็นเตอร์ ไปใช้อย่างต่อเนื่องในอนาคต

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น