4 คะแนน โดย GN⁺ 2025-08-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • การระบายความร้อนด้วยของเหลว กำลังแพร่หลายอย่างรวดเร็วเพื่อแก้ปัญหาความร้อนของชิปกำลังสูงในดาต้าเซ็นเตอร์
  • ด้วย ค่าการนำความร้อนสูงกว่าอากาศราว 4,000 เท่า Google จึงนำมาใช้อย่างจริงจังเพื่อตอบสนอง ความต้องการระบายความร้อนให้ TPU โดยเฉพาะท่ามกลางกระแส AI
  • Google ใช้งานลูประบายความร้อนด้วยของเหลวระดับแร็กที่อิง CDU(Coolant Distribution Unit) เพื่อเพิ่มความสะดวกในการบำรุงรักษาและการขยายระบบ
  • มีการนำเทคนิคจากตลาดพีซีประสิทธิภาพสูง เช่น Split-flow cold plate และ การระบายความร้อนแบบ bare-die (TPUv4) มาปรับใช้ในสเกลดาต้าเซ็นเตอร์
  • การระบายความร้อนด้วยของเหลวมีประสิทธิภาพ โดยใช้พลังงาน ไม่ถึง 5% เมื่อเทียบกับพัดลม และเพื่อรับมือกับปัญหาอย่างการรั่วไหลหรือการเติบโตของจุลินทรีย์ Google ใช้ทั้งการตรวจสอบอย่างเข้มงวด ระบบแจ้งเตือน และการบำรุงรักษาเชิงป้องกันควบคู่กัน
  • NVIDIA, Rebellions AI และรายอื่น ๆ ก็เริ่มนำการระบายความร้อนด้วยของเหลวมาใช้ ทำให้ แนวโน้มสู่มาตรฐานของการระบายความร้อนดาต้าเซ็นเตอร์ เร่งตัวขึ้น

ความจำเป็นและที่มาของการระบายความร้อนด้วยของเหลว

  • การระบายความร้อนด้วยของเหลว เป็นสิ่งคุ้นเคยในหมู่ผู้หลงใหลพีซี และก็มีประวัติการใช้งานมายาวนานในสภาพแวดล้อมคอมพิวติ้งระดับองค์กร
  • ช่วงหลังมานี้ การใช้พลังงานที่เพิ่มขึ้นของเวิร์กโหลด AI และแมชชีนเลิร์นนิง ทำให้ความสำคัญของการระบายความร้อนด้วยของเหลวในดาต้าเซ็นเตอร์เพิ่มสูงขึ้นมาก
  • Google ให้ความสำคัญกับข้อเท็จจริงที่ว่า ค่าการนำความร้อนของน้ำ สูงกว่าอากาศราว 4,000 เท่า จึงเลือกใช้เป็นวิธีรับมือความร้อนสูงของชิปสมัยใหม่
  • ในงาน Hot Chips 2025 Google ได้แนะนำแนวทางการระบายความร้อนด้วยของเหลวในระดับดาต้าเซ็นเตอร์ที่เกี่ยวข้องกับการระบายความร้อนให้ TPU (ตัวเร่งความเร็วแมชชีนเลิร์นนิง)

องค์ประกอบของระบบระบายความร้อนด้วยของเหลวของ Google

  • Google เริ่มใช้การระบายความร้อนด้วยของเหลวกับ TPU ตั้งแต่ปี 2018 และผ่านการทดลองกับการปรับปรุงมาหลากหลายรูปแบบ
  • โซลูชันระบายความร้อนรุ่นล่าสุด ไม่ได้จำกัดอยู่แค่ภายในเซิร์ฟเวอร์ แต่ขยายลูปของเหลวไปทั้งแร็ก
  • แร็กระบายความร้อนหนึ่งชุดประกอบด้วย CDU(Coolant Distribution Unit) 6 ตัว ซึ่งทำหน้าที่คล้ายชุดหม้อน้ำ+ปั๊มในพีซี
  • มีการใช้ ท่อแบบยืดหยุ่น และ ข้อต่อ quick disconnect เพื่อเพิ่มความสะดวกในการบำรุงรักษาและปรับปรุงค่าความคลาดเคลื่อนที่ยอมรับได้ในการติดตั้ง
  • แม้จะเดินเครื่องเพียง 5 จาก 6 CDU ก็ยังให้การระบายความร้อนเพียงพอ ทำให้ไม่จำเป็นต้องหยุดทั้งระบบเมื่อมีการบำรุงรักษาหนึ่งยูนิต

การแลกเปลี่ยนความร้อนและเลย์เอาต์ของชิป

  • CDU แลกเปลี่ยนเฉพาะความร้อนระหว่างน้ำหล่อเย็นภายในกับน้ำจ่ายจากภายนอกของดาต้าเซ็นเตอร์ โดยของเหลวทั้งสองฝั่งจะไม่ผสมกันโดยตรง
  • น้ำหล่อเย็นที่ออกจาก CDU จะถูกกระจายไปยังเซิร์ฟเวอร์ TPU หลายเครื่องผ่าน manifold
  • การเชื่อมต่อชิป TPU ใช้โครงสร้างแบบลำดับต่อเนื่อง (series) และคำนวณงบประมาณการระบายความร้อนทั้งหมดโดยอิงจากความต้องการความร้อนของชิปตัวสุดท้ายในลูป

การเพิ่มประสิทธิภาพเทคโนโลยีระบายความร้อน

  • มีการใช้โครงสร้าง Split-flow cold plate เพื่อให้ได้ประสิทธิภาพการระบายความร้อนที่ดีกว่าดีไซน์แบบตรงเดิม
  • นอกจากนี้ยังใช้ การระบายความร้อนแบบ bare-die (TPUv4 ส่วน TPUv3 ก่อนหน้านี้เป็นแบบ lidded) ซึ่งคล้ายกับการทำ ‘delidding’ ที่ผู้ใช้พีซีระดับสูงมักใช้เพื่อเพิ่มประสิทธิภาพการถ่ายเทความร้อน
  • TPUv4 ต้องการวิธีระบายความร้อนเพิ่มเติมเหล่านี้ เพราะมีการใช้พลังงานสูงกว่า v3 ถึง 1.6 เท่า
โฆษณา

ประสิทธิภาพพลังงานและการถ่ายเทความร้อน

  • การใช้พลังงานของ ปั๊มระบายความร้อนด้วยของเหลว อยู่ที่น้อยกว่า 5% เมื่อเทียบกับการใช้พลังงานของพัดลมระบายความร้อนแบบอากาศเดิม
  • ระบบของ Google ใช้วิธี water-to-water heat exchange ทำให้พลังในการระบายความร้อนส่วนใหญ่เกิดจากปั๊มเป็นหลัก
  • ในสภาพแวดล้อมของผู้เล่นพีซี ส่วนใหญ่ยังคงใช้ชุดพัดลม-หม้อน้ำร่วมกัน จึงไม่ได้มีข้อได้เปรียบด้านพลังงานมากเท่าดาต้าเซ็นเตอร์

การบำรุงรักษา ความน่าเชื่อถือ และความปลอดภัย

  • ในมุมมองของ การบำรุงรักษา ความเสี่ยงทั่วไปของระบบระบายความร้อนด้วยน้ำ เช่น การเติบโตของจุลินทรีย์หรือความเสี่ยงจากการรั่วไหล ก็ยังคงมีอยู่ในระดับดาต้าเซ็นเตอร์เช่นกัน
  • ด้วย ข้อต่อ quick disconnect, CDU สำรอง และอุปกรณ์อำนวยความสะดวกในการบำรุงรักษาอื่น ๆ ระบบจึงมุ่งสู่การจัดการขนาดใหญ่โดยไม่เกิด downtime
  • มีการเตรียมมาตรการอย่างการบำรุงรักษาเชิงป้องกัน, การทดสอบการรั่วไหล, การตรวจจับสัญญาณผิดปกติต่าง ๆ และโปรโตคอลรับมืออย่างเป็นระบบ เพื่อให้ได้ความสม่ำเสมอและความน่าเชื่อถือในระดับองค์กร
  • สิ่งนี้แตกต่างจากแนวทางการดูแลแบบไม่เป็นทางการของผู้เล่นพีซีรายบุคคล

แนวโน้มอุตสาหกรรมและกระแส AI

  • NVIDIA, Rebellions AI และรายอื่น ๆ ต่างก็จัดแสดงระบบระบายความร้อนด้วยของเหลวภายนอกหลากหลายรูปแบบในงาน Hot Chips 2025
    • NVIDIA GB300 server: จัดวางพอร์ตระบายความร้อนด้วยของเหลวภายนอกและพัดลมไว้ร่วมกัน
    • Rebellions AI ซึ่งเป็นบริษัทเกาหลี ได้สาธิตต้นแบบตัวเร่ง ML รุ่นใหม่ ‘REBEL Quad’ ด้วยแนวทางคล้ายกันที่ผสานคูลเลอร์และชิลเลอร์เข้าด้วยกัน
  • การเพิ่มขึ้นของเวิร์กโหลด AI มีแนวโน้มจะเร่งความต้องการและการนำ การระบายความร้อนด้วยของเหลวสำหรับดาต้าเซ็นเตอร์ ไปใช้อย่างต่อเนื่องในอนาคต

1 ความคิดเห็น

 
GN⁺ 2025-08-26
ความคิดเห็นบน Hacker News
  • ผมเคยดูบทสัมภาษณ์ของ SVP ที่คุมการสร้างศูนย์ข้อมูล Azure มาก่อน ประโยคที่ยังติดหัวคือเขาบอกว่าพอถึงจุดหนึ่งเขาก็ตระหนักว่าตัวเองไม่ได้ทำธุรกิจคอมพิวเตอร์อีกต่อไป แต่กำลังทำธุรกิจระบบทำความเย็นอุตสาหกรรมอยู่ และเมื่อคิดแบบนั้นงานก็ง่ายขึ้นมาก พออ่านบทความนี้ก็เลยนึกถึงเรื่องนั้นทันที

  • เมนเฟรม (S/3x0, Cray ฯลฯ) ใช้การระบายความร้อนด้วยน้ำกันอย่างกว้างขวางมานานกว่า 50 ปีแล้ว และศูนย์ข้อมูล HPC ระดับซูเปอร์คอมพิวเตอร์ก็ใช้ liquid cooling มาอย่างน้อย 20 ปี การเอาการออกแบบศูนย์ข้อมูลระดับ Google ไปเทียบกับชุดน้ำของสายแต่ง PC จึงรู้สึกแปลกพอสมควร เหมือนลืมอดีตไปหรือไม่ก็เทียบผิดฝาผิดตัวตั้งแต่ต้น

    • จากที่ bri3d ชี้ไว้ ทำให้ผมเข้าใจว่ากรณีของ Google ครั้งนี้ไม่ได้ใหม่อย่างที่ผมตอนแรกคิด จุดนวัตกรรมไม่ใช่เรื่อง “ใช้น้ำ” แต่คือ chiller ที่ใช้ทำความเย็นเซิร์ฟเวอร์ถูกติดตั้งไว้นอกอาคาร เมนเฟรมส่วนใหญ่ก็ใช้น้ำพาความร้อนจากภายในออกไปด้านนอกอยู่แล้ว แล้วให้ฮีตซิงก์หรือพัดลมช่วยระบายต่อ แต่ของ Google คือหมุนเวียนน้ำหล่อเย็นไปยังแต่ละเซิร์ฟเวอร์โดยตรงด้วย chiller ขนาดใหญ่สำหรับทั้ง facility ไม่ใช่ในตัวอาคาร แล้วเอาน้ำร้อนที่ไหลกลับมาไปทำให้เย็นใหม่ใน chiller tower พูดได้ว่าแทบตัดการระบายความร้อนด้วยอากาศออกไปทั้งหมด ยกเว้นที่ chiller tower ไม่ได้ทำแค่บางเซิร์ฟเวอร์หรือบางแร็ก แต่ทำพร้อมกันทั้งศูนย์ข้อมูลเลย อยากรู้เหมือนกันว่าตอนบำรุงรักษา chiller หรือถ้าปั๊มเสียเขาจัดการกันอย่างไร น่าจะต้องมี redundancy หนักมากเพื่อไม่ให้หยุดบริการ AWS ก็ใช้ระบบคล้ายกัน และภาพประกอบอธิบายชัดดี ลองดูได้ที่ บทความ liquid cooling ของศูนย์ข้อมูล AWS
    • Google มีประวัติใช้ฮาร์ดแวร์ทั่วไปต้นทุนต่ำมาตลอด ดังนั้นการเปลี่ยนแบบนี้ก็ไม่ได้ชวนแปลกใจนัก คล้ายกับที่เซิร์ฟเวอร์ x86 ค่อย ๆ ดูดซับความสามารถของเมนเฟรม (เช่น virtualization) ตลอดหลายสิบปี บล็อกที่เกี่ยวข้อง
    • ในบทความบอกว่า “liquid cooling เป็นเรื่องคุ้นเคยสำหรับสายแต่ง PC และเป็นแนวคิดเก่าใน enterprise compute” ศูนย์ข้อมูลเองก็มีแนวโน้มไปทางการระบายความร้อนแบบเฉพาะจุดในระดับเซิร์ฟเวอร์และปล่อยให้ทำงานที่อุณหภูมิสูงขึ้น แต่กรณีนี้ถือว่าหักเทรนด์นั้นอย่างชัดเจน อาจเป็นเพราะการทำความเย็นระดับแถว (per-row cooling) เป็นปัจจัยหลัก
    • ที่บอกว่าศูนย์ข้อมูล HPC ใช้ liquid cooling มากว่า 20 ปีนั้น ผมสงสัยว่าส่วนใหญ่คงใช้กับจุดอย่างประตูแร็กหรือเปล่า ดูเหมือนว่าช่วงเซิร์ฟเวอร์รุ่นที่ 2 เป็นต้นมาถึงเริ่มมี direct liquid cooling (DLC) เข้าไปภายในตัวเซิร์ฟเวอร์จริง ๆ ส่วนหนึ่งก็โดนบังคับเพราะ CPU ระดับสูงของ Intel เอาไปใส่ในศูนย์ข้อมูลเดิมยากมากจนปวดหัว และเคยต้องเปิดเคสขอซ่อมหลายครั้งเพราะถุง/ชุดหล่อเย็นรั่วด้วย (ผู้ผลิตขอไม่เปิดเผย)
    • ศูนย์ข้อมูลขนาดมหึมามักไม่จำเป็นต้องรีด power density ให้สูงสุดอยู่แล้ว และพอเพิ่มความหนาแน่นก็มีปัญหาตามมาอีกหลายอย่าง จนผู้ออกแบบมักพยายามหลีกเลี่ยง การที่คลัสเตอร์ HPC สมัยใหม่กังวลเรื่อง density อาจเป็นมุมมองที่ผิดตั้งแต่ต้นก็ได้ แต่สำหรับ workload แบบ ML การวางให้ใกล้กันทางกายภาพก็มีข้อดีเรื่องประสิทธิภาพของ interconnect จริง
  • ในทางทฤษฎี การทำความเย็นศูนย์ข้อมูลเป็นเรื่องง่าย CPU ทำงานที่ 60~70 องศา และอุณหภูมิภายนอกส่วนมากต่ำกว่า 30 องศา แค่มีพัดลมหรือปั๊มช่วยเล็กน้อย ความร้อนก็ควร “ไหลลง” เองตามธรรมชาติ ปัญหาของการระบายความร้อนด้วยอากาศคือพนักงานใน facility ต้องหายใจเอาอากาศเดียวกับที่ใช้ระบายความร้อนคอมพิวเตอร์เข้าไปด้วย ถ้าตั้งอุณหภูมิแอร์สูงขึ้นก็ไม่ค่อยดีต่อสุขภาพพนักงาน (เรารัน hot aisle ไว้ราว 100F แม้ในฤดูหนาว และติดตั้ง heat exchanger ทุก 3 แร็กเพื่อใช้น้ำเย็นจาก chiller ภายนอก) เมื่ออุณหภูมิภายนอกสูงขึ้น อุณหภูมิของของไหลที่ใช้ระบายความร้อนก็ต้องสูงขึ้นตามถ้าจะคายความร้อนออกนอกอาคารให้ได้ และสุดท้ายก็ต้องพึ่ง chiller พออากาศร้อนจัด การใช้พลังงานก็พุ่งขึ้นมาก ถ้าเปลี่ยนทั้งศูนย์ข้อมูลเป็น liquid cooling ได้ ก็น่าจะเพิ่มอุณหภูมิ coolant ที่ออกจากแร็กได้อีกมาก และอาจระบายความร้อนได้แม้ช่วงที่ร้อนที่สุดโดยไม่ต้องใช้ chiller ตอนนี้เราทำ liquid cooling แค่บางส่วน และอุณหภูมิ coolant ก็ถูกจำกัดให้สอดคล้องกับอุณหภูมิ hot aisle ซึ่งแค่นี้ก็รู้สึกร้อนมากแล้ว

    • มุมมองที่ว่า “CPU อยู่ที่ 60-70 องศา ข้างนอกต่ำกว่า 30 องศา ความร้อนเลยไหลออกเอง” ไม่ค่อยถูกนัก ในความเป็นจริงต้องพาความร้อนที่เกิดจากกำลังไฟขณะ CPU ทำงานออกไปยังภายนอก และถ้า thermal impedance สูงเกินไป CPU ก็อาจร้อนเกินจนเสียหายได้
    • เมื่อ 15 ปีก่อน IBM เคยติดตั้งซูเปอร์คอมพิวเตอร์ที่ ETH Zurich โดยใช้น้ำร้อนอุณหภูมิ 60 องศาเป็นน้ำหล่อเย็น และต่อผ่านหม้อน้ำเข้ากับระบบน้ำร้อนของอาคารโดยตรง แนะนำ Aquasar
    • สักวันหนึ่งเพื่อรีดประสิทธิภาพการทำความเย็นให้สุด อาจถึงขั้นให้คนทำงานในศูนย์ข้อมูลต้องใส่ heat suit เข้าไปหรือเปล่าก็ไม่รู้
  • ในบทความมีพูดถึงการต่อชิป TPU แบบอนุกรมให้ coolant ไหลผ่าน และคำนวณความจุจากอุณหภูมิของชิปตัวสุดท้าย ถ้าชิป 4 ตัวคายความร้อนตัวละ 250W และปั๊มดันน้ำได้ 1 ลิตรต่อนาที น้ำที่ออกจากปลายทางจะต้องร้อนกว่าตอนเข้า 14 องศาแน่นอน ไม่ว่าจะต่อแบบอนุกรมหรือขนานก็ตาม (เพราะค่าความร้อนจำเพาะของน้ำ)

    • ถ้าต่อแบบอนุกรม ประสิทธิภาพการถ่ายเทความร้อนที่ชิปตัวสุดท้ายอาจต่ำกว่าแบบขนาน เพราะน้ำที่ไปถึงชิปท้ายจะร้อนขึ้นจากเดิมแล้ว เมื่ออุณหภูมิต่างกันน้อยลง ความร้อนก็ถ่ายออกช้าลง
    • ในทางปฏิบัติ เราต้องคำนวณอัตราการไหลต่างกันระหว่างโครงสร้างอนุกรมกับขนาน ดังนั้นในเชิงวิศวกรรมจึงมีความต่างที่มีนัยสำคัญ
    • ถ้าเพิ่มแรงดันให้มากพอ ก็ทำอัตราการไหลได้สูงกว่า 1 ลิตรต่อนาทีอีกมาก สำหรับเดสก์ท็อป 18W แต่ของเซิร์ฟเวอร์ประมาณมากกว่านั้นราว 10 เท่า
    • ถ้าต่อแบบอนุกรม ชิปบางตัวจะถูก “ทำให้เย็นเกินไป” และถ้าจะออกแบบให้รองรับชิปที่ร้อนที่สุด ก็ต้องใช้น้ำหล่อเย็นมากขึ้น
  • ผมไม่ได้คาดหวังกับโครงสร้างพื้นฐานของ Google มากเหมือนเมื่อก่อนแล้ว เพราะ Google เดินหน้ากระทำที่ละเมิดเสรีภาพของอินเทอร์เน็ตต่อเนื่องจนความชอบส่วนตัวของผมลดลงมาก ตอนนี้แม้แต่ระบบ liquid cooling ที่พวกเขาเอามาใช้ก็ไม่รู้สึกตื่นเต้นอะไรนัก รายละเอียดอาจทำให้มันยากก็จริง แต่ก็ไม่ได้รู้สึกว่านวัตกรรมอะไรเป็นพิเศษ ถ้ามีพนักงาน Google มาเห็นข้อความนี้แล้วรู้สึกแย่ ก็อยากให้เข้าใจว่าปัญหาไม่ใช่ตัวบุคคล แต่เป็นตัว Google เอง ลองพิจารณาไปทำสิ่งเจ๋ง ๆ ที่อื่นดูอาจดีกว่า

  • ทำให้นึกถึงกรณีน่าสนใจที่เคยเห็นใน B1M สระว่ายน้ำโอลิมปิกที่ปารีสบอกว่าอุ่นด้วยความร้อนจากอินเทอร์เน็ต วิดีโอ YouTube

  • ผมเห็นมีคนพูดบ่อยว่า AI สิ้นเปลืองน้ำ เลยสงสัยว่ากรณีนี้ก็เป็นแบบนั้นหรือไม่ อยากรู้เหมือนกันว่า CDU ใช้น้ำใน facility สำหรับการระบายความร้อนแบบระเหยหรือเปล่า

    • CDU ติดตั้งอยู่ภายในศูนย์ข้อมูล และทำหน้าที่ถ่ายเทเฉพาะความร้อนจาก coolant ของแร็กไปยัง coolant ของ facility ส่วนด้านนอกจะมีระบบแลกเปลี่ยนความร้อน ซึ่งในขั้นตอนนั้นก็มักมีการฉีดน้ำบน cooling tower เพื่อทำ evaporative cooling รูปแบบของแต่ละศูนย์ข้อมูลอาจต่างกัน แต่ facility cooling เองมีอยู่ทุกที่ การถกกันว่า AI เปลืองน้ำค่อนข้างชวนล้าอยู่เหมือนกัน เพราะน้ำมันแค่หมุนเวียนไปยังตำแหน่งที่มีประสิทธิภาพกว่าในระบบปิด ถ้าตลาดสะท้อนต้นทุนเรื่องน้ำและ externality ที่เกี่ยวข้องได้จริง การถกเถียงนี้คงมีความหมายมากขึ้น ปัญหาในสหรัฐคือราคาน้ำ สิทธิในน้ำ และประโยชน์ใช้สอยที่แท้จริงของน้ำยังไม่เชื่อมโยงกันอย่างเหมาะสม
    • AWS ก็เพิ่งมีบทความคล้ายกันออกมา บทความ liquid cooling ของศูนย์ข้อมูล AWS แต่ผมยังไม่เห็นกรณีไหนอธิบายชัด ๆ ว่าน้ำร้อนที่ปล่อยออกมาถูกทำให้เย็นลงและนำกลับมาใช้อย่างไร ซึ่งตรงนี้แหละที่ผมอยากรู้ที่สุด
    • เรื่อง AI ใช้น้ำนี่แทบไม่เห็นตัวเลขหรือบทสนทนาที่ชัดเจนเลย มักเป็นการพูดลอย ๆ ว่าใช้น้ำเหมือนรถใช้ถนน ทำให้เหมือนมีนัยว่าน้ำถูก “ผลาญ” แต่ถ้ามีข้อมูลชัดก็คงไม่ต้องพูดคลุมเครือแบบนั้น ถ้าน้ำถูกใช้จนสูญเสียจริง ก็น่าจะหมายถึงถูกเปลี่ยนสภาพจนดื่มไม่ได้ ระเหยเป็นไอไป หรือไปติดอยู่ในตะกอนจนกู้คืนไม่ได้ ผมอยากรู้ว่าสิ่งเหล่านี้เกิดขึ้นจริงไหม และมันเป็นปัญหาจริงแค่ไหน รู้สึกหงุดหงิดที่มีแต่ตัวเลขไร้บริบทหมุนเวียนกันไปโดยไม่มีข้อมูลจริง
    • มีบทความที่เกี่ยวข้อง ศูนย์ข้อมูล AI ใน Texas และประเด็นสิ้นเปลืองน้ำ
  • ผมสงสัยเรื่องความคุ้มค่าทางเศรษฐศาสตร์ของการระบายความร้อนด้วยน้ำ ว่ามันคุ้มเพราะชิปแพงขึ้นเลยต้องเร่งให้ทำงานเร็วขึ้นใช่ไหม หรือเพราะพื้นที่ศูนย์ข้อมูลแพงขึ้นเลยต้องเพิ่มความหนาแน่น หรือเพราะลดระยะทางส่งสัญญาณ (1 ฟุต = 1 นาโนวินาที) แล้วประสิทธิภาพการคำนวณเพิ่มขึ้นตามนั้น

    • ศูนย์ข้อมูลใช้ไฟไปกับการทำความเย็นเป็นสัดส่วนสูงมากของพลังงานทั้งหมด แค่เพิ่มประสิทธิภาพการทำความเย็นก็ลดต้นทุนได้ทันที
    • ผลของระยะสายจริง ๆ นั้นเล็กมาก ต่อให้เป็น interconnect fabric ที่ดีที่สุด เวลา ping-pong (ไป-กลับ request/response) ก็อยู่ระดับ 1 ไมโครวินาที ส่วนความต่างระดับฟุตมีผลแค่หลักสิบ นาโนวินาที ต่อให้เพิ่มความหนาแน่นของคลัสเตอร์ขนาดใหญ่เป็นสองเท่า ความหน่วงสัญญาณไป-กลับก็เพิ่มราว 60 นาโนวินาที หรือไม่ถึง 6% ของ 1 ไมโครวินาทีทั้งหมด แทบไม่มีผลกับแอปจริง ๆ แต่เมื่อความหนาแน่นสูงขึ้น ก็มีข้อดีตรงที่เชื่อมชิปเข้าหากันโดยตรงผ่าน backplane หรือคอนเน็กเตอร์ทองแดงได้มากขึ้น
    • ในความเป็นจริงน่าจะเป็นเหตุผลข้อ 2 กับ 3 ผสมกัน ชิปเล็กลงเรื่อย ๆ แต่กินไฟมากขึ้น จึงยิ่งร้อนขึ้น และพัดลมจำนวนมากก็ใช้ไฟเพิ่มอีก Liquid cooling เป็นการระบายจาก chip→liquid โดยตรง จึงลดต้นทุนจากพัดลม เครื่องปรับอากาศ และการหมุนเวียนเพิ่มเติมได้ ดูบทความที่เกี่ยวข้องของ ServeTheHome ได้ วิเคราะห์ผลกระทบด้านการใช้พลังงานของ liquid cooling ของ Supermicro
    • ผมไม่แน่ใจสำหรับงานคอมพิวต์แบบคลาสสิก แต่สำหรับงานที่เน้นหน่วยความจำอย่าง TPU ผมคิดว่าความต่างของระยะสายมีผลอยู่พอสมควร
    • ชิปต้องเชื่อมกันด้วยเครือข่ายความเร็วสูงมาก ดังนั้นการเพิ่มความหนาแน่นจึงสำคัญ
  • ตามทฤษฎีแล้วผู้ใช้ PC ก็อาจหมุนเวียนน้ำระบายความร้อนไปไว้ในถังพักน้ำชักโครกได้ เวลากดชักโครกแต่ละครั้งก็จะได้การระบายความร้อนอย่างมีประสิทธิภาพ อนาคตอยู่ตรงนี้แล้ว

    • ในทางกลับกัน ตอนนี้ก็มีกรณีที่โรงงาน district heating ดึงความร้อนทิ้งออกจากน้ำเสียไปใช้ทำความร้อนแล้วเหมือนกัน ดูคำอธิบาย heat pump ที่โรงบำบัดน้ำเสีย Utrecht
  • ผมเคยทำงานในศูนย์ข้อมูลบ่อยมากช่วงปี 2006~2012 และมักต้องเข้าไปดึก ๆ ศูนย์ข้อมูลเป็นสภาพแวดล้อมที่โหดกว่าที่คนคิดไว้เยอะ ถ้าระบบระบายความร้อนเงียบกว่านี้และสุดโต่งน้อยกว่านี้ก็คงดี พอร์ตต่าง ๆ อยู่ด้านหลังเพราะด้านนั้นคือทางดูดอากาศพอดี เป็นประสบการณ์แบบต้องเดินไปยืนฝั่งอุ่นเพื่ออังมือให้หายหนาว