1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อความหนาแน่นพลังงานของเซิร์ฟเวอร์ AI สูงขึ้น การหล่อเย็นจึงกลายเป็นคอขวดหลักของต้นทุนและการใช้น้ำในดาต้าเซ็นเตอร์ และ NVIDIA ได้ชูการออกแบบที่เดินระบบน้ำหล่อเย็นได้สูงสุดถึง 45°C ในยุค Rubin
  • โครงสร้างพื้นฐาน AI ยุค Rubin ใช้สถาปัตยกรรม liquid cooling 100% ที่ทำความเย็นให้ทั้งชิปและองค์ประกอบเครือข่ายโดยไม่ต้องใช้พัดลม โดยมี closed loop และ dry cooler เป็นแกนหลัก
  • ในสภาพภูมิอากาศที่เหมาะสม สามารถลดการใช้น้ำที่ระบบเดิมแบบคูลลิงทาวเวอร์ใช้ราว 2.6 ล้านแกลลอนต่อเมกะวัตต์ต่อปี ลงได้เกือบเป็นศูนย์ หรือประหยัดได้สูงสุด 100%
  • น้ำหล่อเย็นที่อุณหภูมิ 45°C จะดูดซับความร้อนจากชิปและออกมาที่ราว 55°C แต่ยังคงอยู่ภายในขีดจำกัดการทำงานที่ผ่านการรับรอง และทำให้เซิร์ฟเวอร์พึ่งพาอากาศเย็นน้อยลง
  • การหล่อเย็นด้วยของเหลวทั้งหมดช่วยลดพัดลม ทางเดินลมเย็น-ลมร้อน และพื้นที่สำหรับโครงสร้างพื้นฐานแบบ air cooling พร้อมเพิ่มความหนาแน่นของแร็ก เพื่อลด ภาระต้นทุนการหล่อเย็น จากความต้องการคอมพิวต์ AI ที่เพิ่มขึ้น

การหล่อเย็นด้วยของเหลว 100% ในยุค Rubin

  • เซิร์ฟเวอร์ AI รุ่นล่าสุดของ NVIDIA สามารถเดินระบบน้ำหล่อเย็นได้สูงสุดถึง 45°C หรือ 113°F
  • โครงสร้างพื้นฐาน AI ของ NVIDIA ในยุค Rubin ทำได้ถึง liquid cooling 100% ที่ระบายความร้อนให้ชิปและองค์ประกอบเครือข่ายทั้งหมดด้วยของเหลว
    • ไม่มีพัดลมในระบบเลย
    • การหล่อเย็นเกิดขึ้นภายใน closed loop
  • แนวทางนี้ถูกรวมอยู่ในแบบอ้างอิง AI factory NVIDIA DSX ซึ่งรวบรวมแนวปฏิบัติที่ดีสำหรับการออกแบบ สร้าง และดำเนินงานสแตกโครงสร้างพื้นฐาน AI factory
  • ในขณะที่แต่ละเจเนอเรชันเพิ่มประสิทธิภาพการประมวลผลต่อวัตต์ โครงสร้างพื้นฐาน AI compute แบบหล่อเย็นด้วยของเหลวทั้งหมดสามารถลด การใช้พลังงานเพื่อการหล่อเย็น ของดาต้าเซ็นเตอร์ hyperscale ได้อย่างมาก

โครงสร้างที่ช่วยลดการใช้น้ำและพลังงาน

  • แบบอ้างอิง NVIDIA DSX AI factory ตั้งเป้า การใช้น้ำเป็นศูนย์ และมุ่งลดทั้งการใช้พลังงานจำนวนมากและการใช้น้ำเกือบทั้งหมด
  • การออกแบบที่อิง dry cooler เป็นระบบ closed loop จึงไม่ใช้การทำความเย็นด้วยน้ำแบบระเหย
    • ในบางสภาพภูมิอากาศ อาจต้องใช้ chiller เพียงประมาณ 1% ของเวลาทั้งปี
  • ในอดีต การหล่อเย็นอาจคิดเป็นสัดส่วนสูงสุดถึง 40% ของการใช้พลังงานในดาต้าเซ็นเตอร์
  • ตามการประเมินของอุตสาหกรรม หากเพิ่มอุณหภูมิของ chiller plant ขึ้น 1°C จะช่วยลดต้นทุนพลังงานสำหรับการหล่อเย็นได้ราว 4%
  • ศูนย์ hyperscale ระดับ 50MW หากเปลี่ยนมาใช้โครงสร้างพื้นฐานแบบ liquid cooling จะสามารถประหยัดต้นทุนพลังงานและค่าน้ำที่เกี่ยวข้องกับการหล่อเย็นได้มากกว่า 4 ล้านดอลลาร์ต่อปี
  • ในสภาพภูมิอากาศที่เหมาะสม สถาปัตยกรรม liquid cooling ที่ 45°C ทำให้สามารถดำเนินงานได้โดยไม่ต้องใช้ chiller และลดการใช้น้ำราว 2.6 ล้านแกลลอนต่อเมกะวัตต์ต่อปี ของระบบเดิมที่อิงคูลลิงทาวเวอร์ลงได้เกือบเป็นศูนย์

ดาต้าเซ็นเตอร์ที่เย็นจัดไม่ได้มีประสิทธิภาพเสมอไป

  • อุตสาหกรรมนี้เคยมีความเชื่อกันมานานว่าดาต้าเซ็นเตอร์ที่เย็นคือดาต้าเซ็นเตอร์ที่มีประสิทธิภาพ
  • แต่ในความเป็นจริง ชิปสามารถทำงานได้ในสภาพแวดล้อมที่อุ่นกว่าที่หลายคนคาดคิดมาก
  • เมื่อน้ำหล่อเย็น 45°C ไหลเข้าสู่ชิปที่ใช้การหล่อเย็นด้วยของเหลวทั้งหมด มันจะดูดซับความร้อนจากผิวชิปและไหลออกมาที่ราว 55°C
  • แม้ในกระบวนการนี้ ประสิทธิภาพก็ไม่ลดลง
    • cold plate ของระบบ liquid cooling จะรักษาอุณหภูมิของอุปกรณ์ให้อยู่ภายในขีดจำกัดการทำงานที่ผ่านการรับรอง
    • แม้น้ำหล่อเย็นที่เข้าสู่แร็กจะมีอุณหภูมิ 45°C โปรเซสเซอร์ก็ยังทำงานที่ประสิทธิภาพสูงสุดได้อย่างต่อเนื่อง
  • เนื่องจากเซิร์ฟเวอร์ไม่ต้องพึ่งพาอากาศเย็น อุณหภูมิอากาศโดยรอบของดาต้าเซ็นเตอร์จึงตั้งค่าได้ยืดหยุ่นมากขึ้น

โครงสร้างเซิร์ฟเวอร์ที่ลดพัดลมและทางเดินลมเย็น-ลมร้อน

  • ดาต้าเซ็นเตอร์แบบดั้งเดิมพึ่งพาเสียงพัดลมและการจัดการทางเดินลมเย็น-ลมร้อนอย่างมาก
    • พัดลมระบายความร้อนสามารถเพิ่มระดับเสียงรวมได้เกิน 85dB
    • ระดับนี้ดังมากพอที่จะต้องใช้อุปกรณ์ป้องกันหู
  • สถาปัตยกรรม Rubin เปลี่ยนแกนของการหล่อเย็นจากการไหลของอากาศไปเป็น liquid loop
  • น้ำหล่อเย็นประกอบด้วย น้ำ 75% และ propylene glycol 25%
  • น้ำหล่อเย็นนี้จะไหลผ่าน cold plate ที่วางอยู่บนโปรเซสเซอร์โดยตรง เพื่อดูดซับความร้อนจากต้นทาง
  • เมื่อเดินระบบน้ำหล่อเย็นที่อุณหภูมิสูงสุด 45°C สิ่งอำนวยความสะดวกสามารถระบายความร้อนได้โดยไม่ต้องใช้ mechanical chiller และพัดลมเสียงดังในหลายสภาพภูมิอากาศ
  • ในพื้นที่ที่เหมาะสม cooling distribution unit จะดักจับความร้อนจากต้นทางและส่งต่อไปยัง dry cooler ซึ่งอยู่ในรูปคอยล์หม้อน้ำขนาดใหญ่นอกอาคาร
    • หลังเติมของเหลวเข้าระบบแล้ว loop จะทำงานแบบปิดตลอดอายุการใช้งานของสถานที่
    • พื้นที่ที่ใช้ภายใน AI factory จะลดลงอย่างมากเมื่อเทียบกับโครงสร้างพื้นฐานแบบ air cooling ดั้งเดิม

เงื่อนไขด้านภูมิอากาศและการใช้ประโยชน์จากความร้อนทิ้ง

  • เงื่อนไขทางภูมิศาสตร์เป็นข้อจำกัดสำคัญ
    • ดาต้าเซ็นเตอร์ใน Scottish Highlands และดาต้าเซ็นเตอร์ใน Phoenix, Arizona เผชิญความเป็นจริงด้านการหล่อเย็นที่ต่างกัน
  • แม้ในภูมิอากาศที่อุ่นกว่า น้ำหล่อเย็นที่ 45°C ก็ยังช่วยให้เข้าใกล้การดำเนินงานแบบไม่ใช้ chiller มากขึ้น
    • chiller อาจต้องเปิดใช้งานเฉพาะไม่กี่วันที่จำเป็นเพราะอุณหภูมิอากาศภายนอก
  • โมเดล AI factory แบบใหม่ยังเปิดโอกาสให้ นำความร้อนทิ้งกลับมาใช้ ได้ด้วย
    • ความร้อนส่วนเกินจากการดำเนินงานของ AI factory สามารถนำกลับไปใช้ให้ความร้อนแก่ใกล้เคียงอาคารพาณิชย์หรือที่อยู่อาศัยได้

การเปลี่ยนแปลงทางวิศวกรรมเพื่อการหล่อเย็นด้วยของเหลวทั้งหมด

  • เซิร์ฟเวอร์ที่ใช้ liquid cooling ในยุคก่อนเป็นโครงสร้างแบบไฮบริด
    • GPU และ CPU ใช้ cold plate
    • ส่วนที่เหลือของระบบยังพึ่งพาฮีตซิงก์แบบครีบและ air cooling
  • ในเซิร์ฟเวอร์แบบหล่อเย็นด้วยของเหลวทั้งหมด จำเป็นต้องออกแบบวิธีการหล่อเย็นขององค์ประกอบเหล่านี้ใหม่ให้เป็นแบบใช้ของเหลว
  • ทีมวิศวกรรมความร้อนของ NVIDIA ได้ทำให้วิธีส่งของเหลวไปยังชิปกำลังไฟสูงหลายตัวง่ายขึ้น
    • วางเส้นทางของเหลวไปยังชิปหลายตัวบนบอร์ดด้วย ทางเข้าและทางออกเพียงชุดเดียว
    • ทำให้ได้สถาปัตยกรรมการหล่อเย็นระดับ tray ที่เรียบง่ายและสะอาดขึ้น
  • รูปลักษณ์ของเซิร์ฟเวอร์และความหนาแน่นในการติดตั้งก็เปลี่ยนไปด้วย
    • เซิร์ฟเวอร์ Rubin มีแผงหน้าปิดทึบและเรียบสะอาด แทนที่จะเป็น bezel แบบมีรูพรุนของเซิร์ฟเวอร์ air cooling
    • เซิร์ฟเวอร์แบบหล่อเย็นด้วยของเหลวทั้งหมดรองรับความหนาแน่นของแร็กได้สูงกว่าเซิร์ฟเวอร์ air cooling
    • ระบบที่เคยใช้พื้นที่ 6U สามารถย่อมาอยู่ใน 2U ทำให้ได้คอมพิวต์มากขึ้นในพื้นที่และระดับเสียงที่น้อยลง

การขยายโครงสร้างพื้นฐาน AI และประสิทธิภาพการหล่อเย็น

  • เวิร์กโหลด AI ไม่ได้เบาลง
  • ความต้องการด้านคอมพิวต์ที่ผลักดันการสร้างดาต้าเซ็นเตอร์เพิ่มขึ้นเร็วกว่าการลงทุนด้านโครงสร้างพื้นฐานแทบทุกหมวด
  • หากไม่มีการปรับปรุงประสิทธิภาพของวิธีหล่อเย็นคอมพิวต์ ต้นทุนพลังงานของการดำเนินงาน AI ขนาดใหญ่จะเพิ่มขึ้นตามจำนวนฮาร์ดแวร์
  • liquid cooling ที่อุณหภูมิสูงสุด 45°C จึงเป็นเครื่องมือที่ช่วยลดช่องว่างระหว่างการขยายฮาร์ดแวร์กับต้นทุนการหล่อเย็น

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความเห็นจาก Hacker News
  • เงื่อนไขที่ว่า “พื้นที่ที่อากาศภายนอกเย็นอย่างสม่ำเสมอ” นี่แหละคือกับดัก
    ฟังดูเหมือนเป็นการบอกว่า “ไปสร้างดาต้าเซ็นเตอร์ในที่หนาวเพื่อประหยัดทรัพยากรในการทำความเย็น แล้วปล่อยความร้อนทิ้งทั้งหมดลงสู่สภาพแวดล้อมรอบข้างจนเกิดมลพิษ”
    เกือบคิดไปแล้วว่า Nvidia ทำอะไรดี ๆ ออกมา

    • เลยพอจะเข้าใจว่าทำไมถึงอยากได้ Greenland กันนัก
      อุณหภูมิต่ำ พื้นที่ว่างกว้างใหญ่ ประเด็นสิ่งแวดล้อมขนาดใหญ่มีไม่มาก และถึงมีก็อาจมีประชาชนออกมาคัดค้านไม่มากนัก
      ถ้าต้องใช้น้ำเพื่อหล่อเย็นเพิ่ม ก็น่าจะเอาจากน้ำแข็งที่กำลังละลายได้มากพอ
    • หน้าหนาวความร้อนนั้นน่าจะเป็นของมีค่ามากจริง ๆ
      ความร้อนฟรี ฟังดูไม่เลวเลย
      Linus ยังเอาความร้อน CPU ที่เหลือไปอุ่นสระว่ายน้ำ
      ประเด็นสำคัญคืออย่ากลัว แต่ต้องใช้อย่างชาญฉลาด และเพราะ AI กับดาต้าเซ็นเตอร์จะยังคงอยู่ต่อไป จึงอาจเอาความร้อนทิ้งไปสร้างรายได้แทนที่จะสู้กับมันได้
    • ไม่แน่ใจว่า ความร้อนทิ้งจากดาต้าเซ็นเตอร์ เป็นปัญหาจริงหรือเปล่า
      เคยได้ยินแค่ว่าความร้อนทิ้งจากโรงไฟฟ้านิวเคลียร์จะเป็นปัญหาเมื่อปล่อยน้ำหล่อเย็นลงแม่น้ำโดยตรง ไม่ใช่ลงทะเล
    • ถ้าเป็นเรื่อง latency ของ LLM ก็คงแทบไม่รู้สึกต่าง
    • ในประเทศหนาว น้ำอุ่นอาจมีประโยชน์มากทีเดียว
      เช่น เอาไปใช้กับ ระบบทำความร้อนในบ้าน ได้
  • เกิดซินเนอร์จีที่น่าสนใจ: ระบบทำความร้อนส่วนกลาง
    45°C แม้จะไม่สูง แต่ก็ไม่ได้ต่ำเกินไปจนใช้กับเครือข่ายหมุนเวียนของระบบทำความร้อนส่วนกลางไม่ได้ และถ้าดาต้าเซ็นเตอร์ให้ความร้อนฟรี ก็อาจเป็นข้อเสนอที่ดีมากสำหรับชุมชน
    มูลค่าที่ดาต้าเซ็นเตอร์ใกล้เคียงมีต่อชุมชนอาจเพิ่มจากแทบเป็นศูนย์ไปถึงหลายล้านดอลลาร์ต่อปี
    ฤดูร้อนยังคงเป็นปัญหาอยู่ แต่ก็อาจมีวิธีแก้ที่น่าสนใจได้
    ถ้าสภาพธรณีวิทยาเหมาะสม อาจอุ่นพื้นที่ใต้ดินไว้ในหน้าร้อน แล้วดึงความร้อนบางส่วนกลับมาใช้ในหน้าหนาวได้
    ในหลายเขตภูมิอากาศ ถ้าคนไม่ได้ใช้สกายไลต์แบบผิด ๆ ต้นทุนทำความร้อนต่อปีก็สูงกว่าต้นทุนทำความเย็นมาก [0]
    [0] คำนวณคร่าว ๆ ภาระทำความร้อนและทำความเย็นจากการนำความร้อนและการแลกเปลี่ยนอากาศจะแปรผันตามส่วนต่างอุณหภูมิระหว่างในอาคารกับภายนอก
    อุณหภูมิภายนอกฤดูหนาวที่ -10°F ถึง 30°F ไม่ใช่เรื่องแปลก และเมื่อเทียบกับอุณหภูมิภายใน 70°F ก็จะต่างกัน 40~80°F
    ขณะที่อุณหภูมิภายนอกฤดูร้อนในภูมิอากาศแบบนี้มักไม่ค่อยเกิน 95°F และโดยมากก็ต่ำกว่านั้น ทำให้ส่วนต่างสำหรับการทำความเย็นอยู่ราว 15~25°F
    ปั๊มความร้อนก็ยิ่งมีประสิทธิภาพดีขึ้นเมื่อส่วนต่างอุณหภูมิน้อยลง
    ระบบทำความร้อนแบบแผ่รังสีเป็นอีกเรื่องหนึ่งโดยสิ้นเชิง

    • ที่ Finland มีการเพิ่มอุณหภูมิความร้อนจากดาต้าเซ็นเตอร์ไปเป็น 60~90°C เพื่อใช้กับระบบทำความร้อนส่วนกลาง
      อาคารใหม่โดยทั่วไปก็นิยมใช้ปั๊มความร้อน [1]
      ดาต้าเซ็นเตอร์ขนาด 75MW ที่ Mäntsälä จ่ายความร้อนให้เมืองมานาน 10 ปี คิดเป็น 2/3 ของความต้องการทำความร้อนของเมือง หรือเทียบเท่า 2,500 ครัวเรือน [2]
      1. https://www.creatingsustainablecities.org.uk/post/case-study...
      2. https://www.sustainabilitymenews.com/waste-management/how-fi...
    • Microsoft กำลังก่อสร้างดาต้าเซ็นเตอร์ที่เชื่อมกับระบบทำความร้อนส่วนกลางอยู่แล้วใน Espoo และ Kirkkonummi ของ Finland
      ปั๊มความร้อนนี่น่าทึ่งจริง ๆ
      การกักเก็บความร้อนตามฤดูกาลก็เป็นเทคโนโลยีที่ใช้งานอยู่แล้ว และใกล้ Espoo ก็มีแหล่งเก็บขนาดหลายสิบ GWh รวมถึงคลังเก็บในถ้ำแห่งใหม่ขนาด 90GWh ที่กำลังดำเนินการอยู่
      ไม่แน่ใจว่าระบบเหล่านี้เชื่อมถึงกันหรือไม่
    • ที่ Netherlands มีการส่ง พลังงานเสีย ในรูปความร้อนไปยังเรือนกระจกเพื่อใช้ทำความร้อนในฤดูหนาวกันอยู่แล้ว
      น่าสนใจเหมือนกันที่บทความบอกว่าปัญหาทางวิศวกรรมนี้ไม่เคยถูกแก้มาก่อน
      Google เป็นฝ่ายบุกเบิกการเดินชิปที่อุณหภูมิสูงกว่าเดิมก่อน และในพีซีผู้บริโภคเอง ระบบระบายความร้อนด้วยน้ำก็มีมานานมากแล้ว
      อย่างน้อยก็ 30 ปี
      สิ่งที่ดูใหม่คือการเอาชิปทั้งหมดเข้าไปอยู่ในวงจรหมุนเวียนเดียวกัน แต่ยังหาไม่เจอว่า PSU จัดการอย่างไร
    • ถ้า 45°C เป็นอุณหภูมิฝั่งต่ำ ก็น่าจะส่งน้ำที่ร้อนกว่านี้ไปยังตัวแลกเปลี่ยนความร้อนฝั่งชุมชนได้ไม่ใช่หรือ
      แล้วอาจออกแบบให้ไหลกลับมาที่ต่ำกว่า 45°C ก็ได้
    • ในยุโรปเหนือมีการใช้อยู่แล้ว
      และก็น่าจะเป็นไปได้ว่าดาต้าเซ็นเตอร์ส่วนใหญ่ในซีกโลกเหนือที่มีฤดูหนาวหนาวเย็นก็กำลังทำแบบนั้นเช่นกัน
  • อาจเป็นเพราะฉันพลาดอะไรไป แต่ยังไม่ค่อยเข้าใจว่า นวัตกรรม ตรงนี้คืออะไร
    เข้าใจว่าใช้ของเหลวหล่อเย็นที่อุณหภูมิสูงกว่าปกติ แต่ไม่เข้าใจว่าทำไมก่อนหน้านี้ถึงทำไม่ได้
    การเปรียบเทียบในบทความส่วนใหญ่เทียบกับดาต้าเซ็นเตอร์แบบระบายความร้อนด้วยอากาศ แต่ถ้าเทียบกับดาต้าเซ็นเตอร์ระบายความร้อนด้วยน้ำอื่น ๆ แล้วเป็นอย่างไร
    ในการออกแบบดาต้าเซ็นเตอร์ก่อนหน้านี้ ก็น่าจะมีคนคำนวณอุณหภูมิการทำงานที่ต้องการ การใช้พลังงาน ปริมาณความร้อนที่เกิดขึ้น ฯลฯ ไว้อยู่แล้ว
    แก้ไข: เพิ่งเห็นส่วนนี้
    “เซิร์ฟเวอร์ระบายความร้อนด้วยน้ำแบบเดิมเป็นแบบไฮบริด GPU และ CPU ติด cold plate แต่ส่วนอื่นของระบบยังคงระบายความร้อนด้วยอากาศ และออกแบบให้ฮีตซิงก์แบบมีครีบระบายความร้อนด้วยอากาศที่ไหลผ่าน ในเซิร์ฟเวอร์แบบระบายความร้อนด้วยน้ำทั้งหมด ต้องออกแบบการระบายความร้อนขององค์ประกอบเหล่านี้ใหม่ทั้งหมดให้เป็นแบบใช้ของเหลว”

    • นวัตกรรม ก็คือตอนนี้ทุกชิ้นส่วนถูกต่อเข้ากับ บล็อกระบายความร้อนด้วยน้ำ แล้ว
      ที่เหลือก็ออกแนวการตลาดมากกว่า
      ซูเปอร์คอมพิวเตอร์ Cray ใช้การระบายความร้อนด้วยของไหลมาตั้งแต่ยุค 1980 แล้ว และมีของเหลวเฉื่อยไหลผ่านทั้งบอร์ด
    • ราวปี 2011 การที่บริษัทยักษ์ใหญ่เริ่มเดินระบบดาต้าเซ็นเตอร์แบบลมเย็นที่อุณหภูมิใกล้ 95°F(35°C) แทน 72°F(22°C) เดิม ดูเป็นการเปลี่ยนแปลงครั้งใหญ่พอสมควร
      จากตรงนั้นจะขยับขึ้นไปอีกนิด แม้อาจไม่ได้น่าตื่นเต้นมาก แต่ก็ยังนับว่าเป็นนวัตกรรมได้
    • ฮาร์ดแวร์ต้องถูกออกแบบให้ทำงานได้ในสภาวะที่ร้อนขึ้นอย่างต่อเนื่อง
      มีการแลกเปลี่ยนกันระหว่าง ต้นทุนการระบายความร้อน กับอัตราความเสียหาย/เงินลงทุนอุปกรณ์
    • เดาเอาว่า อาจไม่เคยมีการทำความเย็น CPU และ GPU แบบ “มีประสิทธิภาพ” ด้วยวิธีนี้ในระดับดาต้าเซ็นเตอร์มาก่อน
      ชิ้นส่วนพวกนี้ร้อนเกิน 100°C ได้ง่าย ดังนั้นการทำให้วงจรหมุนเวียนคงเสถียรที่ 55°C ต้องมีอะไรให้จัดการมากพอสมควร
      นวัตกรรมอาจอยู่ที่การควบคุมอุณหภูมิด้วยการส่งน้ำหล่อเย็นไปยังหลายส่วนของดาต้าเซ็นเตอร์ได้เร็วแค่ไหน และมากแค่ไหน
      แน่นอนว่ารวมถึงการออกแบบใหม่ให้ทุกชิ้นส่วนเข้ากับระบบไร้พัดลมด้วย
      ดูเหมือนเป็นสิ่งที่ทำได้เพราะ Nvidia มี การบูรณาการแนวดิ่ง มากกว่าแต่ก่อนมาก
    • เดิมทีระบบระบายความร้อนด้วยน้ำแบบปิดไม่ได้มีเหตุผลอะไรที่จะต้องใช้น้ำมหาศาลอยู่แล้ว
      แต่แนวทางสมัยใหม่กลับไปลงเอยที่การใช้น้ำแล้วปล่อยทิ้ง
      ดาต้าเซ็นเตอร์ก็ดูเหมือนโรงงานอุตสาหกรรมอื่น ๆ ที่ไปตั้งในเมือง/เคาน์ตี/รัฐที่ปล่อยให้ทำอะไรก็ได้ แล้วก็ดำเนินงานตามสะดวกจนคนชินว่าเป็นวิธีเดียว
      หลายชุมชนคัดค้านและบอกว่าเกิดผลกระทบต่อสิ่งแวดล้อมก็ยังถูกเมิน แต่ถ้าเป็น ข้อกำหนดทางเทคนิค คนอาจยอมรับมากกว่า
  • มีประโยคว่า “สถาปัตยกรรมระบายความร้อนด้วยของเหลว 45 องศาของ Nvidia ในสภาพภูมิอากาศที่เอื้ออำนวย...” ซึ่งแน่นอนว่าก็เลยสงสัยว่า สภาพภูมิอากาศที่เอื้ออำนวย นี่คืออะไรนอกจาก Greenland
    ในบทความมีข้อมูลน้อยเกินไปมากเกี่ยวกับความสัมพันธ์ระหว่างอุณหภูมิภายนอกกับประสิทธิภาพ/ต้นทุน
    ถ้ามีคำอธิบายคร่าว ๆ ก็คงดี

    • มหาวิทยาลัยในเยอรมนีที่ฉันเคยเรียนใช้ การระบายความร้อนอุณหภูมิสูง มาหลายปีแล้ว
      อากาศในเยอรมนีก็ร้อนได้ค่อนข้างสูง แต่จากที่ทีมเทคนิคบอก ต้องใช้ active cooling หรือก็คือการทำความเย็นแบบแอร์เฉพาะตอนอุณหภูมิอยู่ช่วงปลาย 30 กว่าองศาเท่านั้น
      เทคโนโลยีนี้ค่อนข้างน่าสนใจทีเดียว
      https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
    • พูดตรง ๆ นี่แหละเป็นส่วนหนึ่งของปัญหา
      ถ้าจะรับประกันอุณหภูมิน้ำออก 45°C อากาศภายนอกก็น่าจะต้องไม่เกินประมาณ 37°C
      ในพื้นที่ส่วนใหญ่ก็ยังต้องมี cooling tower หรือคอมเพรสเซอร์ในบางช่วงเวลาอยู่ดี เลยต้องสร้างโครงสร้างพื้นฐานพวกนี้ทั้งหมด
      ถึงอย่างนั้น แค่ลดปริมาณการใช้งานลงได้ก็ประหยัดน้ำหรือพลังงานได้มากแล้ว
      อย่างเช่นชานเมือง London อาจดูว่าอากาศค่อนข้างอ่อนโยน แต่สัปดาห์นี้อย่างเดียวก็น่าจะต้องใช้การระบายความร้อนเสริมแล้ว
      ถ้าเป็นดาต้าเซ็นเตอร์แถวนี้ ระบบทำความเย็นจะถูกออกแบบให้ทนกับอุณหภูมิภายนอกที่เกิน 40°C ได้ แต่ตอนนี้ตัวเลขนั้นก็ไม่ใช่สมมติฐานแบบเผื่อเหลือเผื่อขาดอีกต่อไป
      อีกอย่าง ถึง Nvidia จะโอเคกับน้ำจ่ายที่ 45°C แต่ฮาร์ดแวร์อาจมีอายุใช้งานยาวกว่าถ้าใช้อุณหภูมิต่ำกว่านั้น เช่น 35°C
      GPU มีราคาแพง และการยืดอายุการใช้งานอาจคุ้มกว่าการประหยัดน้ำหรือพลังงานเพิ่มอีกเล็กน้อย
      ในทางปฏิบัติ ก็น่าจะยังมีระบบแบบลมเย็นอยู่ “ข้าง ๆ” อุปกรณ์ประมวลผล AI เช่น เซิร์ฟเวอร์จัดเก็บข้อมูล อุปกรณ์ประมวลผล CPU เพิ่มเติม และ network switch
      ดังนั้นอาจยังต้องมีพื้นที่แยกและระบบทำความเย็นแยก
      แต่ถึงอย่างนั้นก็ยังเป็นความก้าวหน้าครั้งใหญ่
  • อ่านแล้วก็ยังไม่เข้าใจว่าทำไมถึงเป็น ความก้าวหน้าครั้งสำคัญ
    มันดูเหมือนวงจรหมุนเวียนระบายความร้อนแบบปิดที่มีอยู่แล้วในงานทำความเย็นเชิงพาณิชย์/อุตสาหกรรมส่วนใหญ่
    บทความบอกว่าในสภาพอากาศที่เหมาะสม สามารถเอาหม้อน้ำไปไว้ข้างนอกเพื่อระบายความร้อนจากวงจรน้ำ/ไกลคอลได้
    ถ้าอย่างนั้นนอกเขตอาร์กติกก็ยังต้องมีวงจรควบแน่นอยู่ดีไม่ใช่หรือ
    ฉันพลาดอะไรไปหรือเปล่า

  • Modular Supercomputing Facility ของ NASA Ames Research Center มีประสิทธิภาพมากทั้งด้านการใช้ไฟฟ้าและน้ำ
    ที่นี่ไม่ใช้เครื่องปรับอากาศ
    ชิปใช้การระบายความร้อนด้วยน้ำ และเท่าที่รู้ อุณหภูมิน้ำเข้าก็ค่อนข้างสูง น่าจะประมาณ 90 องศาฟาเรนไฮต์
    https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
    https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...

    • สำหรับคนที่ใช้หน่วยเมตริก/SI, 90°F คือ 32.22°C, 305.37K
      ตอนนี้กองทัพสหรัฐกับ NASA ก็ใช้ระบบเมตริกแล้วไม่ใช่เหรอ
  • สำหรับคนที่ผิดหวังกับบทความสไตล์ AI ที่อ่านแล้วน่าปวดหัว สรุปก็คือ นี่คือเรื่องเกี่ยวกับ การออกแบบดาต้าเซ็นเตอร์แบบระบายความร้อนด้วยของเหลวทั้งหมด
    วิธีระบายความร้อนเซิร์ฟเวอร์ทั่วไปก็เหมือนเดสก์ท็อปหรือโน้ตบุ๊ก คือเอาฮีตซิงก์ไปติดกับฮาร์ดแวร์ที่ร้อนแล้วใช้ลมระบาย
    ยิ่งฮาร์ดแวร์หนาแน่นและทรงพลังขึ้น ก็ยิ่งต้องใช้ฮีตซิงก์ที่ใหญ่ขึ้นและอากาศที่เย็นลง
    พอถึงจุดหนึ่งก็ไม่สามารถทำฮีตซิงก์ให้ใหญ่กว่านี้ได้อีกเพราะข้อจำกัดด้านพื้นที่ และก็ไม่สามารถเป่าลมให้แรงขึ้นได้อีกเพราะเรื่องเสียงรบกวนและประสิทธิภาพ
    จากนั้นก็ต้องไปใช้เครื่องทำความเย็นที่อาศัยการระเหยของน้ำเพื่อทำให้อากาศขาเข้าเย็นลง
    ตรงนี้เองที่เกิดการใช้น้ำมหาศาลซึ่งเราอยากหลีกเลี่ยง
    ขั้นต่อไปอย่างเป็นธรรมชาติก็คือการระบายความร้อนด้วยของเหลว
    ซึ่งก็คล้ายกับเดสก์ท็อปเกมมิ่งระดับสูง
    ภายในที่มีพื้นที่จำกัดจะใช้ตัวแลกเปลี่ยนความร้อนขนาดเล็กถ่ายเทความร้อนจำนวนมากไปยังตัวกลางของเหลว ส่วนภายนอกแม้อุณหภูมิของน้ำหล่อเย็นกับอากาศภายนอกจะต่างกันไม่มาก ก็ยังสามารถระบายความร้อนทิ้งได้ด้วยตัวแลกเปลี่ยนความร้อนขนาดใหญ่
    บทความนี้พูดถึงระบบที่ ระบายความร้อนด้วยของเหลวทั้งหมด ตั้งแต่ CPU, GPU, หน่วยความจำ ไปจนถึงระบบเครือข่าย
    นั่นแหละคือส่วนที่เจ๋งจริง
    นอกจากนี้โซลูชันนี้ยังถูกปรับให้เหมาะกับการเดินระบบด้วยน้ำหล่อเย็นที่ค่อนข้างอุ่น
    สิ่งนี้จำกัดฟลักซ์ความร้อนฝั่งฮาร์ดแวร์ แต่ทำให้ตัวแลกเปลี่ยนความร้อนภายนอกทำงานแบบ “แห้ง” ได้ จึงไม่ต้องสิ้นเปลืองความร้อนแฝงของน้ำ

  • เมื่อเทียบกับการใช้น้ำในด้านอื่น ๆ อีกหลายแบบแล้ว การใช้น้ำของดาต้าเซ็นเตอร์ก็แทบจะใกล้ศูนย์อยู่แล้ว
    เห็นทีไรก็หดหู่เสมอเวลาที่มีการทุ่มแรงกันมาก พร้อมโหมประชาสัมพันธ์ใหญ่โตว่าเป็น “การแก้ปัญหา” ทั้งที่จริง ๆ แล้วมันใกล้เคียงกับปัญหาเรื่อง PR หรือภาพลักษณ์ตั้งแต่แรก

    • ก็น่าจะรู้นะว่า คำว่า “เมื่อเทียบกับการใช้งานอื่น ๆ อีกหลายแบบ” ที่กำกวมแบบนี้ ทำให้สิ่งที่คุณพยายามจะพูดอ่อนลงไปหมด
  • ทำไมต้อง 45°C และทำไมต้องเป็น การระบายความร้อนด้วยน้ำ
    มันให้ความรู้สึกว่าเป็นการเลือกที่แปลกที่ออกแบบทุกอย่างให้ยึดกับอุณหภูมิห้องหรืออากาศที่เย็นกว่านั้นเล็กน้อย
    ตอนนี้ก็อยู่แถว ๆ 290K~300K แล้ว ไม่ใช่ว่านี่กำลังบอกว่ามันทำงานได้ดีที่ 320K หรือ 330K แล้วหรือ
    เลยสงสัยว่าทำไมไม่ออกแบบให้ทำงานแถว ๆ 200°C ไปเลย แล้วใช้ free cooling ด้วยการดันอากาศรอบข้างเข้าไป
    ทำไมดาต้าเซ็นเตอร์ถึงไม่หน้าตาเหมือนเล้าไก่
    มีอะไรละลายหรือเปล่า
    หรือว่าที่อุณหภูมิสูงจะมีข้อผิดพลาดอีกประเภทเกิดขึ้นมากกว่าเดิม

    • วัสดุสารกึ่งตัวนำมี band gap ค่อนข้างเล็ก
      มันคือวัสดุที่แค่ได้รับพลังงานเพิ่มอีกนิดเดียวก็เปลี่ยนจากฉนวนเป็นตัวนำได้
      ในทางกลับกัน ฉนวนที่ดีจะไหม้หรือกลายเป็นพลาสมาก่อนที่จะเริ่มนำไฟฟ้า
      สุดท้ายแล้วพลังงานก็คือพลังงาน ดังนั้นถ้าความร้อนรอบข้างสูงพอ band gap ที่เล็กก็ทำให้อิเล็กตรอนถูกผลักขึ้นไปสู่วงโคจรที่สูงกว่าได้
      เรื่องแบบนี้เกิดขึ้นได้แม้ในอุณหภูมิแวดล้อมปกติ แต่โดยทั่วไปอิเล็กตรอนจะไปได้ไม่ไกลและมีจำนวนไม่มาก
      ที่ 200°C เกตที่ปิดอยู่จะไม่สามารถขัดขวางการเคลื่อนที่ของอิเล็กตรอนได้ดีพอ
      นี่คือคำอธิบายเชิงเทคนิคแบบคร่าว ๆ และใน YouTube ช่อง Project in Flight มีวิดีโอที่อธิบายหลักการทำงานของสารกึ่งตัวนำไว้ดี
    • การทำให้ชิปแบบนี้ทำงานที่ 200°C เป็นเรื่องยากมาก
      คุณสมบัติทางไฟฟ้าของสารกึ่งตัวนำเปลี่ยนไปมากตามอุณหภูมิ
      มันน่าจะต้องใช้ชิปคนละแบบและกระบวนการผลิตคนละแบบไปเลย