- เมื่อความหนาแน่นพลังงานของเซิร์ฟเวอร์ AI สูงขึ้น การหล่อเย็นจึงกลายเป็นคอขวดหลักของต้นทุนและการใช้น้ำในดาต้าเซ็นเตอร์ และ NVIDIA ได้ชูการออกแบบที่เดินระบบน้ำหล่อเย็นได้สูงสุดถึง 45°C ในยุค Rubin
- โครงสร้างพื้นฐาน AI ยุค Rubin ใช้สถาปัตยกรรม liquid cooling 100% ที่ทำความเย็นให้ทั้งชิปและองค์ประกอบเครือข่ายโดยไม่ต้องใช้พัดลม โดยมี closed loop และ dry cooler เป็นแกนหลัก
- ในสภาพภูมิอากาศที่เหมาะสม สามารถลดการใช้น้ำที่ระบบเดิมแบบคูลลิงทาวเวอร์ใช้ราว 2.6 ล้านแกลลอนต่อเมกะวัตต์ต่อปี ลงได้เกือบเป็นศูนย์ หรือประหยัดได้สูงสุด 100%
- น้ำหล่อเย็นที่อุณหภูมิ 45°C จะดูดซับความร้อนจากชิปและออกมาที่ราว 55°C แต่ยังคงอยู่ภายในขีดจำกัดการทำงานที่ผ่านการรับรอง และทำให้เซิร์ฟเวอร์พึ่งพาอากาศเย็นน้อยลง
- การหล่อเย็นด้วยของเหลวทั้งหมดช่วยลดพัดลม ทางเดินลมเย็น-ลมร้อน และพื้นที่สำหรับโครงสร้างพื้นฐานแบบ air cooling พร้อมเพิ่มความหนาแน่นของแร็ก เพื่อลด ภาระต้นทุนการหล่อเย็น จากความต้องการคอมพิวต์ AI ที่เพิ่มขึ้น
การหล่อเย็นด้วยของเหลว 100% ในยุค Rubin
- เซิร์ฟเวอร์ AI รุ่นล่าสุดของ NVIDIA สามารถเดินระบบน้ำหล่อเย็นได้สูงสุดถึง 45°C หรือ 113°F
- โครงสร้างพื้นฐาน AI ของ NVIDIA ในยุค Rubin ทำได้ถึง liquid cooling 100% ที่ระบายความร้อนให้ชิปและองค์ประกอบเครือข่ายทั้งหมดด้วยของเหลว
- ไม่มีพัดลมในระบบเลย
- การหล่อเย็นเกิดขึ้นภายใน closed loop
- แนวทางนี้ถูกรวมอยู่ในแบบอ้างอิง AI factory NVIDIA DSX ซึ่งรวบรวมแนวปฏิบัติที่ดีสำหรับการออกแบบ สร้าง และดำเนินงานสแตกโครงสร้างพื้นฐาน AI factory
- ในขณะที่แต่ละเจเนอเรชันเพิ่มประสิทธิภาพการประมวลผลต่อวัตต์ โครงสร้างพื้นฐาน AI compute แบบหล่อเย็นด้วยของเหลวทั้งหมดสามารถลด การใช้พลังงานเพื่อการหล่อเย็น ของดาต้าเซ็นเตอร์ hyperscale ได้อย่างมาก
โครงสร้างที่ช่วยลดการใช้น้ำและพลังงาน
- แบบอ้างอิง NVIDIA DSX AI factory ตั้งเป้า การใช้น้ำเป็นศูนย์ และมุ่งลดทั้งการใช้พลังงานจำนวนมากและการใช้น้ำเกือบทั้งหมด
- การออกแบบที่อิง dry cooler เป็นระบบ closed loop จึงไม่ใช้การทำความเย็นด้วยน้ำแบบระเหย
- ในบางสภาพภูมิอากาศ อาจต้องใช้ chiller เพียงประมาณ 1% ของเวลาทั้งปี
- ในอดีต การหล่อเย็นอาจคิดเป็นสัดส่วนสูงสุดถึง 40% ของการใช้พลังงานในดาต้าเซ็นเตอร์
- ตามการประเมินของอุตสาหกรรม หากเพิ่มอุณหภูมิของ chiller plant ขึ้น 1°C จะช่วยลดต้นทุนพลังงานสำหรับการหล่อเย็นได้ราว 4%
- ศูนย์ hyperscale ระดับ 50MW หากเปลี่ยนมาใช้โครงสร้างพื้นฐานแบบ liquid cooling จะสามารถประหยัดต้นทุนพลังงานและค่าน้ำที่เกี่ยวข้องกับการหล่อเย็นได้มากกว่า 4 ล้านดอลลาร์ต่อปี
- ในสภาพภูมิอากาศที่เหมาะสม สถาปัตยกรรม liquid cooling ที่ 45°C ทำให้สามารถดำเนินงานได้โดยไม่ต้องใช้ chiller และลดการใช้น้ำราว 2.6 ล้านแกลลอนต่อเมกะวัตต์ต่อปี ของระบบเดิมที่อิงคูลลิงทาวเวอร์ลงได้เกือบเป็นศูนย์
ดาต้าเซ็นเตอร์ที่เย็นจัดไม่ได้มีประสิทธิภาพเสมอไป
- อุตสาหกรรมนี้เคยมีความเชื่อกันมานานว่าดาต้าเซ็นเตอร์ที่เย็นคือดาต้าเซ็นเตอร์ที่มีประสิทธิภาพ
- แต่ในความเป็นจริง ชิปสามารถทำงานได้ในสภาพแวดล้อมที่อุ่นกว่าที่หลายคนคาดคิดมาก
- เมื่อน้ำหล่อเย็น 45°C ไหลเข้าสู่ชิปที่ใช้การหล่อเย็นด้วยของเหลวทั้งหมด มันจะดูดซับความร้อนจากผิวชิปและไหลออกมาที่ราว 55°C
- แม้ในกระบวนการนี้ ประสิทธิภาพก็ไม่ลดลง
- cold plate ของระบบ liquid cooling จะรักษาอุณหภูมิของอุปกรณ์ให้อยู่ภายในขีดจำกัดการทำงานที่ผ่านการรับรอง
- แม้น้ำหล่อเย็นที่เข้าสู่แร็กจะมีอุณหภูมิ 45°C โปรเซสเซอร์ก็ยังทำงานที่ประสิทธิภาพสูงสุดได้อย่างต่อเนื่อง
- เนื่องจากเซิร์ฟเวอร์ไม่ต้องพึ่งพาอากาศเย็น อุณหภูมิอากาศโดยรอบของดาต้าเซ็นเตอร์จึงตั้งค่าได้ยืดหยุ่นมากขึ้น
โครงสร้างเซิร์ฟเวอร์ที่ลดพัดลมและทางเดินลมเย็น-ลมร้อน
- ดาต้าเซ็นเตอร์แบบดั้งเดิมพึ่งพาเสียงพัดลมและการจัดการทางเดินลมเย็น-ลมร้อนอย่างมาก
- พัดลมระบายความร้อนสามารถเพิ่มระดับเสียงรวมได้เกิน 85dB
- ระดับนี้ดังมากพอที่จะต้องใช้อุปกรณ์ป้องกันหู
- สถาปัตยกรรม Rubin เปลี่ยนแกนของการหล่อเย็นจากการไหลของอากาศไปเป็น liquid loop
- น้ำหล่อเย็นประกอบด้วย น้ำ 75% และ propylene glycol 25%
- น้ำหล่อเย็นนี้จะไหลผ่าน cold plate ที่วางอยู่บนโปรเซสเซอร์โดยตรง เพื่อดูดซับความร้อนจากต้นทาง
- เมื่อเดินระบบน้ำหล่อเย็นที่อุณหภูมิสูงสุด 45°C สิ่งอำนวยความสะดวกสามารถระบายความร้อนได้โดยไม่ต้องใช้ mechanical chiller และพัดลมเสียงดังในหลายสภาพภูมิอากาศ
- ในพื้นที่ที่เหมาะสม cooling distribution unit จะดักจับความร้อนจากต้นทางและส่งต่อไปยัง dry cooler ซึ่งอยู่ในรูปคอยล์หม้อน้ำขนาดใหญ่นอกอาคาร
- หลังเติมของเหลวเข้าระบบแล้ว loop จะทำงานแบบปิดตลอดอายุการใช้งานของสถานที่
- พื้นที่ที่ใช้ภายใน AI factory จะลดลงอย่างมากเมื่อเทียบกับโครงสร้างพื้นฐานแบบ air cooling ดั้งเดิม
เงื่อนไขด้านภูมิอากาศและการใช้ประโยชน์จากความร้อนทิ้ง
- เงื่อนไขทางภูมิศาสตร์เป็นข้อจำกัดสำคัญ
- ดาต้าเซ็นเตอร์ใน Scottish Highlands และดาต้าเซ็นเตอร์ใน Phoenix, Arizona เผชิญความเป็นจริงด้านการหล่อเย็นที่ต่างกัน
- แม้ในภูมิอากาศที่อุ่นกว่า น้ำหล่อเย็นที่ 45°C ก็ยังช่วยให้เข้าใกล้การดำเนินงานแบบไม่ใช้ chiller มากขึ้น
- chiller อาจต้องเปิดใช้งานเฉพาะไม่กี่วันที่จำเป็นเพราะอุณหภูมิอากาศภายนอก
- โมเดล AI factory แบบใหม่ยังเปิดโอกาสให้ นำความร้อนทิ้งกลับมาใช้ ได้ด้วย
- ความร้อนส่วนเกินจากการดำเนินงานของ AI factory สามารถนำกลับไปใช้ให้ความร้อนแก่ใกล้เคียงอาคารพาณิชย์หรือที่อยู่อาศัยได้
การเปลี่ยนแปลงทางวิศวกรรมเพื่อการหล่อเย็นด้วยของเหลวทั้งหมด
- เซิร์ฟเวอร์ที่ใช้ liquid cooling ในยุคก่อนเป็นโครงสร้างแบบไฮบริด
- GPU และ CPU ใช้ cold plate
- ส่วนที่เหลือของระบบยังพึ่งพาฮีตซิงก์แบบครีบและ air cooling
- ในเซิร์ฟเวอร์แบบหล่อเย็นด้วยของเหลวทั้งหมด จำเป็นต้องออกแบบวิธีการหล่อเย็นขององค์ประกอบเหล่านี้ใหม่ให้เป็นแบบใช้ของเหลว
- ทีมวิศวกรรมความร้อนของ NVIDIA ได้ทำให้วิธีส่งของเหลวไปยังชิปกำลังไฟสูงหลายตัวง่ายขึ้น
- วางเส้นทางของเหลวไปยังชิปหลายตัวบนบอร์ดด้วย ทางเข้าและทางออกเพียงชุดเดียว
- ทำให้ได้สถาปัตยกรรมการหล่อเย็นระดับ tray ที่เรียบง่ายและสะอาดขึ้น
- รูปลักษณ์ของเซิร์ฟเวอร์และความหนาแน่นในการติดตั้งก็เปลี่ยนไปด้วย
- เซิร์ฟเวอร์ Rubin มีแผงหน้าปิดทึบและเรียบสะอาด แทนที่จะเป็น bezel แบบมีรูพรุนของเซิร์ฟเวอร์ air cooling
- เซิร์ฟเวอร์แบบหล่อเย็นด้วยของเหลวทั้งหมดรองรับความหนาแน่นของแร็กได้สูงกว่าเซิร์ฟเวอร์ air cooling
- ระบบที่เคยใช้พื้นที่ 6U สามารถย่อมาอยู่ใน 2U ทำให้ได้คอมพิวต์มากขึ้นในพื้นที่และระดับเสียงที่น้อยลง
การขยายโครงสร้างพื้นฐาน AI และประสิทธิภาพการหล่อเย็น
- เวิร์กโหลด AI ไม่ได้เบาลง
- ความต้องการด้านคอมพิวต์ที่ผลักดันการสร้างดาต้าเซ็นเตอร์เพิ่มขึ้นเร็วกว่าการลงทุนด้านโครงสร้างพื้นฐานแทบทุกหมวด
- หากไม่มีการปรับปรุงประสิทธิภาพของวิธีหล่อเย็นคอมพิวต์ ต้นทุนพลังงานของการดำเนินงาน AI ขนาดใหญ่จะเพิ่มขึ้นตามจำนวนฮาร์ดแวร์
- liquid cooling ที่อุณหภูมิสูงสุด 45°C จึงเป็นเครื่องมือที่ช่วยลดช่องว่างระหว่างการขยายฮาร์ดแวร์กับต้นทุนการหล่อเย็น
1 ความคิดเห็น
ความเห็นจาก Hacker News
เงื่อนไขที่ว่า “พื้นที่ที่อากาศภายนอกเย็นอย่างสม่ำเสมอ” นี่แหละคือกับดัก
ฟังดูเหมือนเป็นการบอกว่า “ไปสร้างดาต้าเซ็นเตอร์ในที่หนาวเพื่อประหยัดทรัพยากรในการทำความเย็น แล้วปล่อยความร้อนทิ้งทั้งหมดลงสู่สภาพแวดล้อมรอบข้างจนเกิดมลพิษ”
เกือบคิดไปแล้วว่า Nvidia ทำอะไรดี ๆ ออกมา
อุณหภูมิต่ำ พื้นที่ว่างกว้างใหญ่ ประเด็นสิ่งแวดล้อมขนาดใหญ่มีไม่มาก และถึงมีก็อาจมีประชาชนออกมาคัดค้านไม่มากนัก
ถ้าต้องใช้น้ำเพื่อหล่อเย็นเพิ่ม ก็น่าจะเอาจากน้ำแข็งที่กำลังละลายได้มากพอ
ความร้อนฟรี ฟังดูไม่เลวเลย
Linus ยังเอาความร้อน CPU ที่เหลือไปอุ่นสระว่ายน้ำ
ประเด็นสำคัญคืออย่ากลัว แต่ต้องใช้อย่างชาญฉลาด และเพราะ AI กับดาต้าเซ็นเตอร์จะยังคงอยู่ต่อไป จึงอาจเอาความร้อนทิ้งไปสร้างรายได้แทนที่จะสู้กับมันได้
เคยได้ยินแค่ว่าความร้อนทิ้งจากโรงไฟฟ้านิวเคลียร์จะเป็นปัญหาเมื่อปล่อยน้ำหล่อเย็นลงแม่น้ำโดยตรง ไม่ใช่ลงทะเล
เช่น เอาไปใช้กับ ระบบทำความร้อนในบ้าน ได้
เกิดซินเนอร์จีที่น่าสนใจ: ระบบทำความร้อนส่วนกลาง
45°C แม้จะไม่สูง แต่ก็ไม่ได้ต่ำเกินไปจนใช้กับเครือข่ายหมุนเวียนของระบบทำความร้อนส่วนกลางไม่ได้ และถ้าดาต้าเซ็นเตอร์ให้ความร้อนฟรี ก็อาจเป็นข้อเสนอที่ดีมากสำหรับชุมชน
มูลค่าที่ดาต้าเซ็นเตอร์ใกล้เคียงมีต่อชุมชนอาจเพิ่มจากแทบเป็นศูนย์ไปถึงหลายล้านดอลลาร์ต่อปี
ฤดูร้อนยังคงเป็นปัญหาอยู่ แต่ก็อาจมีวิธีแก้ที่น่าสนใจได้
ถ้าสภาพธรณีวิทยาเหมาะสม อาจอุ่นพื้นที่ใต้ดินไว้ในหน้าร้อน แล้วดึงความร้อนบางส่วนกลับมาใช้ในหน้าหนาวได้
ในหลายเขตภูมิอากาศ ถ้าคนไม่ได้ใช้สกายไลต์แบบผิด ๆ ต้นทุนทำความร้อนต่อปีก็สูงกว่าต้นทุนทำความเย็นมาก [0]
[0] คำนวณคร่าว ๆ ภาระทำความร้อนและทำความเย็นจากการนำความร้อนและการแลกเปลี่ยนอากาศจะแปรผันตามส่วนต่างอุณหภูมิระหว่างในอาคารกับภายนอก
อุณหภูมิภายนอกฤดูหนาวที่ -10°F ถึง 30°F ไม่ใช่เรื่องแปลก และเมื่อเทียบกับอุณหภูมิภายใน 70°F ก็จะต่างกัน 40~80°F
ขณะที่อุณหภูมิภายนอกฤดูร้อนในภูมิอากาศแบบนี้มักไม่ค่อยเกิน 95°F และโดยมากก็ต่ำกว่านั้น ทำให้ส่วนต่างสำหรับการทำความเย็นอยู่ราว 15~25°F
ปั๊มความร้อนก็ยิ่งมีประสิทธิภาพดีขึ้นเมื่อส่วนต่างอุณหภูมิน้อยลง
ระบบทำความร้อนแบบแผ่รังสีเป็นอีกเรื่องหนึ่งโดยสิ้นเชิง
อาคารใหม่โดยทั่วไปก็นิยมใช้ปั๊มความร้อน [1]
ดาต้าเซ็นเตอร์ขนาด 75MW ที่ Mäntsälä จ่ายความร้อนให้เมืองมานาน 10 ปี คิดเป็น 2/3 ของความต้องการทำความร้อนของเมือง หรือเทียบเท่า 2,500 ครัวเรือน [2]
ปั๊มความร้อนนี่น่าทึ่งจริง ๆ
การกักเก็บความร้อนตามฤดูกาลก็เป็นเทคโนโลยีที่ใช้งานอยู่แล้ว และใกล้ Espoo ก็มีแหล่งเก็บขนาดหลายสิบ GWh รวมถึงคลังเก็บในถ้ำแห่งใหม่ขนาด 90GWh ที่กำลังดำเนินการอยู่
ไม่แน่ใจว่าระบบเหล่านี้เชื่อมถึงกันหรือไม่
น่าสนใจเหมือนกันที่บทความบอกว่าปัญหาทางวิศวกรรมนี้ไม่เคยถูกแก้มาก่อน
Google เป็นฝ่ายบุกเบิกการเดินชิปที่อุณหภูมิสูงกว่าเดิมก่อน และในพีซีผู้บริโภคเอง ระบบระบายความร้อนด้วยน้ำก็มีมานานมากแล้ว
อย่างน้อยก็ 30 ปี
สิ่งที่ดูใหม่คือการเอาชิปทั้งหมดเข้าไปอยู่ในวงจรหมุนเวียนเดียวกัน แต่ยังหาไม่เจอว่า PSU จัดการอย่างไร
แล้วอาจออกแบบให้ไหลกลับมาที่ต่ำกว่า 45°C ก็ได้
และก็น่าจะเป็นไปได้ว่าดาต้าเซ็นเตอร์ส่วนใหญ่ในซีกโลกเหนือที่มีฤดูหนาวหนาวเย็นก็กำลังทำแบบนั้นเช่นกัน
อาจเป็นเพราะฉันพลาดอะไรไป แต่ยังไม่ค่อยเข้าใจว่า นวัตกรรม ตรงนี้คืออะไร
เข้าใจว่าใช้ของเหลวหล่อเย็นที่อุณหภูมิสูงกว่าปกติ แต่ไม่เข้าใจว่าทำไมก่อนหน้านี้ถึงทำไม่ได้
การเปรียบเทียบในบทความส่วนใหญ่เทียบกับดาต้าเซ็นเตอร์แบบระบายความร้อนด้วยอากาศ แต่ถ้าเทียบกับดาต้าเซ็นเตอร์ระบายความร้อนด้วยน้ำอื่น ๆ แล้วเป็นอย่างไร
ในการออกแบบดาต้าเซ็นเตอร์ก่อนหน้านี้ ก็น่าจะมีคนคำนวณอุณหภูมิการทำงานที่ต้องการ การใช้พลังงาน ปริมาณความร้อนที่เกิดขึ้น ฯลฯ ไว้อยู่แล้ว
แก้ไข: เพิ่งเห็นส่วนนี้
“เซิร์ฟเวอร์ระบายความร้อนด้วยน้ำแบบเดิมเป็นแบบไฮบริด GPU และ CPU ติด cold plate แต่ส่วนอื่นของระบบยังคงระบายความร้อนด้วยอากาศ และออกแบบให้ฮีตซิงก์แบบมีครีบระบายความร้อนด้วยอากาศที่ไหลผ่าน ในเซิร์ฟเวอร์แบบระบายความร้อนด้วยน้ำทั้งหมด ต้องออกแบบการระบายความร้อนขององค์ประกอบเหล่านี้ใหม่ทั้งหมดให้เป็นแบบใช้ของเหลว”
ที่เหลือก็ออกแนวการตลาดมากกว่า
ซูเปอร์คอมพิวเตอร์ Cray ใช้การระบายความร้อนด้วยของไหลมาตั้งแต่ยุค 1980 แล้ว และมีของเหลวเฉื่อยไหลผ่านทั้งบอร์ด
จากตรงนั้นจะขยับขึ้นไปอีกนิด แม้อาจไม่ได้น่าตื่นเต้นมาก แต่ก็ยังนับว่าเป็นนวัตกรรมได้
มีการแลกเปลี่ยนกันระหว่าง ต้นทุนการระบายความร้อน กับอัตราความเสียหาย/เงินลงทุนอุปกรณ์
ชิ้นส่วนพวกนี้ร้อนเกิน 100°C ได้ง่าย ดังนั้นการทำให้วงจรหมุนเวียนคงเสถียรที่ 55°C ต้องมีอะไรให้จัดการมากพอสมควร
นวัตกรรมอาจอยู่ที่การควบคุมอุณหภูมิด้วยการส่งน้ำหล่อเย็นไปยังหลายส่วนของดาต้าเซ็นเตอร์ได้เร็วแค่ไหน และมากแค่ไหน
แน่นอนว่ารวมถึงการออกแบบใหม่ให้ทุกชิ้นส่วนเข้ากับระบบไร้พัดลมด้วย
ดูเหมือนเป็นสิ่งที่ทำได้เพราะ Nvidia มี การบูรณาการแนวดิ่ง มากกว่าแต่ก่อนมาก
แต่แนวทางสมัยใหม่กลับไปลงเอยที่การใช้น้ำแล้วปล่อยทิ้ง
ดาต้าเซ็นเตอร์ก็ดูเหมือนโรงงานอุตสาหกรรมอื่น ๆ ที่ไปตั้งในเมือง/เคาน์ตี/รัฐที่ปล่อยให้ทำอะไรก็ได้ แล้วก็ดำเนินงานตามสะดวกจนคนชินว่าเป็นวิธีเดียว
หลายชุมชนคัดค้านและบอกว่าเกิดผลกระทบต่อสิ่งแวดล้อมก็ยังถูกเมิน แต่ถ้าเป็น ข้อกำหนดทางเทคนิค คนอาจยอมรับมากกว่า
มีประโยคว่า “สถาปัตยกรรมระบายความร้อนด้วยของเหลว 45 องศาของ Nvidia ในสภาพภูมิอากาศที่เอื้ออำนวย...” ซึ่งแน่นอนว่าก็เลยสงสัยว่า สภาพภูมิอากาศที่เอื้ออำนวย นี่คืออะไรนอกจาก Greenland
ในบทความมีข้อมูลน้อยเกินไปมากเกี่ยวกับความสัมพันธ์ระหว่างอุณหภูมิภายนอกกับประสิทธิภาพ/ต้นทุน
ถ้ามีคำอธิบายคร่าว ๆ ก็คงดี
อากาศในเยอรมนีก็ร้อนได้ค่อนข้างสูง แต่จากที่ทีมเทคนิคบอก ต้องใช้ active cooling หรือก็คือการทำความเย็นแบบแอร์เฉพาะตอนอุณหภูมิอยู่ช่วงปลาย 30 กว่าองศาเท่านั้น
เทคโนโลยีนี้ค่อนข้างน่าสนใจทีเดียว
https://www.kit.edu/kit/english/pi_2024_038_kit-supercompute...
ถ้าจะรับประกันอุณหภูมิน้ำออก 45°C อากาศภายนอกก็น่าจะต้องไม่เกินประมาณ 37°C
ในพื้นที่ส่วนใหญ่ก็ยังต้องมี cooling tower หรือคอมเพรสเซอร์ในบางช่วงเวลาอยู่ดี เลยต้องสร้างโครงสร้างพื้นฐานพวกนี้ทั้งหมด
ถึงอย่างนั้น แค่ลดปริมาณการใช้งานลงได้ก็ประหยัดน้ำหรือพลังงานได้มากแล้ว
อย่างเช่นชานเมือง London อาจดูว่าอากาศค่อนข้างอ่อนโยน แต่สัปดาห์นี้อย่างเดียวก็น่าจะต้องใช้การระบายความร้อนเสริมแล้ว
ถ้าเป็นดาต้าเซ็นเตอร์แถวนี้ ระบบทำความเย็นจะถูกออกแบบให้ทนกับอุณหภูมิภายนอกที่เกิน 40°C ได้ แต่ตอนนี้ตัวเลขนั้นก็ไม่ใช่สมมติฐานแบบเผื่อเหลือเผื่อขาดอีกต่อไป
อีกอย่าง ถึง Nvidia จะโอเคกับน้ำจ่ายที่ 45°C แต่ฮาร์ดแวร์อาจมีอายุใช้งานยาวกว่าถ้าใช้อุณหภูมิต่ำกว่านั้น เช่น 35°C
GPU มีราคาแพง และการยืดอายุการใช้งานอาจคุ้มกว่าการประหยัดน้ำหรือพลังงานเพิ่มอีกเล็กน้อย
ในทางปฏิบัติ ก็น่าจะยังมีระบบแบบลมเย็นอยู่ “ข้าง ๆ” อุปกรณ์ประมวลผล AI เช่น เซิร์ฟเวอร์จัดเก็บข้อมูล อุปกรณ์ประมวลผล CPU เพิ่มเติม และ network switch
ดังนั้นอาจยังต้องมีพื้นที่แยกและระบบทำความเย็นแยก
แต่ถึงอย่างนั้นก็ยังเป็นความก้าวหน้าครั้งใหญ่
อ่านแล้วก็ยังไม่เข้าใจว่าทำไมถึงเป็น ความก้าวหน้าครั้งสำคัญ
มันดูเหมือนวงจรหมุนเวียนระบายความร้อนแบบปิดที่มีอยู่แล้วในงานทำความเย็นเชิงพาณิชย์/อุตสาหกรรมส่วนใหญ่
บทความบอกว่าในสภาพอากาศที่เหมาะสม สามารถเอาหม้อน้ำไปไว้ข้างนอกเพื่อระบายความร้อนจากวงจรน้ำ/ไกลคอลได้
ถ้าอย่างนั้นนอกเขตอาร์กติกก็ยังต้องมีวงจรควบแน่นอยู่ดีไม่ใช่หรือ
ฉันพลาดอะไรไปหรือเปล่า
Modular Supercomputing Facility ของ NASA Ames Research Center มีประสิทธิภาพมากทั้งด้านการใช้ไฟฟ้าและน้ำ
ที่นี่ไม่ใช้เครื่องปรับอากาศ
ชิปใช้การระบายความร้อนด้วยน้ำ และเท่าที่รู้ อุณหภูมิน้ำเข้าก็ค่อนข้างสูง น่าจะประมาณ 90 องศาฟาเรนไฮต์
https://www.nasa.gov/centers-and-facilities/ames/doing-more-...
https://www.nas.nasa.gov/assets/nas/pdf/ModularSupercomputin...
ตอนนี้กองทัพสหรัฐกับ NASA ก็ใช้ระบบเมตริกแล้วไม่ใช่เหรอ
สำหรับคนที่ผิดหวังกับบทความสไตล์ AI ที่อ่านแล้วน่าปวดหัว สรุปก็คือ นี่คือเรื่องเกี่ยวกับ การออกแบบดาต้าเซ็นเตอร์แบบระบายความร้อนด้วยของเหลวทั้งหมด
วิธีระบายความร้อนเซิร์ฟเวอร์ทั่วไปก็เหมือนเดสก์ท็อปหรือโน้ตบุ๊ก คือเอาฮีตซิงก์ไปติดกับฮาร์ดแวร์ที่ร้อนแล้วใช้ลมระบาย
ยิ่งฮาร์ดแวร์หนาแน่นและทรงพลังขึ้น ก็ยิ่งต้องใช้ฮีตซิงก์ที่ใหญ่ขึ้นและอากาศที่เย็นลง
พอถึงจุดหนึ่งก็ไม่สามารถทำฮีตซิงก์ให้ใหญ่กว่านี้ได้อีกเพราะข้อจำกัดด้านพื้นที่ และก็ไม่สามารถเป่าลมให้แรงขึ้นได้อีกเพราะเรื่องเสียงรบกวนและประสิทธิภาพ
จากนั้นก็ต้องไปใช้เครื่องทำความเย็นที่อาศัยการระเหยของน้ำเพื่อทำให้อากาศขาเข้าเย็นลง
ตรงนี้เองที่เกิดการใช้น้ำมหาศาลซึ่งเราอยากหลีกเลี่ยง
ขั้นต่อไปอย่างเป็นธรรมชาติก็คือการระบายความร้อนด้วยของเหลว
ซึ่งก็คล้ายกับเดสก์ท็อปเกมมิ่งระดับสูง
ภายในที่มีพื้นที่จำกัดจะใช้ตัวแลกเปลี่ยนความร้อนขนาดเล็กถ่ายเทความร้อนจำนวนมากไปยังตัวกลางของเหลว ส่วนภายนอกแม้อุณหภูมิของน้ำหล่อเย็นกับอากาศภายนอกจะต่างกันไม่มาก ก็ยังสามารถระบายความร้อนทิ้งได้ด้วยตัวแลกเปลี่ยนความร้อนขนาดใหญ่
บทความนี้พูดถึงระบบที่ ระบายความร้อนด้วยของเหลวทั้งหมด ตั้งแต่ CPU, GPU, หน่วยความจำ ไปจนถึงระบบเครือข่าย
นั่นแหละคือส่วนที่เจ๋งจริง
นอกจากนี้โซลูชันนี้ยังถูกปรับให้เหมาะกับการเดินระบบด้วยน้ำหล่อเย็นที่ค่อนข้างอุ่น
สิ่งนี้จำกัดฟลักซ์ความร้อนฝั่งฮาร์ดแวร์ แต่ทำให้ตัวแลกเปลี่ยนความร้อนภายนอกทำงานแบบ “แห้ง” ได้ จึงไม่ต้องสิ้นเปลืองความร้อนแฝงของน้ำ
เมื่อเทียบกับการใช้น้ำในด้านอื่น ๆ อีกหลายแบบแล้ว การใช้น้ำของดาต้าเซ็นเตอร์ก็แทบจะใกล้ศูนย์อยู่แล้ว
เห็นทีไรก็หดหู่เสมอเวลาที่มีการทุ่มแรงกันมาก พร้อมโหมประชาสัมพันธ์ใหญ่โตว่าเป็น “การแก้ปัญหา” ทั้งที่จริง ๆ แล้วมันใกล้เคียงกับปัญหาเรื่อง PR หรือภาพลักษณ์ตั้งแต่แรก
ทำไมต้อง 45°C และทำไมต้องเป็น การระบายความร้อนด้วยน้ำ
มันให้ความรู้สึกว่าเป็นการเลือกที่แปลกที่ออกแบบทุกอย่างให้ยึดกับอุณหภูมิห้องหรืออากาศที่เย็นกว่านั้นเล็กน้อย
ตอนนี้ก็อยู่แถว ๆ 290K~300K แล้ว ไม่ใช่ว่านี่กำลังบอกว่ามันทำงานได้ดีที่ 320K หรือ 330K แล้วหรือ
เลยสงสัยว่าทำไมไม่ออกแบบให้ทำงานแถว ๆ 200°C ไปเลย แล้วใช้ free cooling ด้วยการดันอากาศรอบข้างเข้าไป
ทำไมดาต้าเซ็นเตอร์ถึงไม่หน้าตาเหมือนเล้าไก่
มีอะไรละลายหรือเปล่า
หรือว่าที่อุณหภูมิสูงจะมีข้อผิดพลาดอีกประเภทเกิดขึ้นมากกว่าเดิม
มันคือวัสดุที่แค่ได้รับพลังงานเพิ่มอีกนิดเดียวก็เปลี่ยนจากฉนวนเป็นตัวนำได้
ในทางกลับกัน ฉนวนที่ดีจะไหม้หรือกลายเป็นพลาสมาก่อนที่จะเริ่มนำไฟฟ้า
สุดท้ายแล้วพลังงานก็คือพลังงาน ดังนั้นถ้าความร้อนรอบข้างสูงพอ band gap ที่เล็กก็ทำให้อิเล็กตรอนถูกผลักขึ้นไปสู่วงโคจรที่สูงกว่าได้
เรื่องแบบนี้เกิดขึ้นได้แม้ในอุณหภูมิแวดล้อมปกติ แต่โดยทั่วไปอิเล็กตรอนจะไปได้ไม่ไกลและมีจำนวนไม่มาก
ที่ 200°C เกตที่ปิดอยู่จะไม่สามารถขัดขวางการเคลื่อนที่ของอิเล็กตรอนได้ดีพอ
นี่คือคำอธิบายเชิงเทคนิคแบบคร่าว ๆ และใน YouTube ช่อง Project in Flight มีวิดีโอที่อธิบายหลักการทำงานของสารกึ่งตัวนำไว้ดี
คุณสมบัติทางไฟฟ้าของสารกึ่งตัวนำเปลี่ยนไปมากตามอุณหภูมิ
มันน่าจะต้องใช้ชิปคนละแบบและกระบวนการผลิตคนละแบบไปเลย