1 คะแนน โดย GN⁺ 2025-02-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ดีบัก Hetzner: แก้ปัญหาด้วย powerstat, sensors และ dmidecode

  • พื้นหลัง

    • Ubicloud นำเซิร์ฟเวอร์ AX162 ของ Hetzner มาใช้งาน แต่พบปัญหาด้านความน่าเชื่อถืออย่างรุนแรง
    • เซิร์ฟเวอร์ AX162 ให้ประสิทธิภาพดีกว่ารุ่นก่อนและมีราคาถูกกว่า แต่ล่มบ่อยกว่าถึง 16 เท่า
    • ปัญหาได้รับการแก้ไขหลังจากมีการอัปเดตฮาร์ดแวร์หลายครั้ง
  • การเกิดปัญหา

    • หลังซื้อเซิร์ฟเวอร์ AX162 เครื่องแรกได้ 3 สัปดาห์ ก็เกิดอาการเซิร์ฟเวอร์ล่ม
    • พบ NULL bytes ใน system log ซึ่งบ่งชี้ถึงความล้มเหลวแบบฉับพลัน เช่น การสูญเสียพลังงาน
    • Hetzner ตรวจสอบฮาร์ดแวร์แล้ว แต่ไม่พบความผิดปกติ
    • ความถี่ของการล่มเพิ่มขึ้น และ Hetzner ก็เปลี่ยนเซิร์ฟเวอร์ทุกครั้งที่พบข้อบกพร่องของฮาร์ดแวร์
  • การตรวจสอบเบื้องต้น

    • โหลดของระบบ: เดิมคิดว่าปัญหาอาจเกิดเมื่อโหลดเพิ่มขึ้น แต่ก็พบว่าเซิร์ฟเวอร์ล่มแม้ในช่วงที่โหลดต่ำหรือไม่มีโหลดเลย
    • อุณหภูมิ: ใช้ sensors วัดอุณหภูมิ แต่พบว่าอุณหภูมิ ณ เวลาที่ล่มไม่ได้สูงกว่าค่าเฉลี่ย
    • ชิ้นส่วนที่มีข้อบกพร่อง: ใช้คำสั่ง dmidecode เพื่อรวบรวมข้อมูลฮาร์ดแวร์ แต่ไม่พบความแตกต่างสำคัญระหว่างเซิร์ฟเวอร์ที่ล่มกับเครื่องที่ไม่ล่ม
    • การใช้พลังงาน: ใช้เครื่องมือ powerstat วัดการใช้พลังงาน และสงสัยว่า Hetzner อาจจำกัดการใช้ไฟฟ้าไว้
  • การเก็บและเปรียบเทียบข้อมูลอัตราการล่ม

    • ใช้อัตราความล้มเหลวรายปี (AFR) ในการวัดความน่าเชื่อถือของฮาร์ดแวร์
    • เซิร์ฟเวอร์ AX162 เสียหายบ่อยกว่ารุ่นอื่นถึง 16 เท่า
    • หลังการล่มครั้งแรก เซิร์ฟเวอร์ 80% ประสบการล่มครั้งที่สองภายใน 24 ชั่วโมง
  • สังเกตความเสถียรด้วยฮาร์ดแวร์ใหม่

    • Hetzner ยืนยันว่ามีล็อตเมนบอร์ดที่มีปัญหา และแนะนำให้เปลี่ยน
    • หลังเปลี่ยนเป็นเมนบอร์ดใหม่แล้ว ก็ยังคงเกิดอาการล่ม
    • เมื่อเปลี่ยนเป็นเมนบอร์ดรุ่นล่าสุดและเฝ้าติดตามอยู่หลายเดือน พบว่าปัญหาการล่มได้รับการแก้ไขแล้ว
  • การปรับปรุงกระบวนการ

    • เมื่อนำรุ่นเซิร์ฟเวอร์ใหม่มาใช้งาน จำเป็นต้องมีการตรวจสอบอย่างรอบคอบ
    • ฮาร์ดแวร์ใหม่ควรถูกนำมาใช้แบบค่อยเป็นค่อยไป โดยเริ่มจากงานที่ไม่สำคัญก่อน
    • เพิ่มผู้ให้บริการ bare metal ให้มากขึ้นเพื่อกระจายความเสี่ยง
  • สรุป

    • การนำเซิร์ฟเวอร์ Hetzner มาใช้งานในช่วงแรกก่อให้เกิดปัญหา แต่ปัญหาได้รับการแก้ไขผ่านการปรับปรุงอย่างต่อเนื่อง
    • Ubicloud จะเดินหน้าพัฒนาเพื่อมอบโซลูชันคลาวด์ที่มีทั้งความน่าเชื่อถือและความสามารถในการปรับตัวต่อไป

1 ความคิดเห็น

 
GN⁺ 2025-02-21
ความคิดเห็นจาก Hacker News
  • โมเดล AX อื่น ๆ ส่วนใหญ่ (AX42, AX52, AX102) ก็มีปัญหาความน่าเชื่อถือร้ายแรงที่พังหลังใช้งานไปไม่กี่เดือนเช่นกัน สาเหตุมาจากเมนบอร์ดที่มีข้อบกพร่อง Hetzner จำเป็นต้องเปลี่ยนเมนบอร์ดของเซิร์ฟเวอร์ส่วนใหญ่ที่ผลิตก่อนวันที่กำหนด
  • ที่บริษัทก่อนหน้านี้พบความเสียหายของพัดลม CPU บ่อยครั้งบน Hetzner ซึ่งเกิดขึ้นนอกเหนือจากความเสียหายของ HD/SSD ตามปกติ จำเป็นต้องมีการมอนิเตอร์เอง และนี่ก็เป็นหนึ่งในเหตุผลที่เซิร์ฟเวอร์แบบ unmanaged ถูกกว่าคลาวด์อินสแตนซ์
  • มองย้อนกลับไป ถ้ารอ 6 เดือนก็คงหลีกเลี่ยงปัญหาได้มากมาย ผู้ใช้ช่วงแรกมักเป็นคนที่เจอปัญหาซึ่งภายหลังจะถูกแก้ไข
    • นี่เป็นคำแนะนำที่ดีมาก และผมก็ทำตามสำหรับทุกระบบที่ต้องการความเสถียร
    • ถ้าไม่มีปัญหาด้านความปลอดภัย ก็จะรอสักสองสามเดือนหรือคงอยู่ที่เวอร์ชันที่ช้ากว่า 1-2 รุ่น
  • Hetzner ไม่ได้ยืนยันหรือปฏิเสธความเป็นไปได้เรื่องการจำกัดพลังงาน
    • ผลของการจำกัดพลังงานคืออะไร? ตามบทความบอกว่าฮาร์ดแวร์อาจเสื่อมสภาพเร็วขึ้น
    • การที่ Hetzner ไม่ค่อยตอบสนองและการวัดของ UbiCloud ดูเหมือนจะบ่งชี้ว่ามีการจำกัดพลังงานอยู่จริง ไม่อย่างนั้นก็น่าจะพูดออกมาตรง ๆ
  • บางครั้ง Dell ก็เจอปัญหานี้เหมือนกัน ตอนที่ได้รับเซิร์ฟเวอร์ชุดแรกของรุ่นเก่า ต้องเปลี่ยนส่วน I/O (ด้านหลัง) หลังจากแก้ปัญหานี้แล้วก็ใช้งานต่อมาได้เกือบ 10 ปี
    • ไม่นานมานี้เพิ่งปลดระวางเซิร์ฟเวอร์เหล่านี้ ทุกอย่างตั้งแต่การ์ด RAID ไปจนถึงตัวควบคุมพลังงานสึกหรอหมดแล้ว
    • การต้องรีบูตเซิร์ฟเวอร์ที่ทำงานได้สมบูรณ์เพราะมีการเปลี่ยนคอนฟิก แล้วสูญเสียการ์ด RAID ไปตลอดกาล เป็นประสบการณ์ที่สะเทือนใจมาก
  • เพื่อเพิ่มจำนวนเครื่องภายใต้ข้อจำกัดด้านพลังงาน ผู้ดำเนินการดาต้าเซ็นเตอร์มักจำกัดการใช้พลังงานต่อเครื่อง แต่สิ่งนี้อาจทำให้เมนบอร์ดเสื่อมสภาพเร็วขึ้น
    • มีใครอธิบายเรื่องนี้ได้ไหม? มันขัดกับสัญชาตญาณมาก
    • จากผลการค้นหา ถ้าเจอ thermal throttling อุณหภูมิการทำงานที่สูงอาจทำให้ชิ้นส่วนต่าง ๆ (เช่น capacitor) เสื่อมเร็วขึ้นได้ แต่บทความได้ตรวจสอบเซ็นเซอร์อุณหภูมิหลายตัวแล้ว จึงดูเหมือนไม่ใช่กรณีนี้
  • สงสัยว่าอาจเป็นปัญหาเรื่องพลังงาน/สัญญาณ หรือปัญหา VRM หรือไม่ การที่ CPU ไม่ร้อนไม่ได้แปลว่าส่วนอื่นของบอร์ดจะไม่หลุดจากสเปกจนทำให้เกิดความเสียหายร้ายแรง
    • ปัญหาเมนบอร์ดที่เกี่ยวกับพลังงาน/สัญญาณวินิจฉัยได้ยาก เพราะมันมักแสดงออกมาเป็นปัญหาของชิ้นส่วนอื่น สุดท้ายจึงต้องเปลี่ยนทุกอย่างก่อนจะไปถึงการเปลี่ยนเมนบอร์ดจริง ๆ
  • เรื่องคล้ายกันนี้เกิดขึ้นกับ AX102 ที่ใช้อยู่ตอนนี้ด้วย มีการล่มที่เกี่ยวข้องกับการ์ดเครือข่าย โชคดีที่ฝ่ายซัพพอร์ตของ Hetzner ช่วยเรื่องการเปลี่ยนฮาร์ดแวร์ได้ มันสร้างความเจ็บปวดมาก แต่ก็เป็นบทเรียนที่ดีในการแก้ปัญหาฮาร์ดแวร์
  • มีใครที่มีประสบการณ์ด้านดาต้าเซ็นเตอร์พอจะเดาได้ไหมว่า Hetzner น่าจะตกลงทางการค้ากับซัพพลายเออร์เมนบอร์ดอย่างไร? พอจะสันนิษฐานได้ไหมว่าพวกเขาเปลี่ยนเมนบอร์ดทั้งหมดให้ฟรีและได้รับค่าชดเชย?
  • ก่อนจะคาดเดาว่ามีการจำกัดพลังงานหรือไม่ อยากเห็นก่อนว่าระบบนั้นรัน CPU governor อะไรอยู่ เพราะการติดตั้ง Linux แบบค่าเริ่มต้นจำนวนมากใช้ governor แบบประหยัดพลังงาน ซึ่งจะจำกัดความถี่สูงสุดและกำลังไฟสูงสุด