ค้นพบปัญหาของ Hetzner ด้วย powerstat, sensors และ dmidecode
(ubicloud.com)ดีบัก Hetzner: แก้ปัญหาด้วย powerstat, sensors และ dmidecode
-
พื้นหลัง
- Ubicloud นำเซิร์ฟเวอร์ AX162 ของ Hetzner มาใช้งาน แต่พบปัญหาด้านความน่าเชื่อถืออย่างรุนแรง
- เซิร์ฟเวอร์ AX162 ให้ประสิทธิภาพดีกว่ารุ่นก่อนและมีราคาถูกกว่า แต่ล่มบ่อยกว่าถึง 16 เท่า
- ปัญหาได้รับการแก้ไขหลังจากมีการอัปเดตฮาร์ดแวร์หลายครั้ง
-
การเกิดปัญหา
- หลังซื้อเซิร์ฟเวอร์ AX162 เครื่องแรกได้ 3 สัปดาห์ ก็เกิดอาการเซิร์ฟเวอร์ล่ม
- พบ NULL bytes ใน system log ซึ่งบ่งชี้ถึงความล้มเหลวแบบฉับพลัน เช่น การสูญเสียพลังงาน
- Hetzner ตรวจสอบฮาร์ดแวร์แล้ว แต่ไม่พบความผิดปกติ
- ความถี่ของการล่มเพิ่มขึ้น และ Hetzner ก็เปลี่ยนเซิร์ฟเวอร์ทุกครั้งที่พบข้อบกพร่องของฮาร์ดแวร์
-
การตรวจสอบเบื้องต้น
- โหลดของระบบ: เดิมคิดว่าปัญหาอาจเกิดเมื่อโหลดเพิ่มขึ้น แต่ก็พบว่าเซิร์ฟเวอร์ล่มแม้ในช่วงที่โหลดต่ำหรือไม่มีโหลดเลย
- อุณหภูมิ: ใช้ sensors วัดอุณหภูมิ แต่พบว่าอุณหภูมิ ณ เวลาที่ล่มไม่ได้สูงกว่าค่าเฉลี่ย
- ชิ้นส่วนที่มีข้อบกพร่อง: ใช้คำสั่ง dmidecode เพื่อรวบรวมข้อมูลฮาร์ดแวร์ แต่ไม่พบความแตกต่างสำคัญระหว่างเซิร์ฟเวอร์ที่ล่มกับเครื่องที่ไม่ล่ม
- การใช้พลังงาน: ใช้เครื่องมือ powerstat วัดการใช้พลังงาน และสงสัยว่า Hetzner อาจจำกัดการใช้ไฟฟ้าไว้
-
การเก็บและเปรียบเทียบข้อมูลอัตราการล่ม
- ใช้อัตราความล้มเหลวรายปี (AFR) ในการวัดความน่าเชื่อถือของฮาร์ดแวร์
- เซิร์ฟเวอร์ AX162 เสียหายบ่อยกว่ารุ่นอื่นถึง 16 เท่า
- หลังการล่มครั้งแรก เซิร์ฟเวอร์ 80% ประสบการล่มครั้งที่สองภายใน 24 ชั่วโมง
-
สังเกตความเสถียรด้วยฮาร์ดแวร์ใหม่
- Hetzner ยืนยันว่ามีล็อตเมนบอร์ดที่มีปัญหา และแนะนำให้เปลี่ยน
- หลังเปลี่ยนเป็นเมนบอร์ดใหม่แล้ว ก็ยังคงเกิดอาการล่ม
- เมื่อเปลี่ยนเป็นเมนบอร์ดรุ่นล่าสุดและเฝ้าติดตามอยู่หลายเดือน พบว่าปัญหาการล่มได้รับการแก้ไขแล้ว
-
การปรับปรุงกระบวนการ
- เมื่อนำรุ่นเซิร์ฟเวอร์ใหม่มาใช้งาน จำเป็นต้องมีการตรวจสอบอย่างรอบคอบ
- ฮาร์ดแวร์ใหม่ควรถูกนำมาใช้แบบค่อยเป็นค่อยไป โดยเริ่มจากงานที่ไม่สำคัญก่อน
- เพิ่มผู้ให้บริการ bare metal ให้มากขึ้นเพื่อกระจายความเสี่ยง
-
สรุป
- การนำเซิร์ฟเวอร์ Hetzner มาใช้งานในช่วงแรกก่อให้เกิดปัญหา แต่ปัญหาได้รับการแก้ไขผ่านการปรับปรุงอย่างต่อเนื่อง
- Ubicloud จะเดินหน้าพัฒนาเพื่อมอบโซลูชันคลาวด์ที่มีทั้งความน่าเชื่อถือและความสามารถในการปรับตัวต่อไป
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News