1 คะแนน โดย GN⁺ 2023-07-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • บริการ Tarsnap ออฟไลน์เนื่องจากเหตุขัดข้อง
  • เหตุขัดข้องเกิดจากการที่การตรวจสอบสถานะระบบของเซิร์ฟเวอร์ Tarsnap ส่วนกลางที่โฮสต์อยู่ในภูมิภาค EC2 us-east-1 ของ Amazon ล้มเหลว
  • ยังไม่ทราบสาเหตุที่แน่ชัดของความเสียหาย แต่คาดว่าเป็นความล้มเหลวของฮาร์ดแวร์แบบเฉพาะจุด
  • ระบบมอนิเตอร์ของ Tarsnap ตรวจพบความขัดข้องและส่งการแจ้งเตือนไปยังผู้ดูแล
  • มีการสร้าง EC2 อินสแตนซ์ทดแทนขึ้นมา แต่โค้ดเซิร์ฟเวอร์ Tarsnap ไม่ได้รีสตาร์ตอัตโนมัติเพื่อป้องกันการสูญหายของข้อมูล
  • หลังรีบูตเซิร์ฟเวอร์ ล็อกแสดงให้เห็นถึงความเสียหายของระบบไฟล์ จึงตัดสินใจตั้งค่าเซิร์ฟเวอร์ใหม่แทนการกู้คืนเซิร์ฟเวอร์เดิม
  • กระบวนการกู้คืนรวมถึงการอ่านเมทาดาทาเฮดเดอร์จาก Amazon S3 และรันงานอีกครั้งบนเครื่องโลคัล
  • ในกระบวนการกู้คืนพบข้อผิดพลาดที่เกี่ยวข้องกับรายการล็อกการลงทะเบียนเครื่องและลำดับของรายการล็อกที่ยังไม่ได้เริ่มต้น
  • กระบวนการกู้คืนดำเนินไปช้ากว่าที่คาดไว้ และสามารถปรับแต่งให้ทำงานได้เร็วขึ้น
  • กระบวนการกู้คืนสถานะเสร็จสมบูรณ์ในวันที่ 3 กรกฎาคม และเซิร์ฟเวอร์กลับมาออนไลน์อีกครั้ง
  • ทราฟฟิกกลับมาเริ่มใหม่หลังจากเกิดเหตุขัดข้องไปประมาณ 26 ชั่วโมง 16 นาที
  • Tarsnap มอบเครดิตชดเชยให้ผู้ใช้เป็น 50% ของค่าใช้จ่ายด้านการจัดเก็บข้อมูลรายเดือนจากเหตุขัดข้องครั้งนี้
  • ผู้ใช้ได้รับคำแนะนำให้ติดต่อ Colin Percival ผู้ก่อตั้ง Tarsnap หากมีคำถามหรือข้อกังวล

1 ความคิดเห็น

 
GN⁺ 2023-07-28
ความเห็นจาก Hacker News
  • ผู้เขียนบทความนี้ได้คืนค่าใช้จ่ายด้านการจัดเก็บข้อมูล 50% ของหนึ่งเดือนให้กับบัญชี Tarsnap ของทุกคนหลังเกิดเหตุขัดข้อง
  • ผู้เขียนได้รับคำชื่นชมจากแนวทางที่ใจกว้างและยึดลูกค้าเป็นศูนย์กลางในการจัดการสถานการณ์นี้
  • ผู้เขียนแสดงความประหลาดใจต่อความนิยมของบทความนี้ และกล่าวว่ามีข้อจำกัดในการตอบคำถามด้วยเหตุผลส่วนตัว
  • ผู้แสดงความเห็นรายหนึ่งเสนอว่า การแลกเวลาหยุดทำงานเพิ่มเติมกับการพักผ่อนอาจช่วยให้การแก้ปัญหาดีขึ้นได้
  • การทดสอบกระบวนการกู้คืนเป็นประจำช่วยในการระบุและแก้ไขบั๊กหรือปัญหาได้
  • โพสต์วิเคราะห์หลังเหตุการณ์นี้ได้รับคำขอบคุณในเรื่องความเป็นมืออาชีพ ความสุภาพ และความซื่อสัตย์
  • ผู้แสดงความเห็นแนะนำให้กำหนดและทดสอบขั้นตอนการกู้คืนจากเหตุขัดข้องเพื่อลดเวลาหยุดทำงานในอนาคต
  • มีการเสนอให้จ้างพนักงานพาร์ตไทม์เพื่อเพิ่มความยืดหยุ่นของธุรกิจในกรณีเกิดเหตุคล้ายกัน
  • มีการกล่าวถึงความเสี่ยงสำหรับผู้ใช้ที่อาจเกิดขึ้นจากการพึ่งพาบุคคลเพียงคนเดียว ซึ่งในกรณีนี้คือ Colin Percival
  • มีการยืนยันว่าข้อผิดพลาดในโค้ดเมื่อปี 2014 เป็นสาเหตุของเหตุขัดข้อง และมีคำแนะนำให้ใช้การทำแบบจำลองด้วย TLA+ เพื่อจับปัญหาลักษณะนี้
  • หน้าข้อมูลโครงสร้างพื้นฐานบนเว็บไซต์ Tarsnap ควรได้รับการอัปเดตเพื่อสะท้อนเหตุขัดข้องนี้
  • มีการตั้งคำถามว่าสามารถผสานซอฟต์แวร์เข้ารหัสของ Tarsnap เข้ากับ Dropbox เพื่อจัดเก็บข้อมูลอย่างปลอดภัยได้หรือไม่