- บริการ Tarsnap ออฟไลน์เนื่องจากเหตุขัดข้อง
- เหตุขัดข้องเกิดจากการที่การตรวจสอบสถานะระบบของเซิร์ฟเวอร์ Tarsnap ส่วนกลางที่โฮสต์อยู่ในภูมิภาค EC2 us-east-1 ของ Amazon ล้มเหลว
- ยังไม่ทราบสาเหตุที่แน่ชัดของความเสียหาย แต่คาดว่าเป็นความล้มเหลวของฮาร์ดแวร์แบบเฉพาะจุด
- ระบบมอนิเตอร์ของ Tarsnap ตรวจพบความขัดข้องและส่งการแจ้งเตือนไปยังผู้ดูแล
- มีการสร้าง EC2 อินสแตนซ์ทดแทนขึ้นมา แต่โค้ดเซิร์ฟเวอร์ Tarsnap ไม่ได้รีสตาร์ตอัตโนมัติเพื่อป้องกันการสูญหายของข้อมูล
- หลังรีบูตเซิร์ฟเวอร์ ล็อกแสดงให้เห็นถึงความเสียหายของระบบไฟล์ จึงตัดสินใจตั้งค่าเซิร์ฟเวอร์ใหม่แทนการกู้คืนเซิร์ฟเวอร์เดิม
- กระบวนการกู้คืนรวมถึงการอ่านเมทาดาทาเฮดเดอร์จาก Amazon S3 และรันงานอีกครั้งบนเครื่องโลคัล
- ในกระบวนการกู้คืนพบข้อผิดพลาดที่เกี่ยวข้องกับรายการล็อกการลงทะเบียนเครื่องและลำดับของรายการล็อกที่ยังไม่ได้เริ่มต้น
- กระบวนการกู้คืนดำเนินไปช้ากว่าที่คาดไว้ และสามารถปรับแต่งให้ทำงานได้เร็วขึ้น
- กระบวนการกู้คืนสถานะเสร็จสมบูรณ์ในวันที่ 3 กรกฎาคม และเซิร์ฟเวอร์กลับมาออนไลน์อีกครั้ง
- ทราฟฟิกกลับมาเริ่มใหม่หลังจากเกิดเหตุขัดข้องไปประมาณ 26 ชั่วโมง 16 นาที
- Tarsnap มอบเครดิตชดเชยให้ผู้ใช้เป็น 50% ของค่าใช้จ่ายด้านการจัดเก็บข้อมูลรายเดือนจากเหตุขัดข้องครั้งนี้
- ผู้ใช้ได้รับคำแนะนำให้ติดต่อ Colin Percival ผู้ก่อตั้ง Tarsnap หากมีคำถามหรือข้อกังวล
1 ความคิดเห็น
ความเห็นจาก Hacker News