รายงานเหตุขัดข้องของ Slack เมื่อ 2020-5-12
(slack.engineering)คำอธิบายเกี่ยวกับปัญหาที่ Slack ล่มทั้งระบบเป็นเวลาค่อนข้างนานเป็นครั้งแรก
-
หลังจากปล่อยการเปลี่ยนแปลงการตั้งค่า DB พบ performance bug ที่ทำให้ภาระบน DB เพิ่มขึ้น จึง rollback ภายในไม่กี่นาที
-
แม้จะเป็นเช่นนั้น แต่ปัญหานี้ได้กระตุ้นให้ web app autoscaling ทำงาน ทำให้จำนวนอินสแตนซ์เพิ่มขึ้นมากกว่า Hard Limit
-
ส่งผลให้เกิดบั๊กในส่วนอัปเดตรายการโฮสต์ภายใน load balancer ทำให้อินสแตนซ์ใหม่ไม่สามารถถูกลงทะเบียนได้
→ HAProxy + Consul
-
หลังผ่านไป 8 ชั่วโมง อินสแตนซ์ที่ยังคงอยู่ในรายการโฮสต์เหลือเพียงตัวที่เก่าที่สุด และเมื่อเกิด scale-down อินสแตนซ์เก่าเหล่านั้นก็ถูก shutdown
-
อินสแตนซ์ใหม่ควรจะต้องรับช่วงต่อจากตรงนี้ แต่ในรายการโฮสต์ของ load balancer กลับไม่มีอินสแตนซ์ใหม่อยู่
ยังไม่มีความคิดเห็น