รายงานเหตุขัดข้องของ Slack เมื่อ 2020-5-12

(slack.engineering)

10 คะแนน โดย xguru 2020-07-08 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

คำอธิบายเกี่ยวกับปัญหาที่ Slack ล่มทั้งระบบเป็นเวลาค่อนข้างนานเป็นครั้งแรก

หลังจากปล่อยการเปลี่ยนแปลงการตั้งค่า DB พบ performance bug ที่ทำให้ภาระบน DB เพิ่มขึ้น จึง rollback ภายในไม่กี่นาที
แม้จะเป็นเช่นนั้น แต่ปัญหานี้ได้กระตุ้นให้ web app autoscaling ทำงาน ทำให้จำนวนอินสแตนซ์เพิ่มขึ้นมากกว่า Hard Limit
ส่งผลให้เกิดบั๊กในส่วนอัปเดตรายการโฮสต์ภายใน load balancer ทำให้อินสแตนซ์ใหม่ไม่สามารถถูกลงทะเบียนได้

→ HAProxy + Consul

หลังผ่านไป 8 ชั่วโมง อินสแตนซ์ที่ยังคงอยู่ในรายการโฮสต์เหลือเพียงตัวที่เก่าที่สุด และเมื่อเกิด scale-down อินสแตนซ์เก่าเหล่านั้นก็ถูก shutdown
อินสแตนซ์ใหม่ควรจะต้องรับช่วงต่อจากตรงนี้ แต่ในรายการโฮสต์ของ load balancer กลับไม่มีอินสแตนซ์ใหม่อยู่

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น