คำอธิบายเกี่ยวกับปัญหาที่ Slack ล่มทั้งระบบเป็นเวลาค่อนข้างนานเป็นครั้งแรก

  1. หลังจากปล่อยการเปลี่ยนแปลงการตั้งค่า DB พบ performance bug ที่ทำให้ภาระบน DB เพิ่มขึ้น จึง rollback ภายในไม่กี่นาที

  2. แม้จะเป็นเช่นนั้น แต่ปัญหานี้ได้กระตุ้นให้ web app autoscaling ทำงาน ทำให้จำนวนอินสแตนซ์เพิ่มขึ้นมากกว่า Hard Limit

  3. ส่งผลให้เกิดบั๊กในส่วนอัปเดตรายการโฮสต์ภายใน load balancer ทำให้อินสแตนซ์ใหม่ไม่สามารถถูกลงทะเบียนได้

→ HAProxy + Consul

  1. หลังผ่านไป 8 ชั่วโมง อินสแตนซ์ที่ยังคงอยู่ในรายการโฮสต์เหลือเพียงตัวที่เก่าที่สุด และเมื่อเกิด scale-down อินสแตนซ์เก่าเหล่านั้นก็ถูก shutdown

  2. อินสแตนซ์ใหม่ควรจะต้องรับช่วงต่อจากตรงนี้ แต่ในรายการโฮสต์ของ load balancer กลับไม่มีอินสแตนซ์ใหม่อยู่

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น