อัปเดต 2020/12/18 (เพิ่มสาเหตุและแนวทางรับมือ)

#ROOT CAUSE

ตั้งแต่เดือนตุลาคมที่ผ่านมา Google ได้นำระบบจัดสรรสตอเรจอัตโนมัติแบบใหม่มาใช้กับบริการ User ID ของ Google ในบางบริการยังคงใช้ระบบ quota เดิมอยู่ และมีปัญหาที่รายงานการใช้งานเป็น 0 ผลกระทบไม่ได้เกิดขึ้นทันทีเพราะยังมีเวลา Expire เหลืออยู่ แต่หลังจากหมดเวลาแล้ว เมื่อมีการลด quota ของบริการ User ID จึงทำให้เกิดเหตุขัดข้องขึ้น แม้จะมีรายการตรวจสอบความปลอดภัยเพื่อยืนยันการเปลี่ยนแปลง quota ที่ไม่ได้ตั้งใจอยู่แล้ว แต่ไม่ได้ครอบคลุมกรณีที่เป็น 0

quota ของฐานข้อมูลบัญชีถูกลดลง ทำให้ Paxos leader ไม่สามารถเขียนข้อมูลได้ และงานอ่านส่วนใหญ่หมดอายุ ส่งผลให้เกิดข้อผิดพลาดในการค้นหาสำหรับการยืนยันตัวตน

#REMEDIATION AND PREVENTION

  1. ทบทวนระบบอัตโนมัติสำหรับการจัดการ quota เพื่อป้องกันการ Implementaion การเปลี่ยนแปลงระดับโลกอย่างรวดเร็วเกินไป

  2. ปรับปรุง monitoring และ alert เพื่อจับการตั้งค่าที่ผิดพลาดได้อย่างรวดเร็ว

  3. เพิ่มความเสถียรของเครื่องมือและกระบวนการสำหรับการสื่อสารภายนอกเมื่อเกิดเหตุขัดข้องจากเครื่องมือภายใน

  4. ทำให้ข้อผิดพลาดการเขียนในฐานข้อมูลของบริการ User ID มี Resilience

  5. ปรับปรุง Resilience ของบริการ GCP โดยจำกัดผลกระทบต่อ data plane อย่างเข้มงวดยิ่งขึ้นเมื่อบริการ User ID ล้มเหลว

  • มีการอัปเดตรายงานรายละเอียดเกี่ยวกับเหตุขัดข้องที่เกิดขึ้นเมื่อวันที่ 14 ธันวาคม เลยลองแปลแบบคร่าว ๆ ตอนอ่านดูครับ ถ้ามีข้อผิดพลาดก็บอกได้เลย และเพราะเป็น GeekNews ที่อ่านสนุกอยู่เสมอ ถ้ามีเรื่องเหตุขัดข้องที่น่าสนใจอีกก็จะลองนำมาฝากครับ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น