อัปเดตรายงาน Google เหตุขัดข้อง #20013 (2020/12/14)
(status.cloud.google.com)อัปเดต 2020/12/18 (เพิ่มสาเหตุและแนวทางรับมือ)
#ROOT CAUSE
ตั้งแต่เดือนตุลาคมที่ผ่านมา Google ได้นำระบบจัดสรรสตอเรจอัตโนมัติแบบใหม่มาใช้กับบริการ User ID ของ Google ในบางบริการยังคงใช้ระบบ quota เดิมอยู่ และมีปัญหาที่รายงานการใช้งานเป็น 0 ผลกระทบไม่ได้เกิดขึ้นทันทีเพราะยังมีเวลา Expire เหลืออยู่ แต่หลังจากหมดเวลาแล้ว เมื่อมีการลด quota ของบริการ User ID จึงทำให้เกิดเหตุขัดข้องขึ้น แม้จะมีรายการตรวจสอบความปลอดภัยเพื่อยืนยันการเปลี่ยนแปลง quota ที่ไม่ได้ตั้งใจอยู่แล้ว แต่ไม่ได้ครอบคลุมกรณีที่เป็น 0
quota ของฐานข้อมูลบัญชีถูกลดลง ทำให้ Paxos leader ไม่สามารถเขียนข้อมูลได้ และงานอ่านส่วนใหญ่หมดอายุ ส่งผลให้เกิดข้อผิดพลาดในการค้นหาสำหรับการยืนยันตัวตน
#REMEDIATION AND PREVENTION
-
ทบทวนระบบอัตโนมัติสำหรับการจัดการ quota เพื่อป้องกันการ Implementaion การเปลี่ยนแปลงระดับโลกอย่างรวดเร็วเกินไป
-
ปรับปรุง monitoring และ alert เพื่อจับการตั้งค่าที่ผิดพลาดได้อย่างรวดเร็ว
-
เพิ่มความเสถียรของเครื่องมือและกระบวนการสำหรับการสื่อสารภายนอกเมื่อเกิดเหตุขัดข้องจากเครื่องมือภายใน
-
ทำให้ข้อผิดพลาดการเขียนในฐานข้อมูลของบริการ User ID มี Resilience
-
ปรับปรุง Resilience ของบริการ GCP โดยจำกัดผลกระทบต่อ data plane อย่างเข้มงวดยิ่งขึ้นเมื่อบริการ User ID ล้มเหลว
- มีการอัปเดตรายงานรายละเอียดเกี่ยวกับเหตุขัดข้องที่เกิดขึ้นเมื่อวันที่ 14 ธันวาคม เลยลองแปลแบบคร่าว ๆ ตอนอ่านดูครับ ถ้ามีข้อผิดพลาดก็บอกได้เลย และเพราะเป็น GeekNews ที่อ่านสนุกอยู่เสมอ ถ้ามีเรื่องเหตุขัดข้องที่น่าสนใจอีกก็จะลองนำมาฝากครับ
ยังไม่มีความคิดเห็น