การแชร์รายละเอียดเกี่ยวกับเหตุการณ์ล่าสุดที่ส่งผลกระทบต่อลูกค้า
การสนับสนุนลูกค้า Google Cloud
- เมื่อต้นเดือนนี้ ได้เกิดเหตุการณ์ของ Google Cloud ที่ส่งผลกระทบต่อลูกค้า UniSuper ในออสเตรเลีย
- ทันทีหลังเกิดเหตุการณ์ สิ่งสำคัญสูงสุดคือการทำงานร่วมกับลูกค้าเพื่อกู้คืนระบบอย่างสมบูรณ์
- ไม่นานหลังจากเหตุการณ์เริ่มขึ้น เราได้ยอมรับเหตุการณ์นี้ต่อสาธารณะผ่านแถลงการณ์ร่วมกับลูกค้า
- หลังจากระบบของลูกค้าได้รับการกู้คืนอย่างสมบูรณ์แล้ว เราได้ทำการทบทวนภายในเสร็จสิ้น
- เราเปิดเผยข้อมูลนี้เพื่อชี้แจงลักษณะของเหตุการณ์ และเพื่อให้คำอธิบายที่ถูกต้องเพื่อความโปร่งใส
- Google Cloud ได้ดำเนินมาตรการเพื่อไม่ให้เหตุการณ์เฉพาะและโดดเดี่ยวนี้เกิดขึ้นอีก
- ผลกระทบจากเหตุการณ์นี้น่าผิดหวังอย่างมาก และเราขออภัยอย่างสุดซึ้งต่อความไม่สะดวกที่เกิดขึ้นกับลูกค้า
ขอบเขตของผลกระทบ
เทคโนโลยีและบริการที่ได้รับผลกระทบ
- เหตุการณ์นี้ส่งผลกระทบต่อบริการที่ Google ดูแลจัดการดังต่อไปนี้:
- ลูกค้าหนึ่งรายใน cloud region หนึ่งแห่ง
- Google Cloud VMware Engine (GCVE) ซึ่งเป็นหนึ่งในบริการ Google Cloud ที่ลูกค้ารายนั้นใช้งาน
- หนึ่งในหลาย GCVE private cloud ของลูกค้ารายนั้นที่ครอบคลุมสอง zone
สิ่งที่ไม่ได้รับผลกระทบ
- เหตุการณ์นี้ไม่ได้ส่งผลกระทบต่อสิ่งต่อไปนี้:
- บริการ Google Cloud อื่น ๆ
- ลูกค้ารายอื่นที่ใช้ GCVE หรือบริการ Google Cloud อื่น ๆ
- GCVE private cloud อื่น ๆ ของลูกค้า รวมถึงบัญชี Google, organization, folder หรือ project
- ข้อมูลสำรองของลูกค้าที่จัดเก็บไว้ในภูมิภาคเดียวกัน (Google Cloud Storage)
สาเหตุของเหตุการณ์
สรุป
- ระหว่างการ deploy เริ่มต้นของ GCVE private cloud สำหรับลูกค้า Google operator ได้กำหนดค่าบริการ GCVE ผิดพลาดโดยใช้เครื่องมือภายใน ซึ่งเกิดจากการปล่อยพารามิเตอร์หนึ่งว่างไว้
- ส่งผลให้ GCVE private cloud ของลูกค้าถูกตั้งค่าเป็นระยะเวลาคงที่ และเมื่อครบกำหนดระยะเวลานั้นก็ถูกตั้งให้ลบโดยอัตโนมัติ
- ทั้งสาเหตุของเหตุการณ์และพฤติกรรมของระบบได้รับการแก้ไขแล้วเพื่อไม่ให้เกิดขึ้นอีก
- เหตุการณ์นี้ไม่ได้ส่งผลกระทบต่อบริการ Google Cloud อื่นใด นอกเหนือจาก GCVE private cloud หนึ่งชุดของลูกค้ารายนี้
- ลูกค้ารายอื่นไม่ได้รับผลกระทบจากเหตุการณ์นี้
การวิเคราะห์โดยละเอียด
การ deploy โดยใช้กระบวนการยกเว้น
- ในช่วงต้นปี 2023 Google operator ได้ใช้เครื่องมือภายในเพื่อ deploy GCVE private cloud หนึ่งชุดของลูกค้า เพื่อให้เป็นไปตามข้อกำหนดเฉพาะด้านการจัดสรร capacity
- เครื่องมือภายในสำหรับจัดการ capacity นี้ถูกเลิกใช้งานในไตรมาส 4 ปี 2023 และปัจจุบันเป็นระบบอัตโนมัติเต็มรูปแบบโดยไม่ต้องอาศัยการแทรกแซงของมนุษย์
พฤติกรรมที่ไม่ตั้งใจจากพารามิเตอร์อินพุตที่ว่างเปล่า
- Google operator ได้ปฏิบัติตามโปรโตคอลการควบคุมภายใน
- อย่างไรก็ตาม ระหว่างการ provision private cloud ของลูกค้าผ่านเครื่องมือภายใน มีพารามิเตอร์อินพุตหนึ่งรายการถูกปล่อยว่างไว้
- ส่งผลให้ระบบกำหนดค่าเริ่มต้นเป็นระยะเวลาคงที่ 1 ปีให้กับพารามิเตอร์นี้ ซึ่งในเวลานั้นยังไม่เป็นที่ทราบ
- หลังจากครบระยะเวลา 1 ปีที่ระบบกำหนด GCVE private cloud ของลูกค้าก็ถูกลบ
- การลบนี้เกิดจากการที่ Google operator ปล่อยพารามิเตอร์ว่างไว้ขณะใช้เครื่องมือภายใน จึงไม่มีการส่งการแจ้งเตือนไปยังลูกค้า
- หากเป็นการลบที่เริ่มต้นโดยลูกค้า จะเกิดขึ้นได้ก็ต่อเมื่อมีการส่งการแจ้งเตือนไปยังลูกค้าก่อนเท่านั้น
การกู้คืน
- ลูกค้าและทีม Google ได้ร่วมมือกันตลอด 24 ชั่วโมงเป็นเวลาหลายวันเพื่อกู้คืน GCVE private cloud ของลูกค้า รวมถึงกู้คืนการตั้งค่าเครือข่ายและความปลอดภัย กู้คืนแอปพลิเคชัน และกู้ข้อมูลกลับมาเพื่อฟื้นฟูการดำเนินงานอย่างสมบูรณ์
- สิ่งนี้เป็นไปได้ด้วยแนวทางสถาปัตยกรรมที่แข็งแกร่งและยืดหยุ่นของลูกค้า
- ข้อมูลสำรองที่เก็บไว้ใน Google Cloud Storage ภายในภูมิภาคเดียวกันไม่ได้รับผลกระทบจากการลบ และเมื่อทำงานร่วมกับซอฟต์แวร์สำรองข้อมูลจาก third-party ก็มีบทบาทสำคัญต่อการกู้คืนอย่างรวดเร็ว
มาตรการแก้ไข
- Google Cloud ได้ดำเนินมาตรการหลายประการเพื่อไม่ให้เหตุการณ์นี้เกิดขึ้นอีก:
- เลิกใช้เครื่องมือภายในที่เป็นตัวก่อให้เกิดเหตุการณ์นี้ ส่วนนี้ปัจจุบันเป็นระบบอัตโนมัติเต็มรูปแบบ และลูกค้าสามารถควบคุมได้ผ่าน user interface
- ทำความสะอาดฐานข้อมูลของระบบและตรวจสอบ GCVE private cloud ทั้งหมดด้วยตนเอง เพื่อให้แน่ใจว่า deployment GCVE อื่น ๆ ไม่ตกอยู่ในความเสี่ยง
- แก้ไขพฤติกรรมของระบบใน workflow การ deploy เหล่านี้ที่ตั้งให้ GCVE private cloud ถูกลบ
บทสรุป
- เหตุการณ์ลักษณะนี้ภายใน Google Cloud เกิดขึ้นเป็นครั้งแรก และไม่ใช่ปัญหาเชิงระบบ
- บริการ Google Cloud มีมาตรการป้องกันที่แข็งแกร่ง เช่น soft delete, การแจ้งเตือนล่วงหน้า และการแทรกแซงโดยมนุษย์
- เราได้ยืนยันแล้วว่ามาตรการป้องกันเหล่านี้ยังคงมีผลใช้งานต่อเนื่อง
- การทำงานร่วมกับลูกค้าอย่างใกล้ชิดเป็นสิ่งจำเป็นต่อการกู้คืนอย่างรวดเร็ว CIO และทีมเทคนิคของลูกค้าสมควรได้รับคำชื่นชมที่ร่วมมืออย่างใกล้ชิดกับทีม Google Cloud เพื่อดำเนินการกู้คืนตลอด 24 ชั่วโมงได้อย่างรวดเร็วและแม่นยำ
- การบริหารความเสี่ยงที่แข็งแกร่งและยืดหยุ่นเป็นสิ่งจำเป็นสำหรับการกู้คืนอย่างรวดเร็วเมื่อเกิดเหตุการณ์ไม่คาดคิด
- Google Cloud ยังคงมีโครงสร้างพื้นฐานคลาวด์ที่ยืดหยุ่นและเสถียรที่สุดแห่งหนึ่งของโลก แม้จะเกิดเหตุการณ์เฉพาะครั้งนี้ แต่ uptime และความยืดหยุ่นของเราก็ได้รับการตรวจสอบยืนยันอย่างอิสระแล้ว
ความเห็นของ GN⁺
- ความสำคัญของเหตุการณ์: เหตุการณ์นี้แสดงให้เห็นว่าผู้ให้บริการคลาวด์ต้องแก้ปัญหาอย่างรวดเร็วและทำงานร่วมกับลูกค้าได้ดีเพียงใด
- ความจำเป็นของระบบอัตโนมัติ: เน้นย้ำว่าการทำระบบอัตโนมัติของเครื่องมือภายในมีความสำคัญมากเพียงใด โดยเฉพาะในกรณีที่ความผิดพลาดของมนุษย์อาจส่งผลกระทบอย่างมากต่อระบบ
- การทำงานร่วมกับลูกค้า: แสดงให้เห็นว่าการร่วมมืออย่างใกล้ชิดกับลูกค้ามีความสำคัญเพียงใดต่อการแก้ปัญหา ซึ่งยังเป็นปัจจัยสำคัญในการสร้างความไว้วางใจด้วย
- ความสำคัญของข้อมูลสำรอง: เน้นย้ำว่าข้อมูลสำรองมีความสำคัญเพียงใด โดยเฉพาะสำหรับการกู้คืนอย่างรวดเร็วเมื่อเกิดเหตุการณ์ไม่คาดคิด
- มาตรการป้องกันในอนาคต: มาตรการที่ Google Cloud ดำเนินการเพื่อป้องกันไม่ให้เหตุการณ์เกิดซ้ำ อาจเป็นตัวอย่างที่ดีให้กับผู้ให้บริการคลาวด์รายอื่นได้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
สรุปความคิดเห็นจาก Hacker News
ความไม่พอใจต่อความลึกของการแก้ปัญหา
คำถามเกี่ยวกับมาตรการปกป้องลูกค้าของ GCP
ข้อสงสัยเกี่ยวกับการทำงาน 24x7
เหตุการณ์ที่เกี่ยวข้อง
ความประหลาดใจต่อความผิดพลาดฝั่ง Google
ความละเอียดรอบคอบของการตรวจสอบ
ความคาดหวังต่อ GCP
คำชื่นชมต่อความพยายามของลูกค้า
ประสบการณ์ของลูกค้า UniSuper
ความเข้าใจผิดจากประกาศแรกเริ่ม