1 คะแนน โดย GN⁺ 2024-05-26 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

การแชร์รายละเอียดเกี่ยวกับเหตุการณ์ล่าสุดที่ส่งผลกระทบต่อลูกค้า

การสนับสนุนลูกค้า Google Cloud

  • เมื่อต้นเดือนนี้ ได้เกิดเหตุการณ์ของ Google Cloud ที่ส่งผลกระทบต่อลูกค้า UniSuper ในออสเตรเลีย
  • ทันทีหลังเกิดเหตุการณ์ สิ่งสำคัญสูงสุดคือการทำงานร่วมกับลูกค้าเพื่อกู้คืนระบบอย่างสมบูรณ์
  • ไม่นานหลังจากเหตุการณ์เริ่มขึ้น เราได้ยอมรับเหตุการณ์นี้ต่อสาธารณะผ่านแถลงการณ์ร่วมกับลูกค้า
  • หลังจากระบบของลูกค้าได้รับการกู้คืนอย่างสมบูรณ์แล้ว เราได้ทำการทบทวนภายในเสร็จสิ้น
  • เราเปิดเผยข้อมูลนี้เพื่อชี้แจงลักษณะของเหตุการณ์ และเพื่อให้คำอธิบายที่ถูกต้องเพื่อความโปร่งใส
  • Google Cloud ได้ดำเนินมาตรการเพื่อไม่ให้เหตุการณ์เฉพาะและโดดเดี่ยวนี้เกิดขึ้นอีก
  • ผลกระทบจากเหตุการณ์นี้น่าผิดหวังอย่างมาก และเราขออภัยอย่างสุดซึ้งต่อความไม่สะดวกที่เกิดขึ้นกับลูกค้า

ขอบเขตของผลกระทบ

เทคโนโลยีและบริการที่ได้รับผลกระทบ

  • เหตุการณ์นี้ส่งผลกระทบต่อบริการที่ Google ดูแลจัดการดังต่อไปนี้:
    • ลูกค้าหนึ่งรายใน cloud region หนึ่งแห่ง
    • Google Cloud VMware Engine (GCVE) ซึ่งเป็นหนึ่งในบริการ Google Cloud ที่ลูกค้ารายนั้นใช้งาน
    • หนึ่งในหลาย GCVE private cloud ของลูกค้ารายนั้นที่ครอบคลุมสอง zone

สิ่งที่ไม่ได้รับผลกระทบ

  • เหตุการณ์นี้ไม่ได้ส่งผลกระทบต่อสิ่งต่อไปนี้:
    • บริการ Google Cloud อื่น ๆ
    • ลูกค้ารายอื่นที่ใช้ GCVE หรือบริการ Google Cloud อื่น ๆ
    • GCVE private cloud อื่น ๆ ของลูกค้า รวมถึงบัญชี Google, organization, folder หรือ project
    • ข้อมูลสำรองของลูกค้าที่จัดเก็บไว้ในภูมิภาคเดียวกัน (Google Cloud Storage)

สาเหตุของเหตุการณ์

สรุป

  • ระหว่างการ deploy เริ่มต้นของ GCVE private cloud สำหรับลูกค้า Google operator ได้กำหนดค่าบริการ GCVE ผิดพลาดโดยใช้เครื่องมือภายใน ซึ่งเกิดจากการปล่อยพารามิเตอร์หนึ่งว่างไว้
  • ส่งผลให้ GCVE private cloud ของลูกค้าถูกตั้งค่าเป็นระยะเวลาคงที่ และเมื่อครบกำหนดระยะเวลานั้นก็ถูกตั้งให้ลบโดยอัตโนมัติ
  • ทั้งสาเหตุของเหตุการณ์และพฤติกรรมของระบบได้รับการแก้ไขแล้วเพื่อไม่ให้เกิดขึ้นอีก
  • เหตุการณ์นี้ไม่ได้ส่งผลกระทบต่อบริการ Google Cloud อื่นใด นอกเหนือจาก GCVE private cloud หนึ่งชุดของลูกค้ารายนี้
  • ลูกค้ารายอื่นไม่ได้รับผลกระทบจากเหตุการณ์นี้

การวิเคราะห์โดยละเอียด

การ deploy โดยใช้กระบวนการยกเว้น
  • ในช่วงต้นปี 2023 Google operator ได้ใช้เครื่องมือภายในเพื่อ deploy GCVE private cloud หนึ่งชุดของลูกค้า เพื่อให้เป็นไปตามข้อกำหนดเฉพาะด้านการจัดสรร capacity
  • เครื่องมือภายในสำหรับจัดการ capacity นี้ถูกเลิกใช้งานในไตรมาส 4 ปี 2023 และปัจจุบันเป็นระบบอัตโนมัติเต็มรูปแบบโดยไม่ต้องอาศัยการแทรกแซงของมนุษย์
พฤติกรรมที่ไม่ตั้งใจจากพารามิเตอร์อินพุตที่ว่างเปล่า
  • Google operator ได้ปฏิบัติตามโปรโตคอลการควบคุมภายใน
  • อย่างไรก็ตาม ระหว่างการ provision private cloud ของลูกค้าผ่านเครื่องมือภายใน มีพารามิเตอร์อินพุตหนึ่งรายการถูกปล่อยว่างไว้
  • ส่งผลให้ระบบกำหนดค่าเริ่มต้นเป็นระยะเวลาคงที่ 1 ปีให้กับพารามิเตอร์นี้ ซึ่งในเวลานั้นยังไม่เป็นที่ทราบ
  • หลังจากครบระยะเวลา 1 ปีที่ระบบกำหนด GCVE private cloud ของลูกค้าก็ถูกลบ
  • การลบนี้เกิดจากการที่ Google operator ปล่อยพารามิเตอร์ว่างไว้ขณะใช้เครื่องมือภายใน จึงไม่มีการส่งการแจ้งเตือนไปยังลูกค้า
  • หากเป็นการลบที่เริ่มต้นโดยลูกค้า จะเกิดขึ้นได้ก็ต่อเมื่อมีการส่งการแจ้งเตือนไปยังลูกค้าก่อนเท่านั้น

การกู้คืน

  • ลูกค้าและทีม Google ได้ร่วมมือกันตลอด 24 ชั่วโมงเป็นเวลาหลายวันเพื่อกู้คืน GCVE private cloud ของลูกค้า รวมถึงกู้คืนการตั้งค่าเครือข่ายและความปลอดภัย กู้คืนแอปพลิเคชัน และกู้ข้อมูลกลับมาเพื่อฟื้นฟูการดำเนินงานอย่างสมบูรณ์
  • สิ่งนี้เป็นไปได้ด้วยแนวทางสถาปัตยกรรมที่แข็งแกร่งและยืดหยุ่นของลูกค้า
  • ข้อมูลสำรองที่เก็บไว้ใน Google Cloud Storage ภายในภูมิภาคเดียวกันไม่ได้รับผลกระทบจากการลบ และเมื่อทำงานร่วมกับซอฟต์แวร์สำรองข้อมูลจาก third-party ก็มีบทบาทสำคัญต่อการกู้คืนอย่างรวดเร็ว

มาตรการแก้ไข

  • Google Cloud ได้ดำเนินมาตรการหลายประการเพื่อไม่ให้เหตุการณ์นี้เกิดขึ้นอีก:
    1. เลิกใช้เครื่องมือภายในที่เป็นตัวก่อให้เกิดเหตุการณ์นี้ ส่วนนี้ปัจจุบันเป็นระบบอัตโนมัติเต็มรูปแบบ และลูกค้าสามารถควบคุมได้ผ่าน user interface
    2. ทำความสะอาดฐานข้อมูลของระบบและตรวจสอบ GCVE private cloud ทั้งหมดด้วยตนเอง เพื่อให้แน่ใจว่า deployment GCVE อื่น ๆ ไม่ตกอยู่ในความเสี่ยง
    3. แก้ไขพฤติกรรมของระบบใน workflow การ deploy เหล่านี้ที่ตั้งให้ GCVE private cloud ถูกลบ

บทสรุป

  • เหตุการณ์ลักษณะนี้ภายใน Google Cloud เกิดขึ้นเป็นครั้งแรก และไม่ใช่ปัญหาเชิงระบบ
  • บริการ Google Cloud มีมาตรการป้องกันที่แข็งแกร่ง เช่น soft delete, การแจ้งเตือนล่วงหน้า และการแทรกแซงโดยมนุษย์
  • เราได้ยืนยันแล้วว่ามาตรการป้องกันเหล่านี้ยังคงมีผลใช้งานต่อเนื่อง
  • การทำงานร่วมกับลูกค้าอย่างใกล้ชิดเป็นสิ่งจำเป็นต่อการกู้คืนอย่างรวดเร็ว CIO และทีมเทคนิคของลูกค้าสมควรได้รับคำชื่นชมที่ร่วมมืออย่างใกล้ชิดกับทีม Google Cloud เพื่อดำเนินการกู้คืนตลอด 24 ชั่วโมงได้อย่างรวดเร็วและแม่นยำ
  • การบริหารความเสี่ยงที่แข็งแกร่งและยืดหยุ่นเป็นสิ่งจำเป็นสำหรับการกู้คืนอย่างรวดเร็วเมื่อเกิดเหตุการณ์ไม่คาดคิด
  • Google Cloud ยังคงมีโครงสร้างพื้นฐานคลาวด์ที่ยืดหยุ่นและเสถียรที่สุดแห่งหนึ่งของโลก แม้จะเกิดเหตุการณ์เฉพาะครั้งนี้ แต่ uptime และความยืดหยุ่นของเราก็ได้รับการตรวจสอบยืนยันอย่างอิสระแล้ว

ความเห็นของ GN⁺

  • ความสำคัญของเหตุการณ์: เหตุการณ์นี้แสดงให้เห็นว่าผู้ให้บริการคลาวด์ต้องแก้ปัญหาอย่างรวดเร็วและทำงานร่วมกับลูกค้าได้ดีเพียงใด
  • ความจำเป็นของระบบอัตโนมัติ: เน้นย้ำว่าการทำระบบอัตโนมัติของเครื่องมือภายในมีความสำคัญมากเพียงใด โดยเฉพาะในกรณีที่ความผิดพลาดของมนุษย์อาจส่งผลกระทบอย่างมากต่อระบบ
  • การทำงานร่วมกับลูกค้า: แสดงให้เห็นว่าการร่วมมืออย่างใกล้ชิดกับลูกค้ามีความสำคัญเพียงใดต่อการแก้ปัญหา ซึ่งยังเป็นปัจจัยสำคัญในการสร้างความไว้วางใจด้วย
  • ความสำคัญของข้อมูลสำรอง: เน้นย้ำว่าข้อมูลสำรองมีความสำคัญเพียงใด โดยเฉพาะสำหรับการกู้คืนอย่างรวดเร็วเมื่อเกิดเหตุการณ์ไม่คาดคิด
  • มาตรการป้องกันในอนาคต: มาตรการที่ Google Cloud ดำเนินการเพื่อป้องกันไม่ให้เหตุการณ์เกิดซ้ำ อาจเป็นตัวอย่างที่ดีให้กับผู้ให้บริการคลาวด์รายอื่นได้

1 ความคิดเห็น

 
GN⁺ 2024-05-26
ความคิดเห็นจาก Hacker News

สรุปความคิดเห็นจาก Hacker News

  • ความไม่พอใจต่อความลึกของการแก้ปัญหา

    • เมื่อเทียบกับผลกระทบของเหตุการณ์แล้ว วิธีแก้ไขยังไม่ลึกพอ แม้จะป้องกันไม่ให้ปัญหาเดิมเกิดซ้ำได้ แต่ก็ยังมีโอกาสที่ปัญหาคล้ายกันจะเกิดขึ้นอีก จำเป็นต้องมีมาตรการเพิ่มเติมเพื่อป้องกันการยุติบริการ/การลบอย่างเป็นระบบ
  • คำถามเกี่ยวกับมาตรการปกป้องลูกค้าของ GCP

    • แนะนำให้ลูกค้า GCP สอบถาม TAM เกี่ยวกับมาตรการปกป้องของ GCP โดย GCP แทบไม่มีมาตรการป้องกันที่อาศัยมนุษย์ และมีน้อยกว่า AWS มาก
  • ข้อสงสัยเกี่ยวกับการทำงาน 24x7

    • มีการตั้งคำถามต่อข้อความที่ว่า "ทีม Google ทำงาน 24x7 เป็นเวลาหลายวัน"
  • เหตุการณ์ที่เกี่ยวข้อง

    • กล่าวถึงเหตุการณ์ที่สมาชิก UniSuper ไม่สามารถเข้าถึงบัญชีได้เป็นเวลาหนึ่งสัปดาห์เนื่องจากการตั้งค่าผิดพลาดของ Google Cloud และกรณีที่ Google Cloud ลบบัญชีของลูกค้าโดยไม่ได้ตั้งใจ
  • ความประหลาดใจต่อความผิดพลาดฝั่ง Google

    • แสดงความประหลาดใจที่เป็นความผิดพลาดจากฝั่ง Google และกล่าวว่า UniSuper คงตกใจมาก
  • ความละเอียดรอบคอบของการตรวจสอบ

    • มองว่าเป็นการตรวจสอบที่ละเอียดรอบคอบ เพราะไม่ได้สืบแค่เครื่องมือ/กระบวนการเฉพาะเท่านั้น แต่ยังทบทวนปัญหาการลบอัตโนมัติและตรวจสอบพฤติกรรมของ soft delete ด้วย อย่างไรก็ตาม ก็ยังระบุว่าจำเป็นต้องทบทวนพฤติกรรมค่าเริ่มต้นเพิ่มเติม
  • ความคาดหวังต่อ GCP

    • แม้ปัญหาของ UniSuper จะได้รับการแก้ไขแล้ว แต่หวังว่าเหตุการณ์นี้จะเป็นแรงกระตุ้นที่ GCP ต้องการ
  • คำชื่นชมต่อความพยายามของลูกค้า

    • ชื่นชม CIO และทีมเทคนิคของลูกค้าที่ร่วมมือกับทีม Google Cloud เพื่อกู้คืนระบบแบบ 24x7 ได้อย่างรวดเร็วและแม่นยำ
  • ประสบการณ์ของลูกค้า UniSuper

    • ลูกค้า UniSuper ทราบข้อเท็จจริงของเหตุการณ์จากข่าว และระบุว่ามีความพยายามลดทอนเหตุการณ์นี้ให้เหลือเพียง "ระบบหยุดให้บริการ"
  • ความเข้าใจผิดจากประกาศแรกเริ่ม

    • อธิบายว่าประกาศแรกเริ่มทำให้เกิดความเข้าใจผิด โดยความจริงแล้วมีเพียง virtual machine ในบางภูมิภาคเท่านั้นที่สูญหาย ซึ่งเป็นปัญหาที่ระบบควรรับมือได้