- ตั้งแต่วันที่ 2 ถึง 4 พฤศจิกายน 2023 บริการ control plane และ analytics ของ Cloudflare หยุดชะงัก
- control plane ส่วนใหญ่ครอบคลุมอินเทอร์เฟซที่ลูกค้าใช้งานสำหรับบริการของ Cloudflare ขณะที่บริการ analytics ครอบคลุมการทำ logging และรายงานการวิเคราะห์
- เหตุการณ์ครั้งนี้เกิดจากไฟฟ้าขัดข้องที่ศูนย์ข้อมูลของ Flexential ซึ่งเป็นที่ตั้งของคลัสเตอร์ analytics ที่ใหญ่ที่สุดของ Cloudflare และเป็นส่วนสำคัญของคลัสเตอร์ high availability
- แม้จะมีการติดตั้งระบบ high availability เพื่อป้องกันการหยุดชะงักลักษณะนี้ แต่บางระบบสำคัญมีการพึ่งพาที่ไม่เปิดเผยต่อสาธารณะซึ่งทำให้ไม่สามารถใช้งานได้ระหว่างเหตุการณ์
- ระบบ control plane และ analytics ของ Cloudflare ทำงานหลักอยู่ในศูนย์ข้อมูลสามแห่งรอบเมือง Hillsboro รัฐ Oregon โดยออกแบบให้ทำงานแยกจากกันและยังคงทำงานต่อได้แม้แห่งใดแห่งหนึ่งจะออฟไลน์
- การหยุดชะงักครั้งนี้เผยให้เห็นว่าบางบริการ โดยเฉพาะบริการใหม่ ๆ ยังไม่ได้ถูกเพิ่มเข้าไปในคลัสเตอร์ high availability และระบบ logging ก็ไม่ได้เป็นส่วนหนึ่งของคลัสเตอร์นี้
- ไฟฟ้าขัดข้องที่ศูนย์ข้อมูลของ Flexential เกิดจากเหตุการณ์บำรุงรักษาที่ไม่ได้วางแผนไว้ซึ่งส่งผลต่อแหล่งจ่ายไฟอิสระที่เข้ามายังอาคาร และทำให้เกิด ground fault ที่หม้อแปลงไฟฟ้า
- Cloudflare สามารถกู้คืน control plane ส่วนใหญ่ได้จากศูนย์ disaster recovery และหลังจากศูนย์ดังกล่าวกลับมาออนไลน์ ลูกค้าส่วนใหญ่น่าจะไม่พบปัญหากับผลิตภัณฑ์ส่วนใหญ่
- อย่างไรก็ตาม บริการอื่นบางส่วนใช้เวลานานกว่าจะกู้คืนได้ และลูกค้าที่ใช้บริการเหล่านั้นอาจประสบปัญหาจนกว่าเหตุการณ์จะได้รับการแก้ไขอย่างสมบูรณ์
- Cloudflare กำลังนำบทเรียนจากเหตุการณ์นี้ไปใช้ปรับปรุงระบบ ซึ่งรวมถึงการลดการพึ่งพาศูนย์ข้อมูลหลัก การรับประกันว่าฟังก์ชัน control plane จะยังทำงานต่อได้แม้ศูนย์ข้อมูลหลักทั้งหมดจะออฟไลน์ และกำหนดให้ทุกผลิตภัณฑ์และฟีเจอร์พึ่งพาคลัสเตอร์ high availability พร้อมมีแผน disaster recovery ที่เชื่อถือได้
- บริษัทยังดำเนินการทดสอบ chaos ที่เข้มงวดยิ่งขึ้นสำหรับความสามารถของศูนย์ข้อมูลทั้งหมด ตรวจสอบศูนย์ข้อมูลหลักทั้งหมด และพัฒนาแผน disaster recovery สำหรับ logging และ analytics
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News