2 คะแนน โดย GN⁺ 2023-11-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ตั้งแต่วันที่ 2 ถึง 4 พฤศจิกายน 2023 บริการ control plane และ analytics ของ Cloudflare หยุดชะงัก
  • control plane ส่วนใหญ่ครอบคลุมอินเทอร์เฟซที่ลูกค้าใช้งานสำหรับบริการของ Cloudflare ขณะที่บริการ analytics ครอบคลุมการทำ logging และรายงานการวิเคราะห์
  • เหตุการณ์ครั้งนี้เกิดจากไฟฟ้าขัดข้องที่ศูนย์ข้อมูลของ Flexential ซึ่งเป็นที่ตั้งของคลัสเตอร์ analytics ที่ใหญ่ที่สุดของ Cloudflare และเป็นส่วนสำคัญของคลัสเตอร์ high availability
  • แม้จะมีการติดตั้งระบบ high availability เพื่อป้องกันการหยุดชะงักลักษณะนี้ แต่บางระบบสำคัญมีการพึ่งพาที่ไม่เปิดเผยต่อสาธารณะซึ่งทำให้ไม่สามารถใช้งานได้ระหว่างเหตุการณ์
  • ระบบ control plane และ analytics ของ Cloudflare ทำงานหลักอยู่ในศูนย์ข้อมูลสามแห่งรอบเมือง Hillsboro รัฐ Oregon โดยออกแบบให้ทำงานแยกจากกันและยังคงทำงานต่อได้แม้แห่งใดแห่งหนึ่งจะออฟไลน์
  • การหยุดชะงักครั้งนี้เผยให้เห็นว่าบางบริการ โดยเฉพาะบริการใหม่ ๆ ยังไม่ได้ถูกเพิ่มเข้าไปในคลัสเตอร์ high availability และระบบ logging ก็ไม่ได้เป็นส่วนหนึ่งของคลัสเตอร์นี้
  • ไฟฟ้าขัดข้องที่ศูนย์ข้อมูลของ Flexential เกิดจากเหตุการณ์บำรุงรักษาที่ไม่ได้วางแผนไว้ซึ่งส่งผลต่อแหล่งจ่ายไฟอิสระที่เข้ามายังอาคาร และทำให้เกิด ground fault ที่หม้อแปลงไฟฟ้า
  • Cloudflare สามารถกู้คืน control plane ส่วนใหญ่ได้จากศูนย์ disaster recovery และหลังจากศูนย์ดังกล่าวกลับมาออนไลน์ ลูกค้าส่วนใหญ่น่าจะไม่พบปัญหากับผลิตภัณฑ์ส่วนใหญ่
  • อย่างไรก็ตาม บริการอื่นบางส่วนใช้เวลานานกว่าจะกู้คืนได้ และลูกค้าที่ใช้บริการเหล่านั้นอาจประสบปัญหาจนกว่าเหตุการณ์จะได้รับการแก้ไขอย่างสมบูรณ์
  • Cloudflare กำลังนำบทเรียนจากเหตุการณ์นี้ไปใช้ปรับปรุงระบบ ซึ่งรวมถึงการลดการพึ่งพาศูนย์ข้อมูลหลัก การรับประกันว่าฟังก์ชัน control plane จะยังทำงานต่อได้แม้ศูนย์ข้อมูลหลักทั้งหมดจะออฟไลน์ และกำหนดให้ทุกผลิตภัณฑ์และฟีเจอร์พึ่งพาคลัสเตอร์ high availability พร้อมมีแผน disaster recovery ที่เชื่อถือได้
  • บริษัทยังดำเนินการทดสอบ chaos ที่เข้มงวดยิ่งขึ้นสำหรับความสามารถของศูนย์ข้อมูลทั้งหมด ตรวจสอบศูนย์ข้อมูลหลักทั้งหมด และพัฒนาแผน disaster recovery สำหรับ logging และ analytics

1 ความคิดเห็น

 
GN⁺ 2023-11-05
ความคิดเห็นจาก Hacker News
  • บทความเกี่ยวกับเหตุขัดข้องครั้งใหญ่ของ Cloudflare โดยบริษัทระบุว่าสาเหตุมาจากไฟฟ้าขัดข้องที่ศูนย์ข้อมูลซึ่งดำเนินการโดยผู้ให้บริการ Flexential
  • ผู้แสดงความคิดเห็นบางส่วนวิจารณ์ว่า Cloudflare โยนความรับผิดชอบไปให้ Flexential และเปิดเผยข้อมูลที่เป็นความลับเกี่ยวกับผู้ให้บริการรายนี้
  • สาเหตุรากของการหยุดชะงักคือ Cloudflare พึ่งพาศูนย์ข้อมูลเพียงแห่งเดียว ซึ่งผู้แสดงความคิดเห็นบางส่วนมองว่าเป็นเรื่องน่าอับอายสำหรับชื่อเสียงของ Cloudflare
  • กระบวนการกู้คืนใช้เวลานานกว่าตัวเหตุขัดข้องเอง และบางบริการใช้เวลาราว 30 ชั่วโมงกว่าจะกู้คืนได้สมบูรณ์ เนื่องจากหลายบริการพึ่งพากันและกัน
  • ผู้แสดงความคิดเห็นบางส่วนแสดงความไม่พอใจต่อการสื่อสารของ Cloudflare ระหว่างช่วงที่ระบบล่ม โดยเฉพาะกับลูกค้าองค์กร
  • แม้จะมีปัญหา ผู้แสดงความคิดเห็นบางส่วนก็ชื่นชมความโปร่งใสของ Cloudflare และความละเอียดรอบคอบของรายงานหลังเหตุการณ์
  • ผู้แสดงความคิดเห็นบางส่วนแสดงความกังวลต่อความล้มเหลวของระบบสำรองของ Cloudflare และการขาดการกระจายตัวทางภูมิศาสตร์ของ control plane
  • ผู้แสดงความคิดเห็นยังวิจารณ์ด้วยว่า Cloudflare ไม่ได้นำทุกบริการไปไว้ในคลัสเตอร์ที่มีความพร้อมใช้งานสูง และไม่ได้ทดสอบทุกสถานการณ์ที่เป็นไปได้ของไฟฟ้าดับ
  • ผู้แสดงความคิดเห็นบางส่วนชื่นชมปัจจัยด้านมนุษย์ในรายงาน โดยยอมรับว่า Cloudflare จำเป็นต้องมีเวลาพักเพื่อหลีกเลี่ยงความผิดพลาดเพิ่มเติมระหว่างกระบวนการกู้คืน
  • ผู้แสดงความคิดเห็นเน้นย้ำถึงความสำคัญของความสามารถในการกู้คืนเมื่อศูนย์ข้อมูลออฟไลน์ทั้งหมด และวิจารณ์ว่า Cloudflare ไม่ได้ทดสอบสถานการณ์นี้
  • ผู้แสดงความคิดเห็นบางส่วนแสดงความประหลาดใจต่อโครงสร้างของบทความ เนื่องจากเนื้อหาส่วนใหญ่พูดถึงผู้ให้บริการภายนอก และให้ความสำคัญกับความพยายามกู้คืนของ Cloudflare เองน้อยกว่า