• บทความว่าด้วยวิวัฒนาการตลอด 20 ปีของ Site Reliability Engineering (SRE) ของ Google
  • ตลอด 20 ปีที่ผ่านมา พลังการประมวลผลของ Google เติบโตขึ้น 1,000 เท่า และเครือข่ายเติบโตขึ้น 10,000 เท่า
  • เครื่องมือ SRE พัฒนาจากสคริปต์ Python ไปสู่ระบบนิเวศของบริการแบบบูรณาการ และแพลตฟอร์มรวมที่มอบความน่าเชื่อถือเป็นค่าเริ่มต้น
  • บทความนี้เน้น 11 บทเรียนสำคัญที่ Google ได้เรียนรู้จากการทำ SRE ตลอด 20 ปี
  • บทเรียนที่ 1: ความเสี่ยงของมาตรการบรรเทาควรเปลี่ยนแปลงตามความรุนแรงของการหยุดชะงัก
  • บทเรียนที่ 2: ต้องทดสอบกลไกการกู้คืนอย่างสมบูรณ์ก่อนเกิดสถานการณ์ฉุกเฉิน
  • บทเรียนที่ 3: การเปลี่ยนแปลงทั้งหมดควรถูกนำไปใช้แบบค่อยเป็นค่อยไปเพื่อป้องกันผลกระทบในวงกว้าง
  • บทเรียนที่ 4: การพึ่งพาบริการทั้งหมดควรมี "ปุ่มแดงขนาดใหญ่" สำหรับย้อนกลับสถานะที่ไม่พึงประสงค์
  • บทเรียนที่ 5: การทดสอบหน่วยเพียงอย่างเดียวไม่เพียงพอ; ต้องมีการทดสอบแบบบูรณาการด้วย
  • บทเรียนที่ 6: ระหว่างการหยุดชะงัก จำเป็นต้องมีช่องทางการสื่อสารหลายทางรวมถึงช่องทางสำรอง
  • บทเรียนที่ 7: บริการควรสามารถลดประสิทธิภาพลงอย่างตั้งใจและอย่างสง่างามได้ในสถานการณ์ที่ผิดปกติ
  • บทเรียนที่ 8: ความยืดหยุ่นต่อภัยพิบัติและการทดสอบการกู้คืนควรเป็นส่วนหนึ่งของกลยุทธ์ความต่อเนื่องทางธุรกิจ
  • บทเรียนที่ 9: มาตรการบรรเทาควรถูกทำให้เป็นอัตโนมัติเพื่อลดค่าเฉลี่ยเวลาในการกู้คืน (MTTR)
  • บทเรียนที่ 10: การปล่อยใช้งานบ่อยครั้งพร้อมการทดสอบที่เหมาะสมสามารถลดโอกาสที่การปล่อยใช้งานจะผิดพลาดได้
  • บทเรียนที่ 11: ฮาร์ดแวร์เวอร์ชันสากลเพียงเวอร์ชันเดียวคือจุดล้มเหลวเพียงจุดเดียว และการรักษาโครงสร้างพื้นฐานที่หลากหลายช่วยป้องกันการหยุดชะงักทั้งระบบได้
  • บทเรียนเหล่านี้อ้างอิงจากเหตุการณ์จริงที่ Google ได้ประสบและเรียนรู้มาตลอดหลายปี

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น