- บทความว่าด้วยวิวัฒนาการตลอด 20 ปีของ Site Reliability Engineering (SRE) ของ Google
- ตลอด 20 ปีที่ผ่านมา พลังการประมวลผลของ Google เติบโตขึ้น 1,000 เท่า และเครือข่ายเติบโตขึ้น 10,000 เท่า
- เครื่องมือ SRE พัฒนาจากสคริปต์ Python ไปสู่ระบบนิเวศของบริการแบบบูรณาการ และแพลตฟอร์มรวมที่มอบความน่าเชื่อถือเป็นค่าเริ่มต้น
- บทความนี้เน้น 11 บทเรียนสำคัญที่ Google ได้เรียนรู้จากการทำ SRE ตลอด 20 ปี
- บทเรียนที่ 1: ความเสี่ยงของมาตรการบรรเทาควรเปลี่ยนแปลงตามความรุนแรงของการหยุดชะงัก
- บทเรียนที่ 2: ต้องทดสอบกลไกการกู้คืนอย่างสมบูรณ์ก่อนเกิดสถานการณ์ฉุกเฉิน
- บทเรียนที่ 3: การเปลี่ยนแปลงทั้งหมดควรถูกนำไปใช้แบบค่อยเป็นค่อยไปเพื่อป้องกันผลกระทบในวงกว้าง
- บทเรียนที่ 4: การพึ่งพาบริการทั้งหมดควรมี "ปุ่มแดงขนาดใหญ่" สำหรับย้อนกลับสถานะที่ไม่พึงประสงค์
- บทเรียนที่ 5: การทดสอบหน่วยเพียงอย่างเดียวไม่เพียงพอ; ต้องมีการทดสอบแบบบูรณาการด้วย
- บทเรียนที่ 6: ระหว่างการหยุดชะงัก จำเป็นต้องมีช่องทางการสื่อสารหลายทางรวมถึงช่องทางสำรอง
- บทเรียนที่ 7: บริการควรสามารถลดประสิทธิภาพลงอย่างตั้งใจและอย่างสง่างามได้ในสถานการณ์ที่ผิดปกติ
- บทเรียนที่ 8: ความยืดหยุ่นต่อภัยพิบัติและการทดสอบการกู้คืนควรเป็นส่วนหนึ่งของกลยุทธ์ความต่อเนื่องทางธุรกิจ
- บทเรียนที่ 9: มาตรการบรรเทาควรถูกทำให้เป็นอัตโนมัติเพื่อลดค่าเฉลี่ยเวลาในการกู้คืน (MTTR)
- บทเรียนที่ 10: การปล่อยใช้งานบ่อยครั้งพร้อมการทดสอบที่เหมาะสมสามารถลดโอกาสที่การปล่อยใช้งานจะผิดพลาดได้
- บทเรียนที่ 11: ฮาร์ดแวร์เวอร์ชันสากลเพียงเวอร์ชันเดียวคือจุดล้มเหลวเพียงจุดเดียว และการรักษาโครงสร้างพื้นฐานที่หลากหลายช่วยป้องกันการหยุดชะงักทั้งระบบได้
- บทเรียนเหล่านี้อ้างอิงจากเหตุการณ์จริงที่ Google ได้ประสบและเรียนรู้มาตลอดหลายปี
ยังไม่มีความคิดเห็น