กรณีศึกษา How Complex System Fail
(how.complexsystems.fail)https://how.complexsystems.fail/
https://www.youtube.com/watch?v=2S0k12uZR14
ใน How Complex System Fail ของ Richard Cook มีการกล่าวถึงสาเหตุของความล้มเหลวของระบบซับซ้อน 18 ประการ และวิธีลดความล้มเหลวเหล่านั้น
1. ระบบซับซ้อนเป็นระบบที่มีความเสี่ยงโดยเนื้อแท้
2. ระบบซับซ้อนป้องกันความสำเร็จจากความล้มเหลว
เมื่อเกิดเหตุขัดข้อง จะมีการสร้างชั้นป้องกันหลายระดับ การป้องกันเหล่านี้ครอบคลุมทั้งองค์ประกอบทางเทคนิค (เช่น แบ็กอัป, ฟีเจอร์ด้านความปลอดภัยของระบบ) องค์ประกอบด้านมนุษย์ (การฝึกอบรม, ความรู้) รวมถึงองค์กรและสถาบันต่าง ๆ
3. การพังทลายครั้งใหญ่ (Catastrophe) ต้องอาศัยความล้มเหลวหลายครั้ง - SPoF เพียงอย่างเดียวไม่พอ
เหตุขัดข้องขนาดใหญ่มักเกิดจากอุบัติการณ์เล็ก ๆ หลายอย่างมารวมกัน
4. ระบบซับซ้อนมีชุดของข้อผิดพลาดที่แฝงอยู่ภายในและเปลี่ยนแปลงอยู่ตลอด
5. ระบบซับซ้อนทำงานในโหมดสมรรถนะถดถอย
6. การพังทลายครั้งใหญ่ (Catastrophe) อยู่ใกล้แค่เอื้อมเสมอ
7. Root Cause หลังเหตุขัดข้องนั้นผิดโดยพื้นฐาน
8. การประเมินผลหลังเหตุขัดข้องมีอคติแบบมองย้อนหลัง
9. การปฏิบัติการมีอยู่สองบทบาท (ผู้ผลิต, ผู้ป้องกันเหตุขัดข้อง)
10. การกระทำของผู้ปฏิบัติงานทุกคนคือการพนัน
หลังเกิดเหตุขัดข้อง ความล้มเหลวมักดูเหมือนเป็นสิ่งที่หลีกเลี่ยงไม่ได้ และการกระทำของผู้ปฏิบัติงานก็ดูเหมือนเป็นความผิดพลาด แต่ในความเป็นจริง การกระทำของผู้ปฏิบัติงานทุกคนคือการพนัน กล่าวคือเป็นการกระทำที่เกิดขึ้นเมื่อเผชิญกับผลลัพธ์ที่ไม่แน่นอน ระดับของความไม่แน่นอนอาจแตกต่างกันไป เราจะรู้ว่าการกระทำของผู้ปฏิบัติงานเป็นการพนันก็ต่อเมื่อเกิดเหตุขัดข้องขึ้นแล้ว โดยทั่วไป ในการวิเคราะห์ย้อนหลัง การพนันเหล่านี้มักถูกมองว่าเป็นการเดิมพันที่ย่ำแย่ อย่างไรก็ตาม ผลลัพธ์ที่ประสบความสำเร็จก็เป็นผลของการพนันเช่นกัน
11. การกระทำในจุดที่ยากที่สุดช่วยคลี่คลายความกำกวม
12. ผู้ปฏิบัติงานคือองค์ประกอบที่ปรับตัวได้ของระบบซับซ้อน
13. ความเชี่ยวชาญของมนุษย์ต่อระบบซับซ้อนเปลี่ยนแปลงอยู่ตลอดเวลา
14. การเปลี่ยนแปลงนำมาซึ่งรูปแบบความล้มเหลวใหม่ ๆ
15. มุมมองต่อ 'สาเหตุ' จำกัดประสิทธิภาพของการป้องกันเหตุการณ์ในอนาคต
16. ความปลอดภัยไม่ใช่องค์ประกอบ แต่เป็นคุณลักษณะของระบบ
ความปลอดภัยคือคุณสมบัติของระบบ สถานะความปลอดภัยของทุกระบบเปลี่ยนแปลงอยู่เสมอ จึงต้องมีการจัดการความเสี่ยงอย่างต่อเนื่องและเป็นระบบ
1 ความคิดเห็น
กรณีศึกษาของ How Complex System Fail
ช่วงนี้อาจเป็นเพราะกำลังเตรียมทำ chaos engineering อยู่ก็ได้ เลยทำให้ข้อความด้านล่างนี้ยังติดอยู่ในใจ
หายนะครั้งใหญ่ (Catastrophe) อยู่ใกล้แค่เอื้อมเสมอ
งานที่ไร้ความล้มเหลว ต้องอาศัยประสบการณ์จากความล้มเหลว