รายงานเหตุขัดข้องของ Cloudflare เมื่อวันที่ 2 กรกฎาคม 2019 [แปล]
(ryanking13.github.io)เป็นบทความที่ CTO ของ Cloudflare สรุปภาพรวมของเหตุการณ์และการรับมือไว้ ทำให้เห็นว่าปัญหาเกิดขึ้นในองค์กรขนาดใหญ่ได้อย่างไร และรับมือกับมันอย่างไร
เป็นบทความที่ CTO ของ Cloudflare สรุปภาพรวมของเหตุการณ์และการรับมือไว้ ทำให้เห็นว่าปัญหาเกิดขึ้นในองค์กรขนาดใหญ่ได้อย่างไร และรับมือกับมันอย่างไร
5 ความคิดเห็น
ภาคผนวกของต้นฉบับก็น่าสนใจเหมือนกัน มีคำอธิบายอย่างละเอียดว่าทำไมแพตเทิร์นที่เป็นปัญหาอย่าง
.*.*=.*ถึงทำให้ CPU ถูกใช้จนหมด และแม้ว่าการแก้ regular expression จะเป็นเรื่องที่ดี แต่การพิจารณาเปลี่ยนเอนจินเป็นทางเลือกก็ดูมีความหมายเช่นกันเป็นรายงานเหตุขัดข้องที่ยอดเยี่ยมมากเลยนะครับ น่าทึ่งทั้งที่อธิบายอย่างละเอียดว่ารับมืออย่างไร และยังมีอะไรให้เรียนรู้อีกมากจากการที่ไม่ได้มองว่าเป็นเพียงความผิดพลาดของวิศวกรคนเดียว แต่ค้นหาสาเหตุที่ซับซ้อนร่วมกันแล้วค่อย ๆ แก้ไขไปทีละอย่าง แม้จะเกิดเหตุขัดข้องขึ้น แต่กลับรู้สึกเหมือนความเชื่อมั่นต่อบริษัทจะยิ่งเพิ่มขึ้นด้วยซ้ำ
รู้สึกเห็นด้วยมากครับ ผมเองก็ประทับใจที่เขาชี้ให้เห็นถึงสาเหตุที่ซับซ้อนเช่นกัน ดูเหมือนว่าสิ่งที่น่าเรียนรู้มากคือการไม่มองว่าเป็นเพียงความผิดพลาดของวิศวกรคนเดียว
จริงด้วยนะ หรือว่าอาจจะมีผู้บริหารที่รับผิดชอบรายงานเหตุขัดข้องโดยเฉพาะกันนะ? การที่หาสาเหตุและวิเคราะห์ได้ละเอียดขนาดนั้นก็น่าทึ่งมากอยู่แล้ว แต่รายงานก็เขียนได้ดีเสียจนรู้สึกว่า จำเป็นต้องเขียนละเอียดถึงขนาดนั้นเลยหรือเนี่ย
John Graham-Cumming ซึ่งเป็น CTO ของ Cloudflare และเป็นผู้เขียนบทความนั้น เดิมทีก็เป็นบล็อกเกอร์ที่มีชื่อเสียงอยู่แล้ว https://blog.jgc.org/