- Postman เผชิญเหตุ การหยุดให้บริการชั่วคราว จากปัญหาคลาวด์ระดับโลก
- เหตุขัดข้องเกิดจากปัญหาของผู้ให้บริการคลาวด์ ทำให้ผู้ใช้จำนวนมากเจอ ความผิดพลาดของฟังก์ชัน และการเข้าถึงไม่สามารถใช้ได้เป็นช่วงๆ
- ทีมวิศวกร ดำเนินการกู้คืนแบบเรียลไทม์และบริการกำลังฟื้นตัวอย่างค่อยเป็นค่อยไป
- มีการติดตามและแก้ไขอาการขัดข้องของ ฟังก์ชันการค้นหา รวมถึงประเด็น cross-dependency อย่างต่อเนื่อง
- ปัจจุบัน เหตุขัดข้องได้รับการแก้ไขและมีการกู้คืนบริการให้กลับปกติแล้ว โดยมีการติดตามเพื่อความเสถียรเพิ่มเติม
ไทม์ไลน์เหตุขัดข้องและกระบวนการฟื้นฟูบริการ Postman
การระบุเหตุขัดข้องและผลกระทบ (Oct 20, 05:39 ~ 05:52 PDT)
- Postman เริ่มมีปัญหาการทำงานเมื่อ อัตราความผิดพลาดเพิ่มสูงขึ้น
- สาเหตุของเหตุขัดข้องนี้คือการเกิดปัญหาสำคัญจาก ผู้ให้บริการคลาวด์
- ทีม Postman ร่วมมือกับผู้ให้บริการคลาวด์เพื่อดำเนินการ ฟื้นฟูอย่างรวดเร็ว
การฟื้นฟูบางส่วนและการตรวจสอบอย่างต่อเนื่อง (Oct 20, 05:56 ~ 17:17 PDT)
- มีการสังเกตเห็นการฟื้นตัวในบางระบบ
- ดำเนินการติดตาม ประสิทธิภาพการใช้งาน ของหลายบริการอย่างต่อเนื่อง และเร่งรัดการฟื้นฟูแบบเต็มรูปแบบต่อไป
- การกู้คืนฟังก์ชันส่วนใหญ่ได้รับการยืนยัน และมุ่งเน้นการเฝ้าระวังต่อเนื่องเพื่อป้องกันเหตุขัดข้องเพิ่มเติม
การฟื้นฟูสมบูรณ์และการทำงานปกติของบริการ (Oct 20, 19:00 ~ 20:51 PDT)
- แม้ยังมีปัญหาเป็นครั้งคราวในบางบริการบางส่วน แต่ระบบส่วนใหญ่ฟื้นตัวได้อย่างมั่นคง
- สามารถแก้ไข ข้อผิดพลาดข้ามการพึ่งพา (cross-dependency) และปัญหาที่เกี่ยวข้องกับ ฟังก์ชันการค้นหา อย่างค่อยเป็นค่อยไป
- หลังจากแก้ไขเหตุขัดข้องทั้งหมดและ ฟื้นฟูบริการสำเร็จอย่างสมบูรณ์ แล้ว ได้มีการตรวจสอบเพิ่มเติมเพื่อยืนยันความเสถียร
สรุปและประเด็นสะท้อน
- โครงสร้างของ Postman มีการพึ่งพาสภาพแวดล้อมคลาวด์สูง จึงถูกกระทบโดยตรงจาก เหตุขัดข้องระดับโลก
- สำหรับเครื่องมือที่คล้ายกันหรือบริการที่พึ่งพาโหมดทำงานแบบโลคัลมากขึ้น จำเป็นต้องเน้นการเตรียมพร้อมต่อเหตุขัดข้องด้าน โครงสร้างพื้นฐานคลาวด์
- เมื่อเกิดเหตุขัดข้อง การติดตามประเด็นแบบเรียลไทม์และการสื่อสารมีความสำคัญต่อการดูแลระบบและความเชื่อมั่นของลูกค้า
- ในกระบวนการที่การกู้คืนบริการเกิดขึ้นเป็นขั้นเป็นตอน การตอบสนองที่รวดเร็วของทีม และการสื่อสารที่โปร่งใสมีความสำคัญสูง
- ทำให้เห็นความสำคัญใหม่ของการสร้างระบบติดตามเพื่อยืนยันว่าบริการทั้งหมดทำงานปกติ
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
yapi(https://github.com/jamierpond/yapi) ซึ่งใช้ได้แบบนี้ ตัวอย่างไฟล์ yaml (รวม schema, url, method, path, และวิธีระบุ query parameters), เมื่อรันแค่yapiก็สามารถใช้ fzf เพื่อค้นหาไฟล์ config ได้ง่าย