สถานะเหตุขัดข้องของ GCP
(blog.railway.app)ปัญหาและการรับมือของ Google Cloud Platform
- Railway ใช้ Compute Engine ของ Google Cloud Platform (GCP) เพื่อรันแพลตฟอร์มพัฒนาแอปพลิเคชัน
- มีบางเครื่องหยุดตอบสนอง ทำให้เกิดเหตุขัดข้องของบริการ และสถานการณ์นี้กินเวลาประมาณ 10 นาที
- ปัญหาได้รับการแก้ไขแล้ว โดยย้ายเวิร์กโหลดทั้งหมดสำเร็จและกู้คืนบริการได้
ความสัมพันธ์ที่ยากลำบากกับ Google Cloud
- Railway เผชิญปัญหาหลายอย่างกับ Google Cloud ตลอดช่วง 18 เดือนที่ผ่านมา
- เมื่อปัญหาเครือข่ายเกิดขึ้นต่อเนื่อง จึงสร้าง networking stack ของตนเองเพื่อแก้ปัญหา
- เมื่อ Google จำกัดโควตาของ registry ก็แก้ด้วยการสร้างผลิตภัณฑ์ registry ของตนเอง
- Railway ผิดหวังกับบริการสนับสนุนของ Google จนต้องหารือกับรองประธานของ Google เพื่อแก้ปัญหา
- Google เปลี่ยนข้อกำหนดการให้บริการ ทำให้ต้นทุนเพิ่มขึ้น 20% และขณะนี้ยังรอแนวทางแก้ไข
- Railway มีแผนยุติการใช้บริการ Google Cloud และย้ายไปยัง bare metal instance ของตนเอง
ทบทวนเหตุการณ์
- Google รีสตาร์ตเครื่อง ทำให้เซิร์ฟเวอร์ออฟไลน์
- แม้จะมีระบบกู้คืนความขัดข้องอัตโนมัติ แต่บางเซิร์ฟเวอร์ไม่สามารถกู้คืนได้ จึงต้องทำการกู้คืนแบบแมนนวล
- คาดว่าสาเหตุมาจากปัญหาที่เกิดจากการ live migration อัตโนมัติของ Google Cloud และได้พยายามติดต่อ Google แต่ไม่ได้รับการตอบกลับ
- จากการวิเคราะห์ serial console log คาดว่าใน guest ของ GCP อาจเกิด soft lockup ได้ในบางกรณีที่พบไม่บ่อย ระหว่างการส่งหน่วยความจำจาก user space ไปยัง kernel ภายใต้ภาวะทรัพยากรถูกกดดัน
บทสรุปสำหรับผู้ใช้
- ระหว่างการกู้คืนแบบแมนนวล มีดาวน์ไทม์ประมาณ 10 นาทีต่อโฮสต์
- สำหรับผู้ใช้ที่รันเวิร์กโหลดหลายบริการ ดาวน์ไทม์อาจนานกว่านี้
- Railway ขอโทษผู้ใช้สำหรับความไม่สะดวก และมีแผนย้ายไปยัง bare metal ของตนเองเพื่อมอบความน่าเชื่อถือที่สูงขึ้น
ความเห็นของ GN⁺
สิ่งสำคัญที่สุดของบทความนี้คือผลกระทบของปัญหาทางเทคนิคของ Google Cloud Platform และปัญหาด้านการสนับสนุนลูกค้าที่มีต่อผู้ใช้ ปัญหาที่ Railway เผชิญเน้นให้เห็นถึงความสำคัญของความน่าเชื่อถือและการสนับสนุนจากผู้ให้บริการคลาวด์ และยังแสดงให้เห็นความสำคัญของการสร้างโครงสร้างพื้นฐานของตนเองเพื่อแก้ปัญหาเหล่านี้ บทความนี้ช่วยให้เข้าใจความซับซ้อนและความเสี่ยงที่อาจเกิดขึ้นของคลาวด์คอมพิวติ้งได้ดีขึ้น และน่าสนใจพร้อมให้ทั้งมุมมองเชิงเทคนิคและแนวทางรับมือปัญหา
1 ความคิดเห็น
ความเห็นจาก Hacker News
ประสบการณ์ของบริษัทซอฟต์แวร์ขนาดเล็ก
ความเห็นต่อการเปลี่ยนแปลงของ GCP
การเปรียบเทียบความน่าเชื่อถือระหว่าง GCP และ AWS
ความเห็นเกี่ยวกับปัญหาของผู้ให้บริการคลาวด์
ประสบการณ์กับบริการซัพพอร์ตของ Google Cloud
ประสบการณ์เกี่ยวกับปัญหาฟีเจอร์ของ GCP
ประสบการณ์เกี่ยวกับ threshold ที่ไม่ได้มีเอกสารของ GCP
วิธีแก้ปัญหาเครือข่ายของ Google Cloud
ความเห็นเกี่ยวกับความน่าเชื่อถือของ Google Cloud
ความสับสนส่วนตัวเกี่ยวกับปัญหาใน GCP