1 คะแนน โดย GN⁺ 2023-12-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ปัญหาและการรับมือของ Google Cloud Platform

  • Railway ใช้ Compute Engine ของ Google Cloud Platform (GCP) เพื่อรันแพลตฟอร์มพัฒนาแอปพลิเคชัน
  • มีบางเครื่องหยุดตอบสนอง ทำให้เกิดเหตุขัดข้องของบริการ และสถานการณ์นี้กินเวลาประมาณ 10 นาที
  • ปัญหาได้รับการแก้ไขแล้ว โดยย้ายเวิร์กโหลดทั้งหมดสำเร็จและกู้คืนบริการได้

ความสัมพันธ์ที่ยากลำบากกับ Google Cloud

  • Railway เผชิญปัญหาหลายอย่างกับ Google Cloud ตลอดช่วง 18 เดือนที่ผ่านมา
  • เมื่อปัญหาเครือข่ายเกิดขึ้นต่อเนื่อง จึงสร้าง networking stack ของตนเองเพื่อแก้ปัญหา
  • เมื่อ Google จำกัดโควตาของ registry ก็แก้ด้วยการสร้างผลิตภัณฑ์ registry ของตนเอง
  • Railway ผิดหวังกับบริการสนับสนุนของ Google จนต้องหารือกับรองประธานของ Google เพื่อแก้ปัญหา
  • Google เปลี่ยนข้อกำหนดการให้บริการ ทำให้ต้นทุนเพิ่มขึ้น 20% และขณะนี้ยังรอแนวทางแก้ไข
  • Railway มีแผนยุติการใช้บริการ Google Cloud และย้ายไปยัง bare metal instance ของตนเอง

ทบทวนเหตุการณ์

  • Google รีสตาร์ตเครื่อง ทำให้เซิร์ฟเวอร์ออฟไลน์
  • แม้จะมีระบบกู้คืนความขัดข้องอัตโนมัติ แต่บางเซิร์ฟเวอร์ไม่สามารถกู้คืนได้ จึงต้องทำการกู้คืนแบบแมนนวล
  • คาดว่าสาเหตุมาจากปัญหาที่เกิดจากการ live migration อัตโนมัติของ Google Cloud และได้พยายามติดต่อ Google แต่ไม่ได้รับการตอบกลับ
  • จากการวิเคราะห์ serial console log คาดว่าใน guest ของ GCP อาจเกิด soft lockup ได้ในบางกรณีที่พบไม่บ่อย ระหว่างการส่งหน่วยความจำจาก user space ไปยัง kernel ภายใต้ภาวะทรัพยากรถูกกดดัน

บทสรุปสำหรับผู้ใช้

  • ระหว่างการกู้คืนแบบแมนนวล มีดาวน์ไทม์ประมาณ 10 นาทีต่อโฮสต์
  • สำหรับผู้ใช้ที่รันเวิร์กโหลดหลายบริการ ดาวน์ไทม์อาจนานกว่านี้
  • Railway ขอโทษผู้ใช้สำหรับความไม่สะดวก และมีแผนย้ายไปยัง bare metal ของตนเองเพื่อมอบความน่าเชื่อถือที่สูงขึ้น

ความเห็นของ GN⁺

สิ่งสำคัญที่สุดของบทความนี้คือผลกระทบของปัญหาทางเทคนิคของ Google Cloud Platform และปัญหาด้านการสนับสนุนลูกค้าที่มีต่อผู้ใช้ ปัญหาที่ Railway เผชิญเน้นให้เห็นถึงความสำคัญของความน่าเชื่อถือและการสนับสนุนจากผู้ให้บริการคลาวด์ และยังแสดงให้เห็นความสำคัญของการสร้างโครงสร้างพื้นฐานของตนเองเพื่อแก้ปัญหาเหล่านี้ บทความนี้ช่วยให้เข้าใจความซับซ้อนและความเสี่ยงที่อาจเกิดขึ้นของคลาวด์คอมพิวติ้งได้ดีขึ้น และน่าสนใจพร้อมให้ทั้งมุมมองเชิงเทคนิคและแนวทางรับมือปัญหา

1 ความคิดเห็น

 
GN⁺ 2023-12-04
ความเห็นจาก Hacker News
  • ประสบการณ์ของบริษัทซอฟต์แวร์ขนาดเล็ก

    • ในฐานะบริษัทซอฟต์แวร์ 2 คน ได้เจอปัญหาหลายอย่างกับ Google
    • ปัญหาส่วนใหญ่เกี่ยวข้องกับ Google Adwords
    • ถ้า Google ยังไม่ให้การสนับสนุนที่เหมาะสมกับผู้เขียนต้นฉบับที่จ่ายเงินจำนวนมาก ก็แทบไม่มีความหวังสำหรับธุรกิจขนาดเล็ก
  • ความเห็นต่อการเปลี่ยนแปลงของ GCP

    • เมื่อหลายปีก่อน GCP เป็นตัวเลือกที่คุ้มค่ากว่า AWS ในด้านประสิทธิภาพต่อราคา
    • ตอนนั้นการซัพพอร์ตของ GCP ดีมาก และประสบการณ์การจัดการทิกเก็ตช่วงแรกก็น่าประทับใจ
    • การติดต่อกับทีมขายก็ดีเช่นกัน แต่ตอนนี้ AWS ตาม GCP ทันแล้วในด้านความคุ้มค่าต่อราคา และยังนำหน้าในบริการแบบ managed service
    • ประสบการณ์ด้านการซัพพอร์ตของ GCP แย่ลงอย่างเห็นได้ชัด และล้มเหลวในการรับรู้ปัญหาเครือข่าย
    • แม้จะลงทุนกับ GCP ไปมาก แต่ก็ผิดหวังกับสถานการณ์ปัจจุบันและกำลังพยายามลดค่าใช้จ่าย
  • การเปรียบเทียบความน่าเชื่อถือระหว่าง GCP และ AWS

    • แม้การที่ compute instance บน GCP จะล่มเป็นเรื่องที่เกิดขึ้นไม่บ่อย แต่ก็ยังถูกวิจารณ์
    • บน AWS เคยเจอประสบการณ์ที่ instance หยุดทำงานบ่อยหรือหายไปเลย
    • จากประสบการณ์ส่วนตัวและเอกสารของ AWS ผู้แสดงความเห็นระบุว่าองค์ประกอบพื้นฐานของ AWS น่าเชื่อถือน้อยกว่า GCP
  • ความเห็นเกี่ยวกับปัญหาของผู้ให้บริการคลาวด์

    • ผู้ให้บริการคลาวด์ทุกรายมีปัญหา
    • เคยพบและรายงานปัญหาหลายอย่างใน AWS และทีมซัพพอร์ตก็ทำให้เสียเวลา
    • นอกเหนือจากบริการหลัก (EC2, EBS, S3) ก็ไม่ค่อยอยากใช้งาน
  • ประสบการณ์กับบริการซัพพอร์ตของ Google Cloud

    • ไม่ประทับใจกับบริการซัพพอร์ตของ Google Cloud
    • ขณะที่ประสบการณ์ด้านซัพพอร์ตกับ AWS นั้นดีมาโดยตลอด
    • หากมีปฏิสัมพันธ์เชิงบวกกับ Google Cloud ก็ควรเน้นย้ำและให้ฟีดแบ็กเชิงบวกไว้
  • ประสบการณ์เกี่ยวกับปัญหาฟีเจอร์ของ GCP

    • ฟีเจอร์ระดับองค์กรของ GCP ทำงานได้ไม่ถูกต้อง และเมื่อพยายามแก้ไขก็ทำให้เกิด downtime
    • ตัวแทนของ GCP พยายามไม่ยอมรับปัญหา พร้อมย้ำเตือนเรื่อง NDA
  • ประสบการณ์เกี่ยวกับ threshold ที่ไม่ได้มีเอกสารของ GCP

    • เกี่ยวกับ Cloud Run เคยเจอเหตุการณ์ scaling ที่อธิบายไม่ได้โดยอิงจากการใช้ CPU และจำนวนคำขอพร้อมกัน
    • ผ่านการซัพพอร์ตระดับพรีเมียมจึงได้รู้ว่ามีเกณฑ์เพิ่มเติม แต่ก็ไม่ได้รับคำอธิบายอย่างละเอียด
  • วิธีแก้ปัญหาเครือข่ายของ Google Cloud

    • พบปัญหาเครือข่ายอย่างต่อเนื่องในผลิตภัณฑ์ของ Google Cloud
    • แก้ปัญหาด้วยการสร้าง networking stack ขึ้นมาเอง
    • ตั้งคำถามว่าทำไม UDP/Wireguard overlay ถึงเชื่อถือได้มากกว่าได้ เมื่อเครือข่ายพื้นฐานไม่เสถียร
  • ความเห็นเกี่ยวกับความน่าเชื่อถือของ Google Cloud

    • ปัญหาความน่าเชื่อถือในยุคแรกของ cloud computing ยังพอเข้าใจได้ แต่การทำให้ลูกค้ารายใหญ่ผิดหวังในปี 2023 เป็นสถานการณ์ที่ไม่ดี
    • สงสัยว่าคนอื่นเคยมีประสบการณ์คล้ายกันหรือไม่ หรือเป็นแค่ผู้เขียนที่โชคร้าย
  • ความสับสนส่วนตัวเกี่ยวกับปัญหาใน GCP

    • สับสนว่าการทำ virtualization แบบ nested เกี่ยวข้องกับปัญหาอย่างไร
    • ไม่เข้าใจการกล่าวถึงคำสั่ง MMIO
    • ดูเหมือนว่าผู้เขียนจะรู้สึกอัดอั้นกับเหตุการณ์ล่าสุดและพยายามหาทางแก้ไข