7 คะแนน โดย roxie 2025-06-15 | 5 ความคิดเห็น | แชร์ทาง WhatsApp
  • Service Control: หนึ่งในโมดูลหลักที่ Google และ Google Cloud API ใช้งาน
    • วันที่ 2025-05-29 มีการปล่อยฟีเจอร์ใหม่ให้กับ Service Control โดยเป็นฟีเจอร์สำหรับตรวจสอบนโยบายใหม่
    • เมื่อมีการเพิ่มนโยบายใหม่ในวันที่ 2025-06-12 ปัญหาก็เริ่มต้นขึ้น:
      • เกิด crash loop* จาก null pointer
      • ไม่มี feature flag แต่มีการใช้ red-button เพื่อหยุดฉุกเฉิน
      • ในรีเจียนขนาดใหญ่อย่าง us-central-1 การกระทำนี้ทำให้เกิด herd effect* กับบริการภายในที่พึ่งพาอยู่ เนื่องจากไม่มีการ implement กลยุทธ์ randomized exponential backoff**
  • หมายถึงมีทราฟฟิกหลั่งไหลเข้ามาจำนวนมากในคราวเดียว
    ** เป็นเทคนิคเพื่อป้องกันทราฟฟิกโอเวอร์โหลด

5 ความคิดเห็น

 
kunggom 2025-06-16

ดูเหมือนว่าใน GN+ ก็มีโพสต์ที่พูดถึงรายงานฉบับเดียวกันนี้ขึ้นมาเหมือนกันนะครับ

 
kunggom 2025-06-16

ดูเหมือนว่าแม้แต่บริษัทใหญ่อย่าง Google ก็ยังมีโค้ดที่ซ่อนอยู่ตามจุดต่าง ๆ ซึ่งไม่ได้ใช้มาตรการพื้นฐานอย่างการเพิ่ม Jitter ตอนจัดการการลองใหม่แบบคาดไม่ถึง
คงเป็นเพราะก่อนหน้านี้ปัญหาแบบนี้ไม่เคยเกิดขึ้นเลยปล่อยไว้แบบนั้น แต่สุดท้ายเรื่องไม่ไปแตะโค้ดที่ทำงานได้ดีก็ดูเหมือนจะเป็นเหมือนกันแม้แต่ในบริษัทขนาดยักษ์

 
roxie 2025-06-15

ตอนนี้มาดูแล้ว รูปแบบน่าจะเพี้ยนไปเล็กน้อยนะครับ สองบรรทัดสุดท้ายคือหมายเหตุเกี่ยวกับ crash loop และ randomized exponential backoff ตามลำดับ

 
regentag 2025-06-15

นี่เกี่ยวข้องกับเหตุขัดข้องในโพสต์ อินเทอร์เน็ตล่ม ที่เกิดขึ้นเมื่อไม่กี่วันก่อนหรือเปล่าครับ?

 
roxie 2025-06-15

ใช่ครับ เป็นเรื่องของเหตุขัดข้องนั้น