1 คะแนน โดย GN⁺ 2 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • หน้าแสดงสถานะของ GitHub ขณะนี้เป็น All Systems Operational และในวันที่ 27 พฤษภาคม 2026 ไม่มีอินซิเดนต์ที่ถูกรายงาน
  • ในช่วง 90 วันล่าสุด องค์ประกอบหลักทั้งหมดอยู่ในสถานะ Operational โดย อัตราการพร้อมใช้งานของ Actions อยู่ที่ 99.66% และ Pull Requests อยู่ที่ 99.55%
  • เมื่อวันที่ 26 พฤษภาคม Actions และ Pages เกิดปัญหาการยืนยันตัวตน ทำให้เริ่มการรันและดาวน์โหลดแอ็กชันไม่สำเร็จ และส่งผลกระทบต่อการรัน Actions ส่วนใหญ่
  • ความล่าช้าของ Actions เมื่อวันที่ 20 พฤษภาคม มีสาเหตุจาก health check ที่ตั้งค่าผิดพลาด ส่งผลให้การรันทั้งหมด 4.5% และงาน scale set 30% ล่าช้า
  • การเสื่อมประสิทธิภาพของ Actions เมื่อวันที่ 15 พฤษภาคม เกิดจากปัญหาการกำหนดเส้นทางระหว่าง การสลับระบบสำรองตามแผน โดย ณ จุดที่กระทบสูงสุด การรัน 42% ล้มเหลว

สถานะบริการปัจจุบัน

  • หน้าแสดงสถานะของ GitHub แสดงเป็น All Systems Operational ในขณะนี้
  • วันที่ 27 พฤษภาคม 2026 แสดงว่า ไม่มีอินซิเดนต์ที่ถูกรายงาน
  • ในช่วง 90 วันล่าสุด องค์ประกอบหลักทั้งหมดอยู่ในสถานะ Operational
    • Git Operations: อัตราพร้อมใช้งาน 99.83%
    • Webhooks: อัตราพร้อมใช้งาน 99.73%
    • API Requests: อัตราพร้อมใช้งาน 99.98%
    • Issues: อัตราพร้อมใช้งาน 99.86%
    • Pull Requests: อัตราพร้อมใช้งาน 99.55%
    • Actions: อัตราพร้อมใช้งาน 99.66%
    • Packages: อัตราพร้อมใช้งาน 99.98%
    • Pages: อัตราพร้อมใช้งาน 99.96%
    • Copilot: อัตราพร้อมใช้งาน 99.91%
    • Codespaces: อัตราพร้อมใช้งาน 99.77%
    • Copilot AI Model Providers: อัตราพร้อมใช้งาน 100.0%
  • GitHub Enterprise Cloud มีหน้าแสดงสถานะแยกตามภูมิภาคด้วย

อินซิเดนต์ Actions และ Pages วันที่ 26 พฤษภาคม 2026

  • อินซิเดนต์ Actions และ Pages

    • เวลา 10:57 UTC เริ่มตรวจสอบ การเสื่อมประสิทธิภาพของ Actions และ Pages
    • เวลา 11:19 UTC ยืนยันได้ว่าเกิด การพร้อมใช้งานลดลง ของ Actions
    • เวลา 11:53 UTC กำลังตรวจสอบ ปัญหาการยืนยันตัวตน ที่ทำให้เริ่มการรัน Actions และดาวน์โหลดแอ็กชันไม่สำเร็จ โดยในขณะนั้นการรัน Actions ส่วนใหญ่ได้รับผลกระทบ
    • เวลา 12:37 UTC ระบุสาเหตุของปัญหาการยืนยันตัวตนที่ส่งผลต่อ GitHub Actions ได้แล้ว และกำลังดำเนินการบรรเทาผลกระทบ
    • เวลา 13:00 UTC การเสื่อมประสิทธิภาพของ Actions และ Pages ถูกบรรเทาแล้ว และเปลี่ยนไปสู่การเฝ้าติดตามเพื่อยืนยันเสถียรภาพ
    • เวลา 13:18 UTC อินซิเดนต์ได้รับการแก้ไขแล้ว และจะมีการแชร์ การวิเคราะห์สาเหตุราก โดยละเอียดเมื่อพร้อม

อินซิเดนต์ Actions วันที่ 20 พฤษภาคม 2026

  • อินซิเดนต์ Actions

    • ระหว่างเวลา 16:00~17:45 UTC ลูกค้า GitHub Actions ประสบกับ ความล่าช้าเกิน 5 นาทีในการเริ่มการรัน
    • ในช่วงที่ได้รับผลกระทบ การรันทั้งหมดประมาณ 4.5% ล่าช้า และงาน scale set ได้รับผลกระทบมากกว่า
    • งาน scale set 30% ล่าช้า และ 4% ไม่สามารถเริ่มได้เลย
    • สาเหตุมาจาก health check ที่ตั้งค่าผิดพลาด ของบริการภายในที่ใช้จัดสรรงานให้ runner
    • การพุ่งขึ้นของความล่าช้าระยะสั้นใน dependency ระดับบน ทำให้ health check ล้มเหลวในหลาย pod และ pod เหล่านั้นถูกนำออกจากบริการ ส่งผลให้ภาระงานไปกระจุกที่ความจุที่เหลืออยู่
    • ภาระเพิ่มเติมนำไปสู่ แรงกดดันด้านหน่วยความจำ และทำให้ความล้มเหลวแบบลูกโซ่ขยายตัวใน regional cluster แห่งหนึ่งจนไม่สามารถกู้คืนได้เอง
    • การตอบสนองทำโดยขยายความจุของ regional cluster ที่ปกติ และระบายทราฟฟิกออกจาก regional cluster ที่เสียหาย หลังจากนั้นความล่าช้าในการเริ่มการรันก็ฟื้นตัว
    • เพื่อป้องกันไม่ให้เกิดซ้ำ กำลังเสริมความแข็งแกร่งของ การตั้งค่า health check เพื่อหลีกเลี่ยงสถานการณ์ความล้มเหลวแบบลูกโซ่ และกำลังประเมินมาตรการบรรเทาอัตโนมัติสำหรับกระจายทราฟฟิกใหม่เมื่อเกิดการเสื่อมประสิทธิภาพระดับภูมิภาค
    • เวลา 20:14 UTC อินซิเดนต์ได้รับการแก้ไข

การพร้อมใช้งานของ Actions ลดลง วันที่ 15 พฤษภาคม 2026

  • การพร้อมใช้งานของ Actions ลดลง

    • ระหว่างเวลา 07:43~08:48 UTC ลูกค้าบางส่วนของ GitHub Actions ประสบกับ workflow รันล้มเหลว หรือเริ่มล่าช้า
    • อินซิเดนต์เริ่มขึ้นระหว่าง การสลับระบบสำรองตามแผน ของโครงสร้างพื้นฐานสนับสนุนที่ GitHub Actions ใช้งาน
    • ระหว่างการสลับระบบสำรอง การอัปเดต service discovery อัตโนมัติไม่ถูกเผยแพร่อย่างถูกต้อง ทำให้ทราฟฟิกถูกกำหนดเส้นทางผิด และ request timeout เพิ่มขึ้นใน dependency สำคัญของ workflow orchestration
    • ณ จุดที่ได้รับผลกระทบสูงสุด การรัน Actions 42% ล้มเหลว
    • บริการ downstream ที่พึ่งพาการรัน workflow ของ Actions ก็ได้รับผลกระทบด้วย รวมถึง GitHub Pages และบริการ cloud ของ Copilot
    • เวลา 08:12 UTC ผู้รับผิดชอบได้แก้ไขปัญหาการกำหนดเส้นทางของ service discovery ด้วยตนเอง
    • อัตรา timeout และอัตราความล้มเหลวฟื้นตัวในไม่ช้า และยังคงมีการเฝ้าติดตามต่อไปจนกว่าบริการที่ได้รับผลกระทบทั้งหมดจะกลับมามีเสถียรภาพ
    • เพื่อป้องกันไม่ให้เกิดซ้ำ กำลังดำเนินการเพิ่ม guardrail สำหรับการสลับระบบสำรอง เพื่อตรวจสอบสถานะ service discovery ก่อนการสลับระบบจะเสร็จสมบูรณ์ เสริมการตรวจสอบก่อนและหลังเหตุการณ์ และปรับปรุงความทนทานของ dependency เพื่อลด timeout แบบลูกโซ่ระหว่างเหตุการณ์โครงสร้างพื้นฐาน
    • เวลา 08:48 UTC อินซิเดนต์ได้รับการแก้ไข

1 ความคิดเห็น

 
GN⁺ 2 시간 전
ความคิดเห็นจาก Hacker News