GitHub Actions ล่ม
(githubstatus.com)- หน้าแสดงสถานะของ GitHub ขณะนี้เป็น All Systems Operational และในวันที่ 27 พฤษภาคม 2026 ไม่มีอินซิเดนต์ที่ถูกรายงาน
- ในช่วง 90 วันล่าสุด องค์ประกอบหลักทั้งหมดอยู่ในสถานะ Operational โดย อัตราการพร้อมใช้งานของ Actions อยู่ที่ 99.66% และ Pull Requests อยู่ที่ 99.55%
- เมื่อวันที่ 26 พฤษภาคม Actions และ Pages เกิดปัญหาการยืนยันตัวตน ทำให้เริ่มการรันและดาวน์โหลดแอ็กชันไม่สำเร็จ และส่งผลกระทบต่อการรัน Actions ส่วนใหญ่
- ความล่าช้าของ Actions เมื่อวันที่ 20 พฤษภาคม มีสาเหตุจาก health check ที่ตั้งค่าผิดพลาด ส่งผลให้การรันทั้งหมด 4.5% และงาน scale set 30% ล่าช้า
- การเสื่อมประสิทธิภาพของ Actions เมื่อวันที่ 15 พฤษภาคม เกิดจากปัญหาการกำหนดเส้นทางระหว่าง การสลับระบบสำรองตามแผน โดย ณ จุดที่กระทบสูงสุด การรัน 42% ล้มเหลว
สถานะบริการปัจจุบัน
- หน้าแสดงสถานะของ GitHub แสดงเป็น All Systems Operational ในขณะนี้
- วันที่ 27 พฤษภาคม 2026 แสดงว่า ไม่มีอินซิเดนต์ที่ถูกรายงาน
- ในช่วง 90 วันล่าสุด องค์ประกอบหลักทั้งหมดอยู่ในสถานะ Operational
- Git Operations: อัตราพร้อมใช้งาน 99.83%
- Webhooks: อัตราพร้อมใช้งาน 99.73%
- API Requests: อัตราพร้อมใช้งาน 99.98%
- Issues: อัตราพร้อมใช้งาน 99.86%
- Pull Requests: อัตราพร้อมใช้งาน 99.55%
- Actions: อัตราพร้อมใช้งาน 99.66%
- Packages: อัตราพร้อมใช้งาน 99.98%
- Pages: อัตราพร้อมใช้งาน 99.96%
- Copilot: อัตราพร้อมใช้งาน 99.91%
- Codespaces: อัตราพร้อมใช้งาน 99.77%
- Copilot AI Model Providers: อัตราพร้อมใช้งาน 100.0%
- GitHub Enterprise Cloud มีหน้าแสดงสถานะแยกตามภูมิภาคด้วย
อินซิเดนต์ Actions และ Pages วันที่ 26 พฤษภาคม 2026
-
อินซิเดนต์ Actions และ Pages
- เวลา 10:57 UTC เริ่มตรวจสอบ การเสื่อมประสิทธิภาพของ Actions และ Pages
- เวลา 11:19 UTC ยืนยันได้ว่าเกิด การพร้อมใช้งานลดลง ของ Actions
- เวลา 11:53 UTC กำลังตรวจสอบ ปัญหาการยืนยันตัวตน ที่ทำให้เริ่มการรัน Actions และดาวน์โหลดแอ็กชันไม่สำเร็จ โดยในขณะนั้นการรัน Actions ส่วนใหญ่ได้รับผลกระทบ
- เวลา 12:37 UTC ระบุสาเหตุของปัญหาการยืนยันตัวตนที่ส่งผลต่อ GitHub Actions ได้แล้ว และกำลังดำเนินการบรรเทาผลกระทบ
- เวลา 13:00 UTC การเสื่อมประสิทธิภาพของ Actions และ Pages ถูกบรรเทาแล้ว และเปลี่ยนไปสู่การเฝ้าติดตามเพื่อยืนยันเสถียรภาพ
- เวลา 13:18 UTC อินซิเดนต์ได้รับการแก้ไขแล้ว และจะมีการแชร์ การวิเคราะห์สาเหตุราก โดยละเอียดเมื่อพร้อม
อินซิเดนต์ Actions วันที่ 20 พฤษภาคม 2026
-
อินซิเดนต์ Actions
- ระหว่างเวลา 16:00~17:45 UTC ลูกค้า GitHub Actions ประสบกับ ความล่าช้าเกิน 5 นาทีในการเริ่มการรัน
- ในช่วงที่ได้รับผลกระทบ การรันทั้งหมดประมาณ 4.5% ล่าช้า และงาน scale set ได้รับผลกระทบมากกว่า
- งาน scale set 30% ล่าช้า และ 4% ไม่สามารถเริ่มได้เลย
- สาเหตุมาจาก health check ที่ตั้งค่าผิดพลาด ของบริการภายในที่ใช้จัดสรรงานให้ runner
- การพุ่งขึ้นของความล่าช้าระยะสั้นใน dependency ระดับบน ทำให้ health check ล้มเหลวในหลาย pod และ pod เหล่านั้นถูกนำออกจากบริการ ส่งผลให้ภาระงานไปกระจุกที่ความจุที่เหลืออยู่
- ภาระเพิ่มเติมนำไปสู่ แรงกดดันด้านหน่วยความจำ และทำให้ความล้มเหลวแบบลูกโซ่ขยายตัวใน regional cluster แห่งหนึ่งจนไม่สามารถกู้คืนได้เอง
- การตอบสนองทำโดยขยายความจุของ regional cluster ที่ปกติ และระบายทราฟฟิกออกจาก regional cluster ที่เสียหาย หลังจากนั้นความล่าช้าในการเริ่มการรันก็ฟื้นตัว
- เพื่อป้องกันไม่ให้เกิดซ้ำ กำลังเสริมความแข็งแกร่งของ การตั้งค่า health check เพื่อหลีกเลี่ยงสถานการณ์ความล้มเหลวแบบลูกโซ่ และกำลังประเมินมาตรการบรรเทาอัตโนมัติสำหรับกระจายทราฟฟิกใหม่เมื่อเกิดการเสื่อมประสิทธิภาพระดับภูมิภาค
- เวลา 20:14 UTC อินซิเดนต์ได้รับการแก้ไข
การพร้อมใช้งานของ Actions ลดลง วันที่ 15 พฤษภาคม 2026
-
การพร้อมใช้งานของ Actions ลดลง
- ระหว่างเวลา 07:43~08:48 UTC ลูกค้าบางส่วนของ GitHub Actions ประสบกับ workflow รันล้มเหลว หรือเริ่มล่าช้า
- อินซิเดนต์เริ่มขึ้นระหว่าง การสลับระบบสำรองตามแผน ของโครงสร้างพื้นฐานสนับสนุนที่ GitHub Actions ใช้งาน
- ระหว่างการสลับระบบสำรอง การอัปเดต service discovery อัตโนมัติไม่ถูกเผยแพร่อย่างถูกต้อง ทำให้ทราฟฟิกถูกกำหนดเส้นทางผิด และ request timeout เพิ่มขึ้นใน dependency สำคัญของ workflow orchestration
- ณ จุดที่ได้รับผลกระทบสูงสุด การรัน Actions 42% ล้มเหลว
- บริการ downstream ที่พึ่งพาการรัน workflow ของ Actions ก็ได้รับผลกระทบด้วย รวมถึง GitHub Pages และบริการ cloud ของ Copilot
- เวลา 08:12 UTC ผู้รับผิดชอบได้แก้ไขปัญหาการกำหนดเส้นทางของ service discovery ด้วยตนเอง
- อัตรา timeout และอัตราความล้มเหลวฟื้นตัวในไม่ช้า และยังคงมีการเฝ้าติดตามต่อไปจนกว่าบริการที่ได้รับผลกระทบทั้งหมดจะกลับมามีเสถียรภาพ
- เพื่อป้องกันไม่ให้เกิดซ้ำ กำลังดำเนินการเพิ่ม guardrail สำหรับการสลับระบบสำรอง เพื่อตรวจสอบสถานะ service discovery ก่อนการสลับระบบจะเสร็จสมบูรณ์ เสริมการตรวจสอบก่อนและหลังเหตุการณ์ และปรับปรุงความทนทานของ dependency เพื่อลด timeout แบบลูกโซ่ระหว่างเหตุการณ์โครงสร้างพื้นฐาน
- เวลา 08:48 UTC อินซิเดนต์ได้รับการแก้ไข
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News