เหตุขัดข้องของบริการ GitHub หลายรายการ
(githubstatus.com)- เกิดทั้งภาวะความพร้อมใช้งานลดลงและการไม่สามารถใช้งานได้ในบริการ GitHub หลายรายการ รวมถึง Webhooks, Actions, Copilot
- ในช่วงแรกมีการตรวจสอบภาวะความพร้อมใช้งานลดลงของ Copilot และ Webhooks และต่อมาขอบเขตการตรวจสอบได้ขยายไปครอบคลุมเหตุขัดข้องของหลายบริการ
- Actions ประสบปัญหาประสิทธิภาพลดลงแยกต่างหาก และหลังจากยืนยันปัญหาที่เป็นรากแล้วก็ได้ดำเนินการบรรเทาผลกระทบ
- หลังจากบรรเทาอาการลดลงของ Actions และ Copilot แล้ว ได้มีการติดตามเสถียรภาพและดำเนินการ ตรวจสอบยืนยัน กับบริการที่เหลือ โดย Webhooks ก็กลับมาทำงานได้ตามปกติแล้ว
- เหตุขัดข้องครั้งนี้สิ้นสุดลงในสถานะ แก้ไขเสร็จสมบูรณ์ และจะมีการเผยแพร่ root cause analysis แบบละเอียดเมื่อจัดเตรียมเสร็จ
ลำดับเหตุการณ์ของปัญหา
- เกิด เหตุขัดข้องในหลายบริการ ของ GitHub และขอบเขตผลกระทบรวมถึง Webhooks, Actions, Copilot
- ในช่วงแรกเริ่มตรวจสอบ ภาวะความพร้อมใช้งานลดลง ของ Copilot และ Webhooks
- ต่อมาหลายบริการอยู่ในสถานะ ไม่สามารถใช้งานได้ ทำให้ขอบเขตการตรวจสอบกว้างขึ้น
- Actions ประสบ ประสิทธิภาพลดลง แยกต่างหาก และยังคงดำเนินการระบุสาเหตุอย่างต่อเนื่อง
- หลังยืนยันปัญหาที่เป็นรากแล้ว ได้ดำเนินการ บรรเทาผลกระทบ
- อาการลดลงที่ส่งผลต่อ Actions และ Copilot ได้รับการบรรเทาแล้ว และยังมีการติดตามเพื่อคงเสถียรภาพต่อไป
- หลังดำเนินการบรรเทากับหลายบริการแล้ว ยังมี การตรวจสอบยืนยัน สำหรับบริการที่เหลืออย่างต่อเนื่อง
- Webhooks ก็กลับมาทำงานได้ตามปกติแล้ว
- ท้ายที่สุด เหตุขัดข้องครั้งนี้สิ้นสุดลงในสถานะ แก้ไขเสร็จสมบูรณ์ และจะมีการเผยแพร่ root cause analysis แบบละเอียดเมื่อจัดเตรียมเสร็จ
1 ความคิดเห็น
ความเห็นจาก Hacker News
กำลังทยอยย้ายโน่นนี่ไปทำ self-hosting ที่บ้าน และเมื่อวานในที่สุดก็ทำ Forgejo instance ในบ้านเสร็จแล้ว
ทั้ง Linux, Windows เป็น VM ส่วน macOS ใช้ Mac Mini พร้อมต่อ CI/CD runner เข้าไป ตอนนี้ทั้งซอร์สโค้ด, Actions และอินฟราจริงทั้งหมดก็อยู่ในบ้านจริง ๆ แล้ว
ปกติหลังย้ายไปใช้ self-hosting มักต้องใช้เวลาสักเดือนสองเดือนกว่าจะรู้สึกว่าคุ้ม แต่รอบนี้แค่วันถัดจากย้ายเสร็จก็มั่นใจเลยว่าตัดสินใจถูก เลยรู้สึกดีอยู่พอสมควร
หลังต้องซ่อมระบบพัง ๆ ที่บริษัทมาทั้งวัน ก็ไม่ค่อยอยากกลับบ้านมารับบท sysadmin ส่วนตัว ของตัวเองต่อ
Minisforum ที่ซื้อช่วงคริสต์มาส ทั้งดีและแรงก็ตั้งอยู่บนโต๊ะ แต่ยังไม่ได้เปิดเครื่องเลยด้วยซ้ำ
ผมรัน Forgejo บน NUC เครื่องหนึ่งพร้อมบริการอื่นหลายตัวบน Proxmox แล้วหน้าเว็บโหลดประมาณ 6ms
Immich อาจไม่เร็วขนาดนั้น แต่ก็ยังเร็วกว่า Google Photos มากอยู่ดี
UI โดยรวมคล้ายกัน แต่ ลื่นกว่า GitHub มาก แค่ว่า uptime เกิน 90% ก็แทบจะเป็นเหตุผลที่เพียงพอแล้ว
ช่วงนี้เจอปัญหาเกี่ยวกับ GitHub บ่อยเกินไป และแม้แต่แค่เข้าไปไล่ดูเว็บก็ยังช้าหรือค้างไปเลยบ่อย ๆ
Linux กับ macOS ผมตั้งค่าด้วย Mac Mini และ Ansible task file ที่ Claude สร้างให้ แต่การตั้งค่า Windows VM ดูจะทรมานพอตัว
อยากรู้ว่าคุณหาวิธีทำให้ขั้นตอน deploy ง่ายขึ้นได้หรือยัง
แต่โปรเจกต์สาธารณะยังย้ายยาก เพราะตลาดงานและ network effect ของ GitHub
ตอนนี้ก็เหมือนกำลังเล่นเป็นผู้ดูแลระบบ คอยรันบริการโลคัลราว 20 ตัวเพราะของที่ต้องใช้ และเรื่องสำคัญที่สุดคือ ตอนนี้ความรับผิดชอบในการไม่ให้ข้อมูลหายมาอยู่ที่ตัวผมเองแล้ว ดังนั้นต้องมี การสำรองข้อมูลเป็นประจำ ให้แน่นอน
ถ้าดูที่ https://mrshu.github.io/github-statuses/ จะเห็นว่า uptime ลดลงไปถึง 88.15%
ต่อให้ดูแยกเป็นคอมโพเนนต์ แต่ละตัวที่ดีที่สุดก็ยังมีแค่ 99.78% ซึ่งก็แทบเป็นแค่ระดับ two nines เท่านั้น
ปี 2025 อยู่ที่ 1 พันล้านคอมมิต แต่ตอนนี้เป็น 275 ล้านคอมมิตต่อสัปดาห์ และถ้าสมมติว่าโตแบบเชิงเส้นก็เท่ากับปีนี้กำลังวิ่งที่ระดับ 1.4 หมื่นล้านคอมมิต
GitHub Actions ก็เพิ่มจาก 500 ล้านนาทีต่อสัปดาห์ในปี 2023 เป็น 1 พันล้านนาทีในปี 2025 และสัปดาห์นี้จนถึงตอนนี้อยู่ที่ 2.1 พันล้านนาที
ที่มาคือโพสต์วันที่ 2026-04-03 ของ COO ของ GitHub https://x.com/kdaigle/status/2040164759836778878
https://thenewstack.io/github-will-prioritize-migrating-to-azure-over-feature-development/
สงสัยว่าแม้จะมีเหตุขัดข้องแบบนี้ซ้ำ ๆ GitHub ได้เห็น ความเสียหายทางธุรกิจที่มีนัยสำคัญ จริงหรือไม่
ในวงการพูดกันมานานว่าความน่าเชื่อถือกับมูลค่าแบรนด์เป็นเรื่องสำคัญ แต่ช่วงนี้ดูเหมือนแทบไม่ใส่ใจสิ่งนั้นแล้ว
ถ้าความเข้าใจของผมผิดก็ยินดีให้ช่วยแก้ไขทันที
แต่พอ LLM ดีขึ้นมาหน่อย เหมือนบทสนทนาเหล่านั้นหายไปทั้งก้อนเลย
บริษัทใหญ่ ๆ ก็พอป้องกันได้บ้างด้วยอินสแตนซ์ภายใน ส่วนที่เหลือก็อาจไม่ได้เจ็บหนักขนาดนั้น หรือไม่มีทรัพยากรพอจะทำโซลูชันเองหรือย้ายออก
ถ้ามีทางเลือกที่ดีจริง ๆ สำหรับคนที่ใช้งานในระดับใหญ่ก็คงดีมาก
ถ้านับตามช่วง rolling 90 วัน กว่าจะหลุดต่ำกว่า two nines น่าจะต้องมีเหตุขัดข้องเพิ่มอีกราว 16 ชั่วโมง
จะบอกว่าไม่ต้องกังวลก็ได้มั้ง เพราะ status page ยังบอกอยู่ว่า ไฟเขียว ปกติ 100%
ทั้งที่แม้แต่หน้า static หน้าเดียวก็ยังเข้าไม่ได้
ตอนนี้ถึงขั้นน่าจะต้องมีโพสต์ HN ทุกครั้งที่มีวันซึ่งบริการของ GitHub ไม่มีปัญหา แล้ว
ไม่อย่างนั้นก็แปลว่านั่นคือสภาพปกติไปแล้ว
เมื่อก่อนฝั่ง Bitbucket เคยทำ git history หายไปหนึ่งวัน ข้ามหลาย repo
มันไม่ใช่ outage แต่เป็นปัญหาข้อมูลของเขาเอง และแม้จะกู้คืนได้เกือบทั้งหมดจาก local clone แต่ issue กับ PR ในช่วงเวลานั้นก็หายไปเลย
นั่นเลยเป็นเหตุให้ผมเริ่มทำ gitbacker เป็นไซด์โปรเจกต์
การสำรอง repo เองนั้นง่าย แต่ส่วนที่น่าสนใจจริง ๆ คือการสำรอง metadata
วันนี้ก็มีเหตุร้ายแรงมากอีกเรื่อง: https://www.githubstatus.com/incidents/zsg1lk7w13cf
เขาบอกว่าเพราะ regression ที่เกิดเมื่อใช้ merge queue ร่วมกับ squash merge หรือ rebase ทำให้มีบาง PR ถูก merge ผิดพลาดในช่วง 2026-04-23 16:05-20:43 UTC
ฝั่งเรา ในช่วงเวลานั้น มีคอมมิตประมาณ 8 ตัวบน default branch ถูกย้อนกลับไปทั้งก้อน
นี่เป็น incident ของ GitHub ที่ร้ายแรงที่สุดเท่าที่ผมเคยเห็นมา
เครื่องมือที่ควรมีไว้ป้องกัน merge conflict กลับกำลังเขียนคอมมิตเละ ๆ ลงบน mainline branch โดยตรง แบบนี้ยิ่งประชดประชันเข้าไปอีก
เครียดมากจริง ๆ
Downtime ก็แย่อยู่แล้ว แต่การย้อน PR นี่เป็นความล้มเหลวที่หนักกว่าไปอีกขั้น
โกลาหลมากจริง ๆ
ความต้องการของเราค่อนข้างง่าย แค่ประมาณ git repos + actions และ downtime ที่เกิดเป็นครั้งคราวก็ไม่ได้ถึงขั้นร้ายแรงมาก เพราะเราไม่ใช่ทีมที่คอมมิตและ deploy กันต่อเนื่องตลอดเวลา
ถึงอย่างนั้นตอนนี้ก็เริ่มมองหาทางเลือกอื่นอย่างจริงจังแล้ว
พอดีกับที่คนอื่นก็ดูเหมือนจะกำลังหาทางเลือกเหมือนกัน SourceHut ก็ล่มไปด้วย ตอนเขียนโพสต์นี้ยังล่มอยู่ แต่ตอนนี้กลับมาแล้ว
https://sr.ht/
แค่วันนี้วันเดียวก็มี incident สามครั้ง แต่ละครั้งเกือบเกิน 1 ชั่วโมงทั้งหมด ทว่าสถานะรายวันยังเป็นสีเขียวทั้งแถบและขึ้นว่า ไม่มี downtime ที่บันทึกไว้
มันก็ดูไม่ได้ต่างโดยเนื้อแท้จาก incident สมัยก่อนที่มีแท่งสีแดงขึ้นมาเลย ต่างกันแค่อาจไม่ได้ยาวหลายชั่วโมงเท่านั้น
งั้นแท่งสีเขียวนั่นจริง ๆ หมายถึงอะไรกันแน่ก็ไม่รู้
ชวนให้สงสัยว่าต้องมีคนบ่นมากพอถึงจะถูกเปลี่ยนเป็นไม่เขียวในภายหลัง หรือว่า incident ของวันนั้นจะโผล่ใน tooltip แค่ชั่วคราวแล้วหลังจากนั้นก็ถูกทำเป็นลืมไป
พอดูจากวันที่เป็นสีเขียวก่อนหน้านี้แล้วไม่มี incident โผล่ใน tooltip เลย แต่วันนี้กลับมีหลายอัน ไม่ว่าแบบไหนก็ดูเหมือนเป็น การแสดงผลที่ชวนให้เข้าใจผิดโดยตั้งใจ