GitHub: เหตุขัดข้องของงาน Git
(githubstatus.com)- เมื่อวันที่ 18 พฤศจิกายน 2025 (UTC) บน GitHub เกิดเหตุ การทำงาน Git ทั้งหมดล้มเหลว ส่งผลให้การเข้าถึงผ่านไคลเอนต์ SSH·HTTP และการเข้าถึงไฟล์แบบ raw ใช้งานไม่ได้
- สาเหตุของปัญหาได้รับการยืนยันว่าเกิดจาก ใบรับรอง TLS ที่หมดอายุ ซึ่งใช้ในการสื่อสารระหว่างบริการภายใน
- GitHub ได้เปลี่ยนใบรับรองที่หมดอายุและรีสตาร์ตบริการที่ได้รับผลกระทบ จน กู้คืนการทำงานได้ตามปกติ
- หลังจากนั้นกำลัง เสริมความเข้มงวดของการแจ้งเตือนการหมดอายุของใบรับรอง และดำเนินการ เปลี่ยนผ่านสู่ระบบอัตโนมัติ เพื่อนำใบรับรองที่ยังจัดการด้วยตนเองออกไป
- เหตุขัดข้องครั้งนี้ส่งผลต่อ Git Operations และ Codespaces ของ GitHub และหลังการกู้คืน ทุกบริการได้กลับสู่สถานะปกติ
รายงานเหตุขัดข้องของงาน Git
-
ในช่วง 20:30~21:34 UTC ของวันที่ 18 พฤศจิกายน 2025 บน GitHub เกิด การทำงาน Git ทั้งหมดล้มเหลว
- การโต้ตอบของไคลเอนต์ Git ผ่าน SSH และ HTTP รวมถึงการเข้าถึงไฟล์แบบ raw ได้รับผลกระทบทั้งหมด
- ผลิตภัณฑ์ที่พึ่งพาการทำงานของ Git ก็ประสบเหตุขัดข้องเช่นเดียวกัน
-
สาเหตุ ได้รับการยืนยันว่าเป็น ใบรับรอง TLS ที่หมดอายุ ซึ่งใช้ในการสื่อสารระหว่างบริการภายใน
- GitHub แก้ไขปัญหาโดยเปลี่ยนใบรับรองและรีสตาร์ตบริการที่ได้รับผลกระทบ
- หลังรีสตาร์ตบริการแล้ว ได้มีการ กู้คืนอย่างสมบูรณ์
-
GitHub ได้ เสริมระบบแจ้งเตือนการหมดอายุของใบรับรอง เพื่อป้องกันไม่ให้เกิดปัญหาเดียวกันในอนาคต
- กำลังดำเนินการ ตรวจสอบการเฝ้าระวังและระบบอัตโนมัติ สำหรับใบรับรองอื่น ๆ ในพื้นที่ที่เกี่ยวข้องด้วย
- เร่งดำเนินการ ยกเลิกใบรับรองที่ยังจัดการด้วยตนเอง ที่เหลืออยู่ และ สร้างระบบการสื่อสารระหว่างบริการแบบอัตโนมัติ
ลำดับเหตุการณ์และขั้นตอนการกู้คืน
- 20:39 UTC: มีรายงาน ความพร้อมใช้งานลดลง ใน Git operations และ Codespaces
- 20:52 UTC: ยืนยันว่ามีงาน Git HTTP บางส่วนล้มเหลว
- 21:11 UTC: ยืนยันอาการที่ งาน Git ทั้งหมดล้มเหลว
- 21:25 UTC: ความพร้อมใช้งานลดลง ของ Codespaces ยังคงดำเนินต่อไป
- 21:27 UTC: ระบุสาเหตุได้สำเร็จ และเริ่มดำเนินการแก้ไข
- 21:36 UTC: เริ่ม กู้คืนบางส่วน หลังปรับใช้การแก้ไข
- 21:55 UTC: ทุกบริการกลับสู่ภาวะปกติ, Codespaces กู้คืนเสร็จสมบูรณ์
- 21:56 UTC: ยืนยันว่าการทำงาน Git กลับมาดำเนินการได้ตามปกติ
- 21:59 UTC: ปิดเหตุการณ์และเผยแพร่รายงาน
บริการที่ได้รับผลกระทบ
- Git Operations
- งาน Git ทั้งหมดที่ทำงานผ่าน SSH และ HTTP
- Codespaces
- เกิดความพร้อมใช้งานลดลงชั่วคราว
มาตรการติดตามผล
- เสริมการเฝ้าระวังการหมดอายุของใบรับรองและระบบอัตโนมัติ
- จัดตั้งระบบแจ้งเตือนล่วงหน้าก่อนใบรับรองหมดอายุ
- ตรวจสอบกระบวนการต่ออายุอัตโนมัติของใบรับรองภายในทั้งหมด
- ขยายระบบอัตโนมัติด้านความปลอดภัยและการปฏิบัติการ
- ยกเลิกการจัดการใบรับรองด้วยตนเอง
- สร้างการสื่อสารระหว่างบริการแบบอัตโนมัติที่สอดคล้องกับแนวปฏิบัติด้านความปลอดภัยสมัยใหม่
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
รู้สึกกังวลที่ช่วงนี้ เหตุขัดข้องของระบบซอฟต์แวร์ ใหญ่ ๆ เกิดขึ้นบ่อยเกินไป
ปีก่อนมีเหตุขัดข้องที่กระทบงานแค่สี่ครั้ง แต่ไตรมาสนี้นี่ก็เป็นครั้งที่สี่แล้ว
เหมือน ความทนทานของระบบ (resiliency) ในซอฟต์แวร์เครือข่ายกำลังค่อย ๆ หายไป
ทีมของเราใช้สถาปัตยกรรมแบบ monolith แต่ก็มี dependency เยอะ ทั้ง Redis, S3 และบริการเชื่อมต่อภายนอกอื่น ๆ
เลยพยายามทำให้เรียบง่ายขึ้น เช่น จัดทำเอกสารเงื่อนไขที่ทำให้ระบบล่ม เสริมการทดสอบและระบบ deploy อัตโนมัติ และย้ายจากคลาวด์ไปใช้ VPS
ผลคือระบบเสถียรขึ้นและคาดเดาได้มากขึ้นอย่างชัดเจน
ถ้าไม่มี งานน่าเบื่อแต่จำเป็น แบบนี้ ความซับซ้อนก็คงเพิ่มขึ้นจนระบบเปราะบางกว่าเดิม
เหตุขัดข้องที่เจอช่วงหลังคือ AWS us-east-1, Azure Front Door, Cloudflare และ GitHub
ลูกค้าไม่อยากจ่ายเพื่อเรื่องความทนทานหรือโครงสร้างพื้นฐานแบบซ้ำซ้อน
ตั้งแต่ปี 2008 ทำมาเป็นสิบโปรเจกต์แล้ว แต่ส่วนใหญ่ท่าทีคือ “ก็ปล่อยให้เป็นเรื่องดวงละกัน”
Git เป็น ระบบควบคุมเวอร์ชันแบบกระจายศูนย์ ดังนั้นถึงไม่มี GitHub ก็ยังทำงานได้
GitHub เป็นแค่ฮับที่สะดวกเท่านั้น
รู้สึกว่า ความน่าเชื่อถือของ GitHub แย่มากจนเป็นปัญหาร้ายแรง
สำหรับคนที่พึ่ง CI/CD นี่ถือว่าหนักมาก
ภายในองค์กรดูเหมือนจะรับรู้แค่ว่า “CI/CD ของทีมเราพัง” มากกว่าจะมองว่า “คนครึ่งโลกหยุดทำงานอยู่”
วัฒนธรรมแบบไซโล และทัศนคติว่า “ไม่ใช่ปัญหาของเรา” แบบนี้ทำให้ความน่าเชื่อถือลดลง
แถมเพราะมีสถานะกึ่งผูกขาด ลูกค้าก็ต้องทนใช้ต่อไปอยู่ดี
มันเหมือนท่าทีแบบที่เคยเห็นจาก Verio กับ Verisign ว่า “ยังไงคุณก็ย้ายไปที่อื่นไม่ได้หรอก”
สงสัยว่าช่วงนี้เหตุขัดข้องของคลาวด์/SaaS เกิดบ่อยขึ้นจริงไหม
ไม่แน่ใจว่าแค่มีข่าวเยอะขึ้น หรือความถี่เพิ่มขึ้นจริง ๆ
หรือว่าเป็นเพราะ ตัดงบ ปลดคน เอา AI มาใช้ หรือโตเร็วเกินไป?
แต่ก่อนปีละหนึ่งหรือสองครั้ง เดี๋ยวนี้แทบทุกเดือน ช่วงหลังนี่เกือบทุกสัปดาห์
ชิ้นโค้ดเล็ก ๆ จาก AI อาจก่อให้เกิด เหตุขัดข้องแบบโดมิโน ได้
คิดว่า การเลย์ออฟครั้งใหญ่ ส่งผลต่อความน่าเชื่อถือที่ลดลง
สุดท้ายงานด้านความเสถียรใน 10% สุดท้ายก็มักถูกมองข้าม
ตอนแรกนึกว่า push ไม่ได้เพราะปัญหาที่เครื่องตัวเอง
สุดท้ายก็เลยยอมแพ้วันนี้แล้วค่อยกลับมาทำใหม่พรุ่งนี้
วันนี้ก็ไม่ได้อยากทำงานอยู่แล้ว พอ Cloudflare ล่มแล้ว GitHub มาล่มต่อ เหมือนเป็น สัญญาณ ให้พัก
เราต้องการ อธิปไตยทางเทคโนโลยีและการกระจายศูนย์ ให้มากกว่านี้
ในบรรดาบริการที่ใช้มา 5 ปีที่ผ่านมา GitHub คือบริการที่ ไม่นิ่งที่สุด
สงสัยว่า GitLab จะดีกว่าไหม ตอนนี้ความเชื่อมั่นใน GitHub แทบเป็นศูนย์แล้ว
น่าจะเพราะเป็นสภาพแวดล้อม monorepo ขนาดใหญ่ แต่ก็ดูมีปัญหาเรื่องการขยายระบบชัดเจน
ถึงอย่างนั้นการรวม repository, CI/CD, issue และ wiki ไว้ที่เดียวก็ยังเป็นข้อดี
GitHub เปราะบางกับ เหตุขัดข้องของคลาวด์ ส่วน GitLab เจอปัญหา อัปเกรดอัตโนมัติสะดุด บ่อย
แต่ละตัวมีข้อดีข้อเสียต่างกัน
ต้องโหลด JS หลาย MB จนบนเครือข่ายช้าหน้าเว็บแทบไม่ขึ้น
ในสถานการณ์ฉุกเฉินยังแก้ไฟล์ตรงจาก GitHub web UI ได้
แต่
actions/checkout@v4ของ GH Actions ตอนนี้ใช้ไม่ได้เพราะมีปัญหากับ gitgit push/pullได้ตลอด 10 ปีที่ผ่านมา จากที่ย้ายไปมาระหว่างบริษัทใหญ่กับสตาร์ตอัป เห็น รูปแบบซ้ำ ๆ อย่างหนึ่ง
สตาร์ตอัป → รองรับลูกค้าองค์กร → รีดีไซน์ซับซ้อน → อุดมคตินิยม → ไล่ล่ากำไร → ผลิตภัณฑ์พองตัว → วิศวกรแกนหลักลาออก → คุณภาพตก
วงจรนี้เกิดซ้ำกับบริษัทยักษ์ด้านคลาวด์ด้วย (AWS, Cloudflare, GCP ฯลฯ)
ภายในเองแต่ละบริการก็ถูกแยกเป็น หน่วยธุรกิจเล็ก ๆ ที่ขับเคลื่อนด้วยกำไร
สุดท้ายแม้แต่ โครงสร้างพื้นฐานระดับฐานราก ก็อ่อนแอลงเพราะแรงกดดันด้านผลกำไร
รู้สึกว่าความเชื่อแบบ “AWS หรือ GCP ใหญ่เกินกว่าจะพัง” นั้นอันตราย
แต่ปัญหาหนี้เทคนิคและความปลอดภัยของสตาร์ตอัปยุคแรกก็ร้ายแรงเหมือนกัน
ท้ายที่สุดพอระบบเติบโตในระดับใหญ่ การที่ รอยร้าวของระบบจะโผล่ออกมา ก็เป็นเรื่องธรรมดา
ในหน้า status ของ GitHub มีข้อความว่า “ผู้ใช้บางรายอาจประสบปัญหา” โผล่มาอีกแล้ว
แต่ความจริงคือไม่ใช่แค่ HTTPS เท่านั้น แม้แต่ SSH push ก็ล้มเหลวทั้งหมด
การเปิดเผยข้อมูลอย่างโปร่งใสแทน ถ้อยคำอ้อมแบบ PR น่าจะสร้างความเชื่อมั่นได้มากกว่า
แถมบางทีกว่า status page จะอัปเดตก็ช้ามาก