3 คะแนน โดย GN⁺ 2025-11-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อวันที่ 18 พฤศจิกายน 2025 (UTC) บน GitHub เกิดเหตุ การทำงาน Git ทั้งหมดล้มเหลว ส่งผลให้การเข้าถึงผ่านไคลเอนต์ SSH·HTTP และการเข้าถึงไฟล์แบบ raw ใช้งานไม่ได้
  • สาเหตุของปัญหาได้รับการยืนยันว่าเกิดจาก ใบรับรอง TLS ที่หมดอายุ ซึ่งใช้ในการสื่อสารระหว่างบริการภายใน
  • GitHub ได้เปลี่ยนใบรับรองที่หมดอายุและรีสตาร์ตบริการที่ได้รับผลกระทบ จน กู้คืนการทำงานได้ตามปกติ
  • หลังจากนั้นกำลัง เสริมความเข้มงวดของการแจ้งเตือนการหมดอายุของใบรับรอง และดำเนินการ เปลี่ยนผ่านสู่ระบบอัตโนมัติ เพื่อนำใบรับรองที่ยังจัดการด้วยตนเองออกไป
  • เหตุขัดข้องครั้งนี้ส่งผลต่อ Git Operations และ Codespaces ของ GitHub และหลังการกู้คืน ทุกบริการได้กลับสู่สถานะปกติ

รายงานเหตุขัดข้องของงาน Git

  • ในช่วง 20:30~21:34 UTC ของวันที่ 18 พฤศจิกายน 2025 บน GitHub เกิด การทำงาน Git ทั้งหมดล้มเหลว

    • การโต้ตอบของไคลเอนต์ Git ผ่าน SSH และ HTTP รวมถึงการเข้าถึงไฟล์แบบ raw ได้รับผลกระทบทั้งหมด
    • ผลิตภัณฑ์ที่พึ่งพาการทำงานของ Git ก็ประสบเหตุขัดข้องเช่นเดียวกัน
  • สาเหตุ ได้รับการยืนยันว่าเป็น ใบรับรอง TLS ที่หมดอายุ ซึ่งใช้ในการสื่อสารระหว่างบริการภายใน

    • GitHub แก้ไขปัญหาโดยเปลี่ยนใบรับรองและรีสตาร์ตบริการที่ได้รับผลกระทบ
    • หลังรีสตาร์ตบริการแล้ว ได้มีการ กู้คืนอย่างสมบูรณ์
  • GitHub ได้ เสริมระบบแจ้งเตือนการหมดอายุของใบรับรอง เพื่อป้องกันไม่ให้เกิดปัญหาเดียวกันในอนาคต

    • กำลังดำเนินการ ตรวจสอบการเฝ้าระวังและระบบอัตโนมัติ สำหรับใบรับรองอื่น ๆ ในพื้นที่ที่เกี่ยวข้องด้วย
    • เร่งดำเนินการ ยกเลิกใบรับรองที่ยังจัดการด้วยตนเอง ที่เหลืออยู่ และ สร้างระบบการสื่อสารระหว่างบริการแบบอัตโนมัติ

ลำดับเหตุการณ์และขั้นตอนการกู้คืน

  • 20:39 UTC: มีรายงาน ความพร้อมใช้งานลดลง ใน Git operations และ Codespaces
  • 20:52 UTC: ยืนยันว่ามีงาน Git HTTP บางส่วนล้มเหลว
  • 21:11 UTC: ยืนยันอาการที่ งาน Git ทั้งหมดล้มเหลว
  • 21:25 UTC: ความพร้อมใช้งานลดลง ของ Codespaces ยังคงดำเนินต่อไป
  • 21:27 UTC: ระบุสาเหตุได้สำเร็จ และเริ่มดำเนินการแก้ไข
  • 21:36 UTC: เริ่ม กู้คืนบางส่วน หลังปรับใช้การแก้ไข
  • 21:55 UTC: ทุกบริการกลับสู่ภาวะปกติ, Codespaces กู้คืนเสร็จสมบูรณ์
  • 21:56 UTC: ยืนยันว่าการทำงาน Git กลับมาดำเนินการได้ตามปกติ
  • 21:59 UTC: ปิดเหตุการณ์และเผยแพร่รายงาน

บริการที่ได้รับผลกระทบ

  • Git Operations
    • งาน Git ทั้งหมดที่ทำงานผ่าน SSH และ HTTP
  • Codespaces
    • เกิดความพร้อมใช้งานลดลงชั่วคราว

มาตรการติดตามผล

  • เสริมการเฝ้าระวังการหมดอายุของใบรับรองและระบบอัตโนมัติ
    • จัดตั้งระบบแจ้งเตือนล่วงหน้าก่อนใบรับรองหมดอายุ
    • ตรวจสอบกระบวนการต่ออายุอัตโนมัติของใบรับรองภายในทั้งหมด
  • ขยายระบบอัตโนมัติด้านความปลอดภัยและการปฏิบัติการ
    • ยกเลิกการจัดการใบรับรองด้วยตนเอง
    • สร้างการสื่อสารระหว่างบริการแบบอัตโนมัติที่สอดคล้องกับแนวปฏิบัติด้านความปลอดภัยสมัยใหม่

1 ความคิดเห็น

 
GN⁺ 2025-11-20
ความคิดเห็นบน Hacker News
  • รู้สึกกังวลที่ช่วงนี้ เหตุขัดข้องของระบบซอฟต์แวร์ ใหญ่ ๆ เกิดขึ้นบ่อยเกินไป
    ปีก่อนมีเหตุขัดข้องที่กระทบงานแค่สี่ครั้ง แต่ไตรมาสนี้นี่ก็เป็นครั้งที่สี่แล้ว
    เหมือน ความทนทานของระบบ (resiliency) ในซอฟต์แวร์เครือข่ายกำลังค่อย ๆ หายไป
    ทีมของเราใช้สถาปัตยกรรมแบบ monolith แต่ก็มี dependency เยอะ ทั้ง Redis, S3 และบริการเชื่อมต่อภายนอกอื่น ๆ
    เลยพยายามทำให้เรียบง่ายขึ้น เช่น จัดทำเอกสารเงื่อนไขที่ทำให้ระบบล่ม เสริมการทดสอบและระบบ deploy อัตโนมัติ และย้ายจากคลาวด์ไปใช้ VPS
    ผลคือระบบเสถียรขึ้นและคาดเดาได้มากขึ้นอย่างชัดเจน
    ถ้าไม่มี งานน่าเบื่อแต่จำเป็น แบบนี้ ความซับซ้อนก็คงเพิ่มขึ้นจนระบบเปราะบางกว่าเดิม
    เหตุขัดข้องที่เจอช่วงหลังคือ AWS us-east-1, Azure Front Door, Cloudflare และ GitHub

    • สุดท้ายแล้วคิดว่าปัญหาคือ เงิน
      ลูกค้าไม่อยากจ่ายเพื่อเรื่องความทนทานหรือโครงสร้างพื้นฐานแบบซ้ำซ้อน
      ตั้งแต่ปี 2008 ทำมาเป็นสิบโปรเจกต์แล้ว แต่ส่วนใหญ่ท่าทีคือ “ก็ปล่อยให้เป็นเรื่องดวงละกัน”
    • เห็นด้วย การลดต้นทุนกำลังนำไปสู่ผลลัพธ์แบบ “ลืมวิธีสร้างระบบที่ยังทนได้แม้จะเกิดเหตุขัดข้อง”
    • ถ้าจะพูดแบบยั่วนิด ๆ ก็คิดว่า การใช้งาน LLM ที่เพิ่มขึ้น ก็มีส่วนกับปรากฏการณ์นี้เหมือนกัน
  • Git เป็น ระบบควบคุมเวอร์ชันแบบกระจายศูนย์ ดังนั้นถึงไม่มี GitHub ก็ยังทำงานได้
    GitHub เป็นแค่ฮับที่สะดวกเท่านั้น

    • แต่ถ้าเป็นบริษัทที่ พึ่ง GitHub Actions ทั้งหมด ก็จะตันสนิทแบบตอนนี้
    • มันเหมือนสถานการณ์ว่า “บันไดเลื่อนนี้ถูกเปลี่ยนเป็นบันไดชั่วคราว ขออภัยในความไม่สะดวก”
    • แก่นของปัญหาคือ GitHub ล่ม ไม่ใช่ git ล่ม
    • ถ้าไม่มี GitHub ก็จะเสียฟังก์ชันการเป็น ศูนย์กลางความร่วมมือ กับคนอื่นไป
    • ที่มาอยู่บน Hacker News ตอนนี้ก็เพราะ ทำงานไม่ได้ นี่แหละ
  • รู้สึกว่า ความน่าเชื่อถือของ GitHub แย่มากจนเป็นปัญหาร้ายแรง
    สำหรับคนที่พึ่ง CI/CD นี่ถือว่าหนักมาก
    ภายในองค์กรดูเหมือนจะรับรู้แค่ว่า “CI/CD ของทีมเราพัง” มากกว่าจะมองว่า “คนครึ่งโลกหยุดทำงานอยู่”
    วัฒนธรรมแบบไซโล และทัศนคติว่า “ไม่ใช่ปัญหาของเรา” แบบนี้ทำให้ความน่าเชื่อถือลดลง
    แถมเพราะมีสถานะกึ่งผูกขาด ลูกค้าก็ต้องทนใช้ต่อไปอยู่ดี
    มันเหมือนท่าทีแบบที่เคยเห็นจาก Verio กับ Verisign ว่า “ยังไงคุณก็ย้ายไปที่อื่นไม่ได้หรอก”

  • สงสัยว่าช่วงนี้เหตุขัดข้องของคลาวด์/SaaS เกิดบ่อยขึ้นจริงไหม
    ไม่แน่ใจว่าแค่มีข่าวเยอะขึ้น หรือความถี่เพิ่มขึ้นจริง ๆ
    หรือว่าเป็นเพราะ ตัดงบ ปลดคน เอา AI มาใช้ หรือโตเร็วเกินไป?

    • ดูเหมือน Microsoft จะเชื่อว่าถ้าย้าย GitHub ไป Azure แล้วทุกอย่างจะดีขึ้น
    • ในฐานะคนที่ใช้งานมานาน รู้สึกได้ชัดว่า ความถี่ของเหตุขัดข้องเพิ่มขึ้น
      แต่ก่อนปีละหนึ่งหรือสองครั้ง เดี๋ยวนี้แทบทุกเดือน ช่วงหลังนี่เกือบทุกสัปดาห์
    • ตอน Cloudflare ล่ม มีคนบอกว่า “วัฒนธรรมการเขียนโค้ดด้วย AI” กำลังทำให้ปัญหาแบบนี้หนักขึ้น
      ชิ้นโค้ดเล็ก ๆ จาก AI อาจก่อให้เกิด เหตุขัดข้องแบบโดมิโน ได้
    • เหมือนที่ บทความของ Techrights ว่าไว้
      คิดว่า การเลย์ออฟครั้งใหญ่ ส่งผลต่อความน่าเชื่อถือที่ลดลง
    • เพราะ FOMO (กลัวตกขบวน) จาก AI ตารางโปรเจกต์เลยยิ่งแน่นขึ้น
      สุดท้ายงานด้านความเสถียรใน 10% สุดท้ายก็มักถูกมองข้าม
  • ตอนแรกนึกว่า push ไม่ได้เพราะปัญหาที่เครื่องตัวเอง
    สุดท้ายก็เลยยอมแพ้วันนี้แล้วค่อยกลับมาทำใหม่พรุ่งนี้

    • ยืนยันตัวตนผ่าน แต่ push ไม่ได้ เป็นประสบการณ์ที่ ชวนดึงผมตัวเองมาก
    • เพิ่ม SSH key ใหม่ก็ไม่ช่วย ตอนแรกขึ้นแต่ error แปลก ๆ แล้วสุดท้ายกลายเป็นข้อความ “upstream unhealthy”
    • ผมก็เกือบจะ ตั้งค่าสภาพแวดล้อมใหม่ทั้งหมด เหมือนกัน
  • วันนี้ก็ไม่ได้อยากทำงานอยู่แล้ว พอ Cloudflare ล่มแล้ว GitHub มาล่มต่อ เหมือนเป็น สัญญาณ ให้พัก

    • ปัญหาคือการ พึ่งพาเทคโนโลยีแบบรวมศูนย์ที่มีสหรัฐเป็นศูนย์กลาง
      เราต้องการ อธิปไตยทางเทคโนโลยีและการกระจายศูนย์ ให้มากกว่านี้
  • ในบรรดาบริการที่ใช้มา 5 ปีที่ผ่านมา GitHub คือบริการที่ ไม่นิ่งที่สุด
    สงสัยว่า GitLab จะดีกว่าไหม ตอนนี้ความเชื่อมั่นใน GitHub แทบเป็นศูนย์แล้ว

    • บริษัทเราทำ self-hosting GitLab อยู่ แต่เซิร์ฟเวอร์ Gitaly ล่มบ่อย
      น่าจะเพราะเป็นสภาพแวดล้อม monorepo ขนาดใหญ่ แต่ก็ดูมีปัญหาเรื่องการขยายระบบชัดเจน
    • GitLab มีฟีเจอร์เยอะก็จริง แต่ การเชื่อมรวมยังไม่เนียน และความสมบูรณ์ยังต่ำ
      ถึงอย่างนั้นการรวม repository, CI/CD, issue และ wiki ไว้ที่เดียวก็ยังเป็นข้อดี
    • ใช้ทั้ง GitHub.com และ GitLab แบบ self-hosting
      GitHub เปราะบางกับ เหตุขัดข้องของคลาวด์ ส่วน GitLab เจอปัญหา อัปเกรดอัตโนมัติสะดุด บ่อย
      แต่ละตัวมีข้อดีข้อเสียต่างกัน
    • ปัญหาของ GitLab คือ ช้าและหนัก
      ต้องโหลด JS หลาย MB จนบนเครือข่ายช้าหน้าเว็บแทบไม่ขึ้น
    • ถ้าเอาไว้ on-premises ก็สามารถทำ ความเสถียร ได้มากเท่าที่ต้องการ
  • ในสถานการณ์ฉุกเฉินยังแก้ไฟล์ตรงจาก GitHub web UI ได้
    แต่ actions/checkout@v4 ของ GH Actions ตอนนี้ใช้ไม่ได้เพราะมีปัญหากับ git

    • จริง ๆ แล้วแค่มี โฮสต์ที่ SSH เข้าได้ ก็สามารถ git push/pull ได้
    • เราก็กำลังทำ hotfix โปรดักชันอยู่พอดี แต่โดนบล็อกไปด้วย ไม่รู้ช่วงนี้อินเทอร์เน็ตเกิดอะไรขึ้น
    • CircleCI ก็ ทำงาน git ไม่สำเร็จ เพราะมีปัญหาเรื่องการรับรู้ GitHub SSH key
    • รอบนี้ GitHub AI กลับช่วยได้แบบ เหนือความคาดหมาย เพราะบอกให้ไปเช็ก githubstatus.com
    • สงสัยว่าใน GitHub UI ยัง สร้าง branch ได้อยู่ไหม
  • ตลอด 10 ปีที่ผ่านมา จากที่ย้ายไปมาระหว่างบริษัทใหญ่กับสตาร์ตอัป เห็น รูปแบบซ้ำ ๆ อย่างหนึ่ง
    สตาร์ตอัป → รองรับลูกค้าองค์กร → รีดีไซน์ซับซ้อน → อุดมคตินิยม → ไล่ล่ากำไร → ผลิตภัณฑ์พองตัว → วิศวกรแกนหลักลาออก → คุณภาพตก
    วงจรนี้เกิดซ้ำกับบริษัทยักษ์ด้านคลาวด์ด้วย (AWS, Cloudflare, GCP ฯลฯ)
    ภายในเองแต่ละบริการก็ถูกแยกเป็น หน่วยธุรกิจเล็ก ๆ ที่ขับเคลื่อนด้วยกำไร
    สุดท้ายแม้แต่ โครงสร้างพื้นฐานระดับฐานราก ก็อ่อนแอลงเพราะแรงกดดันด้านผลกำไร
    รู้สึกว่าความเชื่อแบบ “AWS หรือ GCP ใหญ่เกินกว่าจะพัง” นั้นอันตราย

    • เห็นด้วย ตอนรองรับลูกค้าองค์กร ผลิตภัณฑ์จะ ซับซ้อนและเชื่องช้าลงอย่างหลีกเลี่ยงไม่ได้
      แต่ปัญหาหนี้เทคนิคและความปลอดภัยของสตาร์ตอัปยุคแรกก็ร้ายแรงเหมือนกัน
      ท้ายที่สุดพอระบบเติบโตในระดับใหญ่ การที่ รอยร้าวของระบบจะโผล่ออกมา ก็เป็นเรื่องธรรมดา
  • ในหน้า status ของ GitHub มีข้อความว่า “ผู้ใช้บางรายอาจประสบปัญหา” โผล่มาอีกแล้ว
    แต่ความจริงคือไม่ใช่แค่ HTTPS เท่านั้น แม้แต่ SSH push ก็ล้มเหลวทั้งหมด

    • ดูเหมือนคนที่ดูแลหน้า status จะหลุดจากคำว่า “ผู้ใช้บางราย” ไม่ได้
      การเปิดเผยข้อมูลอย่างโปร่งใสแทน ถ้อยคำอ้อมแบบ PR น่าจะสร้างความเชื่อมั่นได้มากกว่า
      แถมบางทีกว่า status page จะอัปเดตก็ช้ามาก
    • เพื่อนผมบอกว่าแป๊บหนึ่ง push ได้ แต่ส่วนใหญ่ก็ยังเจอ fatal error อยู่ดี