2 คะแนน โดย GN⁺ 5 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เกิดทั้งภาวะความพร้อมใช้งานลดลงและการไม่สามารถใช้งานได้ในบริการ GitHub หลายรายการ รวมถึง Webhooks, Actions, Copilot
  • ในช่วงแรกมีการตรวจสอบภาวะความพร้อมใช้งานลดลงของ Copilot และ Webhooks และต่อมาขอบเขตการตรวจสอบได้ขยายไปครอบคลุมเหตุขัดข้องของหลายบริการ
  • Actions ประสบปัญหาประสิทธิภาพลดลงแยกต่างหาก และหลังจากยืนยันปัญหาที่เป็นรากแล้วก็ได้ดำเนินการบรรเทาผลกระทบ
  • หลังจากบรรเทาอาการลดลงของ Actions และ Copilot แล้ว ได้มีการติดตามเสถียรภาพและดำเนินการ ตรวจสอบยืนยัน กับบริการที่เหลือ โดย Webhooks ก็กลับมาทำงานได้ตามปกติแล้ว
  • เหตุขัดข้องครั้งนี้สิ้นสุดลงในสถานะ แก้ไขเสร็จสมบูรณ์ และจะมีการเผยแพร่ root cause analysis แบบละเอียดเมื่อจัดเตรียมเสร็จ

ลำดับเหตุการณ์ของปัญหา

  • เกิด เหตุขัดข้องในหลายบริการ ของ GitHub และขอบเขตผลกระทบรวมถึง Webhooks, Actions, Copilot
  • ในช่วงแรกเริ่มตรวจสอบ ภาวะความพร้อมใช้งานลดลง ของ Copilot และ Webhooks
  • ต่อมาหลายบริการอยู่ในสถานะ ไม่สามารถใช้งานได้ ทำให้ขอบเขตการตรวจสอบกว้างขึ้น
  • Actions ประสบ ประสิทธิภาพลดลง แยกต่างหาก และยังคงดำเนินการระบุสาเหตุอย่างต่อเนื่อง
  • หลังยืนยันปัญหาที่เป็นรากแล้ว ได้ดำเนินการ บรรเทาผลกระทบ
  • อาการลดลงที่ส่งผลต่อ Actions และ Copilot ได้รับการบรรเทาแล้ว และยังมีการติดตามเพื่อคงเสถียรภาพต่อไป
  • หลังดำเนินการบรรเทากับหลายบริการแล้ว ยังมี การตรวจสอบยืนยัน สำหรับบริการที่เหลืออย่างต่อเนื่อง
  • Webhooks ก็กลับมาทำงานได้ตามปกติแล้ว
  • ท้ายที่สุด เหตุขัดข้องครั้งนี้สิ้นสุดลงในสถานะ แก้ไขเสร็จสมบูรณ์ และจะมีการเผยแพร่ root cause analysis แบบละเอียดเมื่อจัดเตรียมเสร็จ

ลิงก์อ้างอิง

1 ความคิดเห็น

 
GN⁺ 5 일 전
ความเห็นจาก Hacker News
  • กำลังทยอยย้ายโน่นนี่ไปทำ self-hosting ที่บ้าน และเมื่อวานในที่สุดก็ทำ Forgejo instance ในบ้านเสร็จแล้ว
    ทั้ง Linux, Windows เป็น VM ส่วน macOS ใช้ Mac Mini พร้อมต่อ CI/CD runner เข้าไป ตอนนี้ทั้งซอร์สโค้ด, Actions และอินฟราจริงทั้งหมดก็อยู่ในบ้านจริง ๆ แล้ว
    ปกติหลังย้ายไปใช้ self-hosting มักต้องใช้เวลาสักเดือนสองเดือนกว่าจะรู้สึกว่าคุ้ม แต่รอบนี้แค่วันถัดจากย้ายเสร็จก็มั่นใจเลยว่าตัดสินใจถูก เลยรู้สึกดีอยู่พอสมควร

    • ไอเดียทำ homelab น่าดึงดูดเสมอ แต่พอเริ่มทำจริงก็มักหมดแรงอย่างรวดเร็ว
      หลังต้องซ่อมระบบพัง ๆ ที่บริษัทมาทั้งวัน ก็ไม่ค่อยอยากกลับบ้านมารับบท sysadmin ส่วนตัว ของตัวเองต่อ
      Minisforum ที่ซื้อช่วงคริสต์มาส ทั้งดีและแรงก็ตั้งอยู่บนโต๊ะ แต่ยังไม่ได้เปิดเครื่องเลยด้วยซ้ำ
    • พอเริ่มทำ self-hosting จะสัมผัสได้ทันทีว่า เว็บสมัยใหม่ ช้าแค่ไหน
      ผมรัน Forgejo บน NUC เครื่องหนึ่งพร้อมบริการอื่นหลายตัวบน Proxmox แล้วหน้าเว็บโหลดประมาณ 6ms
      Immich อาจไม่เร็วขนาดนั้น แต่ก็ยังเร็วกว่า Google Photos มากอยู่ดี
    • ผมรัน Forgejo ส่วนตัว มาพักหนึ่งแล้ว และเอาไซด์โปรเจกต์ส่วนตัวทั้งหมดขึ้นไปไว้ที่นั่น
      UI โดยรวมคล้ายกัน แต่ ลื่นกว่า GitHub มาก แค่ว่า uptime เกิน 90% ก็แทบจะเป็นเหตุผลที่เพียงพอแล้ว
      ช่วงนี้เจอปัญหาเกี่ยวกับ GitHub บ่อยเกินไป และแม้แต่แค่เข้าไปไล่ดูเว็บก็ยังช้าหรือค้างไปเลยบ่อย ๆ
    • ผมก็เพิ่งย้ายแบบนี้เหมือนกัน และสิ่งที่แปลกใจที่สุดคือ ความเร็วของ Actions เร็วกว่า GitHub มาก
      Linux กับ macOS ผมตั้งค่าด้วย Mac Mini และ Ansible task file ที่ Claude สร้างให้ แต่การตั้งค่า Windows VM ดูจะทรมานพอตัว
      อยากรู้ว่าคุณหาวิธีทำให้ขั้นตอน deploy ง่ายขึ้นได้หรือยัง
    • เมื่อวานเห็นคนคุยเรื่อง gitea ที่นี่ เลยไปหาข้อมูลต่ออีกนิด แล้วก็ตัดสินใจย้ายมาทำ self-hosting ทันที พร้อมย้ายโปรเจกต์ส่วนตัวทั้งหมดไป Forgejo
      แต่โปรเจกต์สาธารณะยังย้ายยาก เพราะตลาดงานและ network effect ของ GitHub
      ตอนนี้ก็เหมือนกำลังเล่นเป็นผู้ดูแลระบบ คอยรันบริการโลคัลราว 20 ตัวเพราะของที่ต้องใช้ และเรื่องสำคัญที่สุดคือ ตอนนี้ความรับผิดชอบในการไม่ให้ข้อมูลหายมาอยู่ที่ตัวผมเองแล้ว ดังนั้นต้องมี การสำรองข้อมูลเป็นประจำ ให้แน่นอน
  • ถ้าดูที่ https://mrshu.github.io/github-statuses/ จะเห็นว่า uptime ลดลงไปถึง 88.15%
    ต่อให้ดูแยกเป็นคอมโพเนนต์ แต่ละตัวที่ดีที่สุดก็ยังมีแค่ 99.78% ซึ่งก็แทบเป็นแค่ระดับ two nines เท่านั้น

    • ขนาดการเติบโต ที่ต้องรับมือนั้นใหญ่แบบเหลือเชื่อ
      ปี 2025 อยู่ที่ 1 พันล้านคอมมิต แต่ตอนนี้เป็น 275 ล้านคอมมิตต่อสัปดาห์ และถ้าสมมติว่าโตแบบเชิงเส้นก็เท่ากับปีนี้กำลังวิ่งที่ระดับ 1.4 หมื่นล้านคอมมิต
      GitHub Actions ก็เพิ่มจาก 500 ล้านนาทีต่อสัปดาห์ในปี 2023 เป็น 1 พันล้านนาทีในปี 2025 และสัปดาห์นี้จนถึงตอนนี้อยู่ที่ 2.1 พันล้านนาที
      ที่มาคือโพสต์วันที่ 2026-04-03 ของ COO ของ GitHub https://x.com/kdaigle/status/2040164759836778878
    • สงสัยว่ามันมีความสัมพันธ์กับการที่ GitHub เริ่มให้ความสำคัญกับการ ย้ายไป Azure ก่อนหรือเปล่า
      https://thenewstack.io/github-will-prioritize-migrating-to-azure-over-feature-development/
    • AI ที่ Microsoft ผลักดันอย่างหนัก กลับกลายเป็นช่วยพวก self-hoster และคนรัก Linux อย่างมากจริง ๆ
  • สงสัยว่าแม้จะมีเหตุขัดข้องแบบนี้ซ้ำ ๆ GitHub ได้เห็น ความเสียหายทางธุรกิจที่มีนัยสำคัญ จริงหรือไม่
    ในวงการพูดกันมานานว่าความน่าเชื่อถือกับมูลค่าแบรนด์เป็นเรื่องสำคัญ แต่ช่วงนี้ดูเหมือนแทบไม่ใส่ใจสิ่งนั้นแล้ว
    ถ้าความเข้าใจของผมผิดก็ยินดีให้ช่วยแก้ไขทันที

    • แค่เมื่อ 2-3 ปีก่อน แทบทุกคนยังเห็นตรงกันว่า หากจะ deploy ซอฟต์แวร์อย่างเสถียรและปลอดภัย ต้องมี repeatable builds, chain of custody ที่ตรวจสอบแล้ว และ bill of materials ที่ audit ได้
      แต่พอ LLM ดีขึ้นมาหน่อย เหมือนบทสนทนาเหล่านั้นหายไปทั้งก้อนเลย
    • GitHub เป็นแพลตฟอร์มที่ ฝังรากลึก ไปแล้วมากพอ จนเหตุขัดข้องแบบนี้ถูกมองเป็นแค่ต้นทุนทางธุรกิจ
      บริษัทใหญ่ ๆ ก็พอป้องกันได้บ้างด้วยอินสแตนซ์ภายใน ส่วนที่เหลือก็อาจไม่ได้เจ็บหนักขนาดนั้น หรือไม่มีทรัพยากรพอจะทำโซลูชันเองหรือย้ายออก
    • การย้ายจาก GitHub ไป GitLab อาจเหมือนหนีเสือปะจระเข้ก็ได้
      ถ้ามีทางเลือกที่ดีจริง ๆ สำหรับคนที่ใช้งานในระดับใหญ่ก็คงดีมาก
  • ถ้านับตามช่วง rolling 90 วัน กว่าจะหลุดต่ำกว่า two nines น่าจะต้องมีเหตุขัดข้องเพิ่มอีกราว 16 ชั่วโมง

    • ถ้าดูจาก https://mrshu.github.io/github-statuses/ uptime แบบรวมเหมือนจะยังไม่ถึง 1 nine ด้วยซ้ำ
    • ด้วยความเร็วแบบนี้ GitHub เหมือนกำลังไล่ล่า eight 8’s
  • จะบอกว่าไม่ต้องกังวลก็ได้มั้ง เพราะ status page ยังบอกอยู่ว่า ไฟเขียว ปกติ 100%
    ทั้งที่แม้แต่หน้า static หน้าเดียวก็ยังเข้าไม่ได้

  • ตอนนี้ถึงขั้นน่าจะต้องมีโพสต์ HN ทุกครั้งที่มีวันซึ่งบริการของ GitHub ไม่มีปัญหา แล้ว
    ไม่อย่างนั้นก็แปลว่านั่นคือสภาพปกติไปแล้ว

  • เมื่อก่อนฝั่ง Bitbucket เคยทำ git history หายไปหนึ่งวัน ข้ามหลาย repo
    มันไม่ใช่ outage แต่เป็นปัญหาข้อมูลของเขาเอง และแม้จะกู้คืนได้เกือบทั้งหมดจาก local clone แต่ issue กับ PR ในช่วงเวลานั้นก็หายไปเลย
    นั่นเลยเป็นเหตุให้ผมเริ่มทำ gitbacker เป็นไซด์โปรเจกต์
    การสำรอง repo เองนั้นง่าย แต่ส่วนที่น่าสนใจจริง ๆ คือการสำรอง metadata

  • วันนี้ก็มีเหตุร้ายแรงมากอีกเรื่อง: https://www.githubstatus.com/incidents/zsg1lk7w13cf
    เขาบอกว่าเพราะ regression ที่เกิดเมื่อใช้ merge queue ร่วมกับ squash merge หรือ rebase ทำให้มีบาง PR ถูก merge ผิดพลาดในช่วง 2026-04-23 16:05-20:43 UTC
    ฝั่งเรา ในช่วงเวลานั้น มีคอมมิตประมาณ 8 ตัวบน default branch ถูกย้อนกลับไปทั้งก้อน
    นี่เป็น incident ของ GitHub ที่ร้ายแรงที่สุดเท่าที่ผมเคยเห็นมา

    • Downtime เป็นปัญหาแบบหนึ่ง แต่การย้อนคอมมิตบน default branch แบบเงียบ ๆ นี่เป็นความล้มเหลวคนละระดับเลย
    • ของเราก็คล้ายกัน
      เครื่องมือที่ควรมีไว้ป้องกัน merge conflict กลับกำลังเขียนคอมมิตเละ ๆ ลงบน mainline branch โดยตรง แบบนี้ยิ่งประชดประชันเข้าไปอีก
    • ฝั่งเราก็มี คอมมิตหลายตัวหายไปจาก main ทั้งที่สถานะ PR ยังแสดงว่า merged อยู่
      เครียดมากจริง ๆ
    • ฝั่งเราก็มี PR ถูกย้อนกลับ หลาย repo
      Downtime ก็แย่อยู่แล้ว แต่การย้อน PR นี่เป็นความล้มเหลวที่หนักกว่าไปอีกขั้น
    • ฝั่งเราก็ได้รับอีเมลแนบ ไฟล์ PDF ที่มีรายการคอมมิตที่ได้รับผลกระทบและวิธีกู้คืน
      โกลาหลมากจริง ๆ
  • ความต้องการของเราค่อนข้างง่าย แค่ประมาณ git repos + actions และ downtime ที่เกิดเป็นครั้งคราวก็ไม่ได้ถึงขั้นร้ายแรงมาก เพราะเราไม่ใช่ทีมที่คอมมิตและ deploy กันต่อเนื่องตลอดเวลา
    ถึงอย่างนั้นตอนนี้ก็เริ่มมองหาทางเลือกอื่นอย่างจริงจังแล้ว
    พอดีกับที่คนอื่นก็ดูเหมือนจะกำลังหาทางเลือกเหมือนกัน SourceHut ก็ล่มไปด้วย ตอนเขียนโพสต์นี้ยังล่มอยู่ แต่ตอนนี้กลับมาแล้ว
    https://sr.ht/

    • แอบสงสัยว่า tangled.org จะเป็นอย่างไรบ้าง
  • แค่วันนี้วันเดียวก็มี incident สามครั้ง แต่ละครั้งเกือบเกิน 1 ชั่วโมงทั้งหมด ทว่าสถานะรายวันยังเป็นสีเขียวทั้งแถบและขึ้นว่า ไม่มี downtime ที่บันทึกไว้
    มันก็ดูไม่ได้ต่างโดยเนื้อแท้จาก incident สมัยก่อนที่มีแท่งสีแดงขึ้นมาเลย ต่างกันแค่อาจไม่ได้ยาวหลายชั่วโมงเท่านั้น
    งั้นแท่งสีเขียวนั่นจริง ๆ หมายถึงอะไรกันแน่ก็ไม่รู้
    ชวนให้สงสัยว่าต้องมีคนบ่นมากพอถึงจะถูกเปลี่ยนเป็นไม่เขียวในภายหลัง หรือว่า incident ของวันนั้นจะโผล่ใน tooltip แค่ชั่วคราวแล้วหลังจากนั้นก็ถูกทำเป็นลืมไป
    พอดูจากวันที่เป็นสีเขียวก่อนหน้านี้แล้วไม่มี incident โผล่ใน tooltip เลย แต่วันนี้กลับมีหลายอัน ไม่ว่าแบบไหนก็ดูเหมือนเป็น การแสดงผลที่ชวนให้เข้าใจผิดโดยตั้งใจ