1 คะแนน โดย GN⁺ 2025-10-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีรายงานว่าเกิด เหตุขัดข้อง (outage) ใน บริการคลาวด์ Azure ของ Microsoft
  • โพสต์บน Hacker News เขียนขึ้นโดยผู้ใช้ในลักษณะของ ประกาศแจ้งการเกิดเหตุขัดข้องโดยตรง
  • ในเนื้อหาไม่ได้ระบุรายละเอียดอย่างชัดเจนเกี่ยวกับ สาเหตุ ขอบเขตผลกระทบ หรือสถานะการกู้คืน ของเหตุขัดข้อง
  • โพสต์นี้มีจุดประสงค์เพื่อ เตือนให้ผู้ใช้บริการ Azure ระมัดระวัง
  • นี่เป็นกรณีที่ย้ำเตือนถึง ความสำคัญของการตระหนักถึงความเสี่ยงด้านการปฏิบัติการ สำหรับบริษัทและนักพัฒนาที่พึ่งพาโครงสร้างพื้นฐานคลาวด์อย่างมาก

รายงานเหตุขัดข้องของบริการ Azure

  • โพสต์ “Tell HN: Azure outage” บน Hacker News แจ้งให้ทราบถึง การเกิดเหตุขัดข้องบนแพลตฟอร์ม Azure
  • ไม่สามารถยืนยัน สาเหตุโดยละเอียด พื้นที่ที่ได้รับผลกระทบ หรือประเภทของบริการ ได้ เนื่องจากไม่มีการดึงเนื้อหาต้นฉบับมา
  • จากรูปแบบของโพสต์ ดูเหมือนว่าเป็น การที่ผู้ใช้พบเห็นเหตุขัดข้องด้วยตนเองแล้วนำมาแชร์กับชุมชน

ข้อมูลเพิ่มเติม

  • Microsoft Azure เป็นบริการคลาวด์คอมพิวติ้งที่มีการใช้งานทั่วโลก
  • ในเนื้อหา ไม่มีข้อมูลเกี่ยวกับความคืบหน้าในการกู้คืนหรือประกาศอย่างเป็นทางการ รวมอยู่
  • ไม่มีข้อมูลเพิ่มเติมในต้นฉบับ

1 ความคิดเห็น

 
GN⁺ 2025-10-30
ความคิดเห็นบน Hacker News
  • ยังคงน่าประหลาดใจที่บริการสำคัญ โดยเฉพาะ ขนส่งสาธารณะ พึ่งพาคลาวด์ทั้งหมดโดยไม่มีระบบสำรอง
    วันนี้ในเนเธอร์แลนด์เป็นวันเลือกตั้งทั่วไป แต่เพราะ Azure ล่ม รถไฟจึงล่าช้าหรือถูกยกเลิกอยู่หลายชั่วโมง ทำให้บางคนไปลงคะแนนไม่ได้

    • สงสัยว่าการลงคะแนนมีแค่วันเดียวหรือไม่ ถ้ามีแค่วันเดียว ปัญหาแบบนี้ก็เกิดขึ้นได้เสมอ คงมีเหตุผลชัดเจนที่บางประเทศจัดให้ลงคะแนนหลายวัน
    • นี่ก็ปี 2025 แล้วแต่ยังต้องไปที่หน่วยเลือกตั้งด้วยตัวเองอยู่ก็น่าเหลือเชื่อ ฉันลงคะแนนทาง ไปรษณีย์ มานานกว่า 20 ปี ได้รับบัตรเลือกตั้งล่วงหน้า 1 เดือนแล้วส่งกลับทางไปรษณีย์ หวังว่าสักวันจะมี การลงคะแนนออนไลน์ เพื่อลดการสิ้นเปลืองกระดาษ
    • คิดว่าวันเลือกตั้งควรกำหนดให้เป็น วันหยุดราชการ
    • แต่ถ้ากระจายระบบไปสองคลาวด์ ก็จะถูกวิจารณ์ว่าเป็นการสิ้นเปลืองภาษี สุดท้ายก็ต้องเลือกระหว่าง ความน่าเชื่อถือ กับ การประหยัดต้นทุน
    • นิวซีแลนด์ก็ไม่ได้รอดจากเหตุล่มครั้งนี้ บริการ RealME ของภาครัฐ (เช่น ยื่นภาษี สมัครพาสปอร์ต) หยุดทำงานจนเกิดความวุ่นวายมาก
  • ตามประกาศในหน้า Azure status ที่ Azure Status บริการบางส่วนหยุดชะงักราว 16:00 UTC เพราะปัญหาของ Front Door
    มีการแนะนำให้ลูกค้าที่เข้า portal ไม่ได้ ใช้ PowerShell หรือ CLI แทน และกำลังแยก portal ออกจาก AFD เพื่อกู้คืนระบบ

    • อัปเดตเวลา 17:17 UTC ระบุว่าสาเหตุมีแนวโน้มสูงว่าเกิดจาก การเปลี่ยนค่าคอนฟิกผิดพลาด ขณะนี้กำลังบล็อกการเปลี่ยนแปลงทั้งหมดและ rollback กลับไปยังสถานะปกติก่อนหน้า
    • ในยุโรป AFD มักล่มเป็นรายภูมิภาคอยู่บ่อย ๆ และมากกว่าครึ่งก็ไม่ได้ถูกรายงานอย่างเป็นทางการด้วยซ้ำ
    • เห็นมีการพูดถึง DNS เลยสงสัยว่าคล้ายกับ เหตุ AWS ล่ม ในอดีตหรือไม่
    • ข้อความสถานะยอมรับว่าปัญหาอยู่ที่ AFD แต่พูดถึงแค่มาตรการทำให้ portal ทำงานได้โดยไม่ต้องพึ่ง AFD พวกเราที่ใช้ AFD อาจต้องเจอกับศึกยาว
    • ไม่ใช่แค่ portal เท่านั้น microsoft.com ก็ล่มด้วย
  • สั่งมือถือของ Starbucks ไม่ได้ ก็เลยจะไปสั่งผ่าน Grubhub ปรากฏว่าที่นั่นก็ล่มเหมือนกัน สุดท้ายเลยมาหาสาเหตุใน HN

    • HN ดูเหมือนจะรันอยู่บนเซิร์ฟเวอร์ในห้องใต้ดินไม่กี่เครื่อง เลย เสถียรกว่า คลาวด์เสียอีก
    • sysadmin subreddit จับเหตุล่มได้เร็วกกว่า HN มากกว่าหนึ่งชั่วโมง วิศวกร on-call รู้ตัวกันทันที
    • ตอน AWS ล่ม ครั้งก่อน แอป Starbucks ก็หยุดทำงานเหมือนกัน
    • ตอนแรกก็แปลกใจว่าทำไมแถว drive-thru ไม่ขยับ ที่แท้ก็เพราะเรื่องนี้
    • เซ็นเซอร์คุณภาพอากาศ Netatmo ของฉันก็หยุดแจ้งเตือนเหมือนกัน เป็นข้อมูลในบ้านแท้ ๆ แต่ทำไมต้องอ้อมผ่านคลาวด์ก็ไม่เข้าใจ
  • การล่มของ Azure ไม่ได้น่าตกใจเท่าการล่มของ AWS
    ตอนแรกความ บูรณาการแนวดิ่ง ของ ecosystem ของ Microsoft ดูน่าสนใจ แต่พอใช้จริงแล้ว การจัดสรรทรัพยากร กลับยุ่งยากมากจนย้ายกลับไป AWS
    ตอนนี้ยังไม่เคยใช้ GCP เลย แต่ก็รู้สึกว่าบางทีมันอาจจะดีกว่า

    • ตอนที่ลองใช้ Azure ครั้งแรก เมนูซับซ้อนจนแทบจะเต็มหน้าจอ นั่นเป็นครั้งแรกที่รู้สึกเหมือน หลงทางอยู่ในคลาวด์
    • พูดตรง ๆ ว่า GCP ค่อนข้างดี อยากให้มีคนลองใช้มากกว่านี้
    • แต่ในอุตสาหกรรมที่ถูกกำกับดูแลเข้มงวด จะอนุญาตแค่ Microsoft เท่านั้น AWS หรือ GCP ไม่ถูกพิจารณาเลย
    • Microsoft รับมือกับ ข้อกำกับภาครัฐ ได้ดี เลยมีลูกค้าหน่วยงานรัฐจำนวนมาก ทำให้ Azure ล่มแล้วส่งผลต่อบริการสาธารณะมากกว่า
    • เอาจริง ๆ ถ้า MS ล่มแต่ Github ยังปกติ คนจำนวนมากอาจไม่ทันสังเกตด้วยซ้ำ
  • ตอนนี้ฉันยืนอยู่ในซูเปอร์มาร์เก็ตที่เหมือนจะปิดไปครึ่งหนึ่ง เพราะ ระบบชำระเงิน หยุดทำงาน

    • ร้านที่เคยทำงานอยู่เมื่อก่อนมีโหมดออฟไลน์ ตอนยืนยันการชำระเงินไม่ผ่าน ลูกค้าก็เลย ได้ของกลับบ้านฟรี อยู่บ่อยครั้ง
    • Family Dollar แถวบ้านฉันมีปัญหาอินเทอร์เน็ตจนล่มเดือนละสองวันเป็นประจำ ถ้าฉันให้ลิงก์สำรองแล้วขอส่วนแบ่งยอดขายสักครึ่งหนึ่งก็น่าจะ win-win
    • ซูเปอร์มาร์เก็ตครั้งนี้ไม่ได้ดับสนิททั้งหมด แต่ดูเหมือนจะ timeout ในขั้นตอนชำระเงิน เลยช้ามาก
    • ทำให้นึกถึงยุค 90 ที่ เครื่องคิดเงินแบบกลไก กำลังถูกแทนที่ด้วยระบบอิเล็กทรอนิกส์ ทุกวันนี้เครื่องรับบัตรกลับเข้าลูปบูตไม่หยุด จนต้องจ่ายค่าดอกไม้ด้วยเงินสด คู่ของฉันยังแซวว่าพนักงานคงอยากเก็บเงินสดแบบไม่คิดภาษี
    • คิดว่าร้านค้าปลีกไหน ๆ ก็ควรมีอย่างน้อย ฟังก์ชันรับชำระเงินแบบออฟไลน์
  • ตอนนี้เริ่มคิดว่าจะย้ายไป Google Cloud Run หรือ Cloudflare Workers ดีไหม
    ส่วนตัวรู้สึกว่า Hetzner ให้ความคุ้มค่าต่อราคาดีจนไว้ใจได้
    เคยมีวิดีโอเปรียบเทียบที่เกี่ยวข้องด้วย และอยากให้เว็บอย่าง vpspricetracker.com แสดง คะแนน Geekbench ควบคู่กันไปด้วย

    • Hetzner ก็ดี แต่คงไม่ถึงระดับ ความเสถียรแบบ Google
    • เลยคิดว่าหรือควรจัดระบบแบบ multi-provider จะดีกว่า
    • อ้างอิงไว้ว่าเมื่อ 4 เดือนก่อน Cloudflare ล่ม ก็มีต้นตอมาจากปัญหาของ Google Cloud เหมือนกัน
  • ตลอด 2 ปีที่ผ่านมา ฉันค่อย ๆ ย้ายบริการออกจาก Azure
    ที่เหลือสุดท้ายมีแค่ bucket สำหรับ static assets กับ VM สำหรับ Matomo analytics แต่ประสบการณ์กับ Front Door แย่มากจนวันนี้ตัดสินใจย้ายไป Cloudflare ให้หมด

    • ที่จริงปีนี้ทุกคลาวด์ต่างก็มีเหตุล่มใหญ่กันหมดแล้ว ตอนนี้ไม่มีที่ไหนรับประกัน ความน่าเชื่อถือแบบสัมบูรณ์ ได้อีก
    • ถึงอย่างนั้น การ เปลี่ยนวิกฤตให้เป็นโอกาส ก็ยังสำคัญ
  • login.microsoftonline.com ล่ม ทำให้ SSO ใช้งานไม่ได้ทั้งองค์กร และ microsoft.com ก็ตายไปพร้อมกัน

    • ใน tenant ฝั่งสหรัฐฯ flow การล็อกอินหยุดทำงาน แต่ในยุโรป (โดยเฉพาะ germany-west) ยังใช้งานได้ปกติ
    • บริษัทเรานั้น SSO กับ 365 ยังปกติ แต่เข้าได้ไม่ได้แค่ admin portal
    • มีคนล้อว่านี่กลายเป็นภาวะ NASSO(Not A Single Sign On) ไปแล้ว
    • ช่วงนี้ Office 365 ล่ม แทบจะรายสัปดาห์ แต่ก็ยังน่าแปลกที่คนยังเลือกใช้อยู่
  • ดาวน์โหลด VSCode ไม่สำเร็จ
    ลิงก์ดาวน์โหลด ใช้งานไม่ได้

    • วันนี้ winget ก็ล้มเหลวเป็นช่วง ๆ ฉันใช้ UniGetUI อยู่ แต่รีเฟรชรายการได้ไม่ครบเฉพาะแพ็กเกจที่เกี่ยวกับ Microsoft
    • repository ของ Azure DevOps ก็เข้าไม่ได้ ทำให้งานหยุดชะงัก
    • บางคนเลยเสนอว่าให้ใช้ VSCodium แทน
  • ทีมของเราใช้ Azure 100% แต่ครั้งนี้ไม่ได้รับผลกระทบ
    หลังเลิกใช้ Front Door ไปเมื่อ 1 ปีก่อน ระบบก็เสถียรมาตลอด ก่อนหน้านั้นมีปัญหาแทบทุกครั้งที่ deploy ใหม่ และครั้งหนึ่งถึงขั้นมี แบนเนอร์ Microsoft โผล่บนหน้าแรกแบบเหลือเชื่อ

    • เจอปัญหา Front Door OriginTimeout มานานกว่าหนึ่งปี สุดท้ายเลยย้ายออก แต่ API server ยังอยู่หลัง AFD ก็เลยโดนผลกระทบครั้งนี้เหมือนกัน
    • ที่แย่กว่าการล่มคือปัญหา content contamination การที่มีแบนเนอร์ Microsoft โผล่ขึ้นมาทั้งที่ไม่ได้สมัครใช้งาน ถือว่าหนักพอสมควร