2 คะแนน โดย GN⁺ 2025-06-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เกิดเหตุขัดข้องของบริการบน Google Cloud Platform
  • บริการ Vertex AI Online Prediction ยังคงเกิดข้อผิดพลาดอย่างต่อเนื่อง
  • เกิดสถานการณ์ที่ตรวจสอบสถานะบริการแบบปรับให้เหมาะกับผู้ใช้ได้ยาก
  • มีรายงานความผิดปกติของบริการที่ส่งผลกระทบต่อผู้ใช้ในหลายภูมิภาค
  • มีการหยิบยกความจำเป็นในการกู้คืนบริการให้กลับสู่ปกติและระบุสาเหตุที่แน่ชัด

ภาพรวมของเหตุขัดข้อง

  • มีรายงานไม่สามารถใช้งานบริการได้บน Google Cloud Platform
  • โดยเฉพาะพบว่าเกิดข้อผิดพลาดอย่างต่อเนื่องในฟังก์ชันอย่าง Vertex AI Online Prediction

ขอบเขตผลกระทบและสถานะปัจจุบัน

  • ปัญหานี้กำลังส่งผลต่อการตรวจสอบสถานะของบริการอย่าง Personalized Service Health ด้วย
  • ผู้ใช้ในหลายภูมิภาคกำลังประสบความไม่สะดวกในการเข้าถึงหรือใช้งานบริการ

บทสรุปและแนวโน้ม

  • ความจำเป็นในการกู้คืนบริการให้เป็นปกติและวิเคราะห์สาเหตุของเหตุขัดข้องได้รับการเน้นย้ำ
  • ขณะนี้มีการคาดหวังว่าจะมีประกาศเพิ่มเติมเกี่ยวกับการกู้คืนและมาตรการที่เป็นรูปธรรม

1 ความคิดเห็น

 
GN⁺ 2025-06-13
ความคิดเห็นจาก Hacker News
  • มีคำอธิบายสถานการณ์ที่บริการส่วนกลางภายในของ Google อย่าง Chemist ล่ม โดย Chemist ทำหน้าที่ตรวจสอบนโยบายหลากหลายอย่าง เช่น สถานะโปรเจกต์, สถานะการเปิดใช้งาน, การใช้งานในทางที่ผิด, สถานะการเรียกเก็บเงิน, ข้อจำกัดด้านตำแหน่งที่ตั้ง, VPC Service Controls, SuperQuota เป็นต้น จึงพอเข้าใจได้ว่าทำไมถึงมีข้อความผิดพลาดหลากหลายแบบอย่าง “visibility check (of the API) failed” หรือ “cannot load policy” พร้อมแนบลิงก์ ไปยังเอกสารตรวจสอบนโยบายโดยละเอียด, EDIT: Google แจ้งว่า Google Cloud เกิดปัญหาจาก “Identity and Access Management Service Issue”
    • ฉันกำลังใช้ฟังก์ชันส่งต่อการแจ้งเตือนผ่าน Expo เลยสงสัยว่า FCM จะได้รับผลกระทบจากเหตุขัดข้องของ Google ครั้งนี้ด้วยไหม
    • มีหลายบริการอินเทอร์เน็ตล่มพร้อมกัน จึงไม่ใช่ปัญหาเฉพาะของ GCP และคาดว่าบริการ Chemist ได้รับผลกระทบจากภายนอกอย่างหนักเป็นพิเศษ จนทำให้ปัญหาลุกลามเข้าไปถึงเครือข่าย GCP ภายใน
  • ระหว่างใช้งาน Claude Sonnet 4 (Cursor) และ Gemini Pro พบ error จำนวนมาก จนต้องคร่ำครวญว่าราวกับย้อนกลับไปเดือนธันวาคม 2024 และต้องเขียนโค้ดเอง 100% เหมือนมนุษย์ยุคหิน
    • ฉันก็เจอปัญหาเดียวกันใน AI Studio โดยมีข้อความแจ้งว่า “การสร้างเนื้อหาล้มเหลวเนื่องจากเกินโควตาของผู้ใช้”
    • เดิมทีฉันกำลังทดลองอัปโหลดไฟล์ไปยัง Cloud Storage แต่ตอนนี้ดูเป็นจังหวะเหมาะที่จะออกไปเดินเล่น
    • ในโหมด Auto Agent ของ Cursor ก็เกิด error คล้ายกัน
    • มีมุกว่า นักพัฒนาก่อนวันที่ 12 มิถุนายน 2025: “AI? ก็แค่เครื่องปั้นภาพหลอน มันแทนฉันไม่ได้หรอก!” / นักพัฒนาระหว่างเหตุขัดข้องวันที่ 12 มิถุนายน 2025: “ถ้าไม่มี AI ฉันกลายเป็นทาสเลยเหรอ?”
    • มีคนแนะนำว่าถ้าสลับไปโหมด Auto ก็ยังใช้งานได้อยู่
  • Cloudflare ก็เกิดเหตุขัดข้องเช่นกัน โดยใน Cloudflare status มีการแจ้งว่าหลายบริการ เช่น Access, WARP, Durable Objects (แบบ SQL), Workers KV, Realtime, Workers AI, Stream และบางส่วนของแดชบอร์ด Cloudflare มีปัญหาเป็นช่วง ๆ พร้อมอัปเดตการประเมินผลกระทบอย่างต่อเนื่อง และมีการแชร์การสนทนาใน Hacker News ที่เกี่ยวข้อง
    • มีความเห็นว่าถ้า Cloudflare พึ่งพา GCP เหตุขัดข้องครั้งนี้ก็ถือว่าใหญ่โตมาก
    • มีคนบอกว่าลิงก์ทำงานผิดปกติ และกล่าวถึงช่วงที่หน้าเว็บว่างเปล่าไปชั่วคราว
  • ณ เวลา 18:43 UTC เกือบทุกบริการอยู่ในภาวะล่ม พร้อมแชร์ลิงก์ downdetector
    • มีคนแซวว่ากราฟของบริการนี้ก็คงเก็บข้อมูลอยู่บน GCP ภายในเหมือนกัน ระหว่างคุยโทรศัพท์กับผู้ดูแล Google มีใครบอกว่า AWS ก็ล่มด้วย และฉันก็ออกความเห็นแบบคาดเดาไปว่า “หรือจะเป็นการโจมตี BGP?” ทั้งที่ยังไม่ได้ตรวจสอบ เลยออกมาสำนึกผิดทีหลัง
    • มีคำถามว่า “บริการทั้งหมดนี่คือบริการของ Google เหรอ”
    • มีความเห็นว่าไม่คาดคิดเลยว่าเหตุขัดข้องของ Google จะส่งผลไปถึง AWS หรือ Microsoft 365 ด้วย
    • มีคนยืนยันว่าเวลาเกิดเหตุใหญ่แบบนี้ Downdetector เป็นแหล่งข้อมูลเท็จ 100%
    • และมีมุกว่าระบบตรวจจับนี้เองก็คงรันอยู่บน Google Cloud เหมือนกัน
  • หน้า status ทั้งหมดแสดงว่าปกติ (เป็นสีเขียว) แต่ในความเป็นจริงกลับมีรายงานปัญหาจำนวนมาก พร้อมแชร์ ตัวติดตามเหตุขัดข้องของ Google Cloud
    • มีคนตั้งคำถามถึงเหตุผลที่หน้า status มีไว้ใช้อะไร โดยมีรายงานว่าผู้ใช้มากกว่า 100,000 คนใช้ Google Meet ไม่ได้ ถ้าบริษัทใหญ่ไม่สะท้อนสถานการณ์จริงลงในหน้า status ก็ไม่มีความหมาย พร้อมแชร์ Google Apps Status และ GCP Status Page เพิ่มเติม, EDIT: ภายใน 1 นาทีหลังโพสต์นี้ หน้า status ของ GCP ก็อัปเดตและแสดงเหตุขัดข้องของหลายบริการ เช่น Cloud Data Fusion, Cloud Memorystore, Cloud Shell
    • ลิงก์ประกาศอย่างเป็นทางการของเหตุขัดข้องครั้งนี้
    • ตอนนี้มีการอัปเดตผลกระทบต่อ console, dataproc, GCS, IAM, Identity Platform แล้วที่ลิงก์นี้
    • บริษัทของเราก็มีพนักงานทำงานระยะไกลอยู่หลายร้อยคน และเจอ 504 error ตอนเข้า Google Meetings มากกว่า 90%
  • สถานะเหตุขัดข้องของ Cloudflare ก็เพิ่งอัปเดตใหม่เช่นกัน โดยบริการสำคัญอย่าง Workers KV ออฟไลน์จากเหตุขัดข้องของบริการภายนอก และส่งผลโดยตรงต่อการส่งมอบข้อมูลของผลิตภัณฑ์ Cloudflare ที่พึ่งพาบริการนี้
  • Firebase Auth ก็ล่มเช่นกัน ส่งผลต่อแอปจำนวนมาก และมีผู้ใช้จำนวนมากในชุมชน Discord กับ Slack รายงานว่าเจอพร้อมกัน ต่างบ่นว่าผ่านไปเกือบ 30 นาทีแล้วแต่หน้า status ยังไม่มีข้อความอะไรเลย พร้อมแชร์ Firebase Status
    • ในที่สุดหน้า status ก็อัปเดตแล้ว คาดว่าอาจช้าเพราะระบบภายในเองก็มีปัญหาจนกระทบการอัปเดตหน้า status
  • เหตุขัดข้องครั้งนี้ทำให้ข้อความ RCS ล่มไปด้วย ซึ่งยิ่งเผยให้เห็นชัดเจนว่าการออกแบบทางเทคนิคหรือโครงสร้างพื้นฐานนั้นเปราะบาง
    • มีคนตอบว่า RCS ก็เป็นแค่ instant messaging ไม่ใช่หรือ เลยไม่ได้รู้สึกว่าการล่มครั้งนี้น่าแปลกใจ
    • แบบนี้ก็อธิบายได้ว่าทำไมวันนี้ฉันถึงไม่ได้รับรูปสุนัขจากพ่อแม่
    • มีคนตกใจที่ในที่สุดก็ได้คำตอบว่าทำไมแชต RCS ของตัวเองถึงส่งไม่สำเร็จก่อนหน้านี้
    • และมีมุกว่าควรใช้ Erlang
  • มีคนกำลังมองหาแดชบอร์ดดี ๆ สำหรับตรวจสอบความผิดปกติของการทำ routing แบบ BGP โดยตอนนี้ดู Cloudflare Radar Routing อยู่ แต่เพราะมันไม่แสดง route leak จริง ๆ จึงถามหาแดชบอร์ดอื่นเพิ่มเติม
    • มีคนบอกว่าเพิ่งเคยรู้จัก Cloudflare Radar และมันเป็นบริการที่ยอดเยี่ยม แต่ด้วยผลกระทบจากเหตุขัดข้องตอนนี้ก็คาดว่าแดชบอร์ดหลายตัวเองอาจมีปัญหาในการทำงานเช่นกัน พร้อมยกตัวอย่าง RIPE Atlas, IHR Global Report, IHR Network, BGP He.net, IODA Dashboard
    • ปกติฉันใช้ bgp.tools เป็นหลัก แต่ก็สงสัยว่าทำไมถึงคิดว่าเหตุขัดข้องครั้งนี้เกิดจาก BGP
    • ฉันเองก็ยังใหม่เหมือนกัน เลยสงสัยว่าปรากฏการณ์ที่ช่วง “Announced IP Address Space” กระโดดขึ้นแรงแบบกะทันหันนั้นเป็นเรื่องปกติหรือเปล่า
    • มีการตั้งข้อสงสัยว่าอาจเป็นการโจมตี BGP
  • มีความเห็นเชิงขำขันว่าดีแล้วที่ Hacker News ทำงานอยู่บนเซิร์ฟเวอร์ bare metal เครื่องเดียว โดยไม่เกี่ยวข้องกับอินฟราสตรักเจอร์ซับซ้อนแบบนี้