ทำความเข้าใจว่า Facebook หายไปได้อย่างไรในวันที่ 4/10
(blog.cloudflare.com)-
บทความที่ CloudFlare วิเคราะห์จากภายนอกว่าเหตุใดบริการต่าง ๆ ของ Facebook จึงไม่สามารถเข้าถึงได้ในวันที่ 4/10
-
ล้มเหลวตั้งแต่การ lookup DNS และการเชื่อมต่อ IP ของโครงสร้างพื้นฐานทั้งหมดที่เกี่ยวข้องกับ Facebook ก็ถูกตัดขาด
-
คำชี้แจงอย่างเป็นทางการของ Facebook คือ
→ "เกิดปัญหาระหว่างการเปลี่ยนแปลงการตั้งค่า backbone router ที่ใช้ประสานทราฟฟิกเครือข่ายระหว่าง data center ซึ่งส่งผลกระทบเป็นลูกโซ่ต่อการเชื่อมต่อระหว่าง data center และทำให้บริการหยุดชะงัก"
→ โดยปกติ DNS servers จะประกาศตัวเองผ่าน BGP แต่ DNS servers ของ Facebook ถูกตั้งค่าให้ disable BGP หากไม่สามารถเชื่อมต่อกับ data center ของ Facebook ได้
→ เมื่อ backbone ของ data center ขาดออกจากกัน จึงเริ่มปฏิเสธคำขอ BGP และทำให้ไม่สามารถเข้าถึง DNS servers ได้
→ ด้วยเหตุนี้จึงกลายเป็นว่าการเข้าถึงเซิร์ฟเวอร์ทั้งหมดของ Facebook เป็นไปไม่ได้
→ ในความเป็นจริงการเข้าถึงตัว data center เองก็ทำได้ยาก ทำให้วิศวกรต้องเดินทางไปแก้ปัญหาที่หน้างาน
-
ปัญหาเกิดขึ้นราวกับว่าใครสักคนดึงสายอินเทอร์เน็ตของ data center ของ Facebook ออก
-
แม้จะไม่ใช่ปัญหา DNS โดยตรง แต่ข้อผิดพลาด DNS คืออาการแรกของการหยุดให้บริการครั้งใหญ่
-
BGP(Border Gateway Protocol)
→ กลไกที่ AS(Autonomous Systems) บนอินเทอร์เน็ตใช้แลกเปลี่ยนข้อมูลการ routing
→ เราเตอร์ขนาดใหญ่จะคอยแชร์ข้อมูลการ routing อย่างต่อเนื่องเพื่อให้จัดการไปถึงข้อมูลปลายทางได้
→ หาก Facebook ไม่ประกาศการมีอยู่ของตัวเอง (advertising) ให้เครือข่ายรับรู้ ก็จะไม่สามารถเข้าถึงได้
→ เครือข่ายแต่ละแห่งมี ASN(Number) และจะแจ้ง prefix ของ IP ที่ตนดูแล
- ตั้งแต่ 15:40 UTC ของวันที่ 4/10 Facebook หยุดประกาศ DNS Prefix ของตน
→ ตามปัญหาที่ Facebook อธิบายไว้ข้างต้น เมื่อไม่ส่ง BGP Ad ออกไปจึงทำให้เข้าถึงไม่ได้
→ ส่งผลให้ routing เปลี่ยนและมีการอัปเดต BGP ครั้งใหญ่
→ DNS servers ทั้งหมดเริ่มส่ง SERVFAIL สำหรับ URL ของ Facebook
→ DNS queries เริ่มเพิ่มขึ้น 30x
→ DNS queries ไปยัง Twitter, Signal, Telegram ฯลฯ ก็เพิ่มขึ้นเช่นกัน
- เวลา 21:00 UTC BGP ถูกอัปเดตอีกครั้งและทุกอย่างกลับมาเป็นปกติ
2 ความคิดเห็น
Facebook ล่มนาน 5 ชั่วโมงนี่นะ... เรียกว่าเป็นเหตุการณ์ใหญ่จริง ๆ ครับ
BGP ปลอดภัยหรือไม่? https://th.news.hada.io/topic?id=1932
การวิเคราะห์เหตุการณ์อินเทอร์เน็ตล่มของ CenturyLink/Level(3) เมื่อวันที่ 30 สิงหาคม https://th.news.hada.io/topic?id=2746