10 คะแนน โดย xguru 2020-07-16 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีแผนจะออกรายงานความพร้อมใช้งานทุกวันพุธแรกของเดือน โดยสรุปคำอธิบายเกี่ยวกับเหตุขัดข้องที่ผ่านมา รายละเอียดเชิงเทคนิค และแนวทางแก้ไข

  • เป้าหมายคือแบ่งปันทุกอย่างอย่างโปร่งใส เพื่อไม่ให้เป็นเพียงรายงานข้อผิดพลาด แต่ให้ทุกคนสามารถเรียนรู้จากประสบการณ์นี้ได้

  • การรับมือของ GitHub ต่อข้อผิดพลาดของเว็บไซต์ที่เกิดขึ้นถี่ขึ้นในช่วงหลัง

  • 5/5 (ขัดข้อง 2 นาที 24 วินาที)

เกิดจาก auto-increment ID ของตาราง MySQL บางตารางเกินค่าสูงสุดของชนิด Integer

จะส่งการแจ้งเตือนเมื่อขนาด PK เกิน 70% และเพิ่ม linter ให้เฟรมเวิร์กทดสอบตรวจเช็ก int/bigint

  • 5/22 (ขัดข้อง 5 นาที 9 วินาที)

ระหว่างการบำรุงรักษาตามรอบ MySQL Primary เซิร์ฟเวอร์ตัวใหม่ที่เริ่มใช้งานเกิดล่ม จึงรีบสลับทราฟฟิกกลับไปยัง Primary ต้นฉบับ แต่เนื่องจากในช่วงที่ล่มไป 6 วินาทีนั้นมีการรับ Write traffic เข้ามา ทำให้ต้องใช้เวลา 4 ชั่วโมงในการกู้คืนจาก replica และอีก 1 ชั่วโมงในการตั้งค่า cluster ใหม่

กำลังทดสอบระบบอัตโนมัติสำหรับ failover อย่างต่อเนื่องเพื่อลดเวลาในการกู้คืนให้เหลือน้อยที่สุด

  • 6/19 (ขัดข้อง 51 นาที)

เกิดจากการเปลี่ยนแปลงที่ใส่เข้าไปเพื่อปรับปรุง A/B testing ซึ่งไปสร้าง dependency กับไฟล์ของแอปพลิเคชันอื่นที่ถูกสร้างแบบไดนามิก ระหว่างการ deploy การสร้างไฟล์ดังกล่าวล้มเหลว ทำให้ติด rate limit

ปรับให้การตั้งค่า A/B และ Multivariate testing ถูก cache ภายในระบบ

1 ความคิดเห็น

 
xguru 2020-07-16

หลังจาก MS เข้าซื้อกิจการ ก็ถูกสงสัยว่าช่วงหลังมีข้อผิดพลาดเพิ่มขึ้นอย่างเห็นได้ชัด

(อาจสะดุ้งเหมือนกันเพราะประเด็นมันโยงไปทางว่า Azure ไม่เสถียรหรือเปล่า?)

ต่อกรณีนี้ก็ได้ประกาศมาตรการรับมือแบบตรงไปตรงมาว่าจะเผยแพร่รายงานความพร้อมใช้งานอย่างโปร่งใส

ผมคิดว่าบริษัทในประเทศก็ควรเรียนรู้วิธีรับมือแบบนี้เช่นกัน

เป็นคนละประเด็นเล็กน้อย แต่ถ้าลองเทียบ "รายงานความโปร่งใส" ของบริษัทต่างชาติกับบริษัทในประเทศ จะเห็นความแตกต่างทั้งในเชิงคุณภาพและปริมาณอย่างมาก

รายงานความโปร่งใส (Transparency Report) : การเผยแพร่ข้อมูลที่แสดงให้เห็นว่านโยบายและมาตรการของภาครัฐและบริษัทส่งผลต่อการคุ้มครองข้อมูลส่วนบุคคล ความปลอดภัย และการใช้ข้อมูลอย่างไร

รายงานความโปร่งใสของ Google : https://transparencyreport.google.com/?hl=ko

รายงานความโปร่งใสของ Facebook : https://transparency.facebook.com/

รายงานความโปร่งใสของ Naver : https://privacy.naver.com/transparency/transparency_report_statistic/…

รายงานความโปร่งใสของ Kakao : https://privacy.kakao.com/transparency/statistic

ไม่ใช่แค่เรียงข้อมูลออกมาเท่านั้น แต่ผมคิดว่าควรออกแบบให้ตัวรายงานเองสามารถถ่ายทอดแนวคิดและความเชื่อของบริษัทได้อย่างชัดเจนด้วย