- ตัวชี้วัดความทนทานของ EBS gp3: ตามเอกสารทางการของ AWS อัตราการเสียต่อปี (AFR) อยู่ที่ 0.1% ~ 0.2% โดยความทนทานของดิสก์เดี่ยวอยู่ที่ 99.9% ซึ่งสูงมาก แต่เมื่อขนาดของอินฟราสตรักเจอร์ใหญ่ขึ้น ความเสี่ยงเชิงความน่าจะเป็นจะสะสมเพิ่มขึ้น
- ความน่าจะเป็นของการเกิดเหตุขัดข้องตามขนาดระบบ:
- เมื่อใช้งานดิสก์ 1,000 ลูก ความน่าจะเป็นที่จะไม่เกิดความขัดข้องเลยภายใน 1 ปีอยู่ที่ประมาณ 36.8% ($0.999^{1000}$)
- กล่าวคือ ในทางสถิติจะมี ความน่าจะเป็นราว 63.2% ที่จะเกิดความขัดข้องของดิสก์อย่างน้อย 1 ลูกขึ้นไป ซึ่งเป็นความเสี่ยงในระดับที่ควรถูกมองเป็นค่าคงที่ในการออกแบบระบบ
- การเปลี่ยนแปลงของอัตราการอยู่รอดตามโครงสร้างการจัดเก็บ:
- โครงสร้างแบบกระจาย (Sharding/RAID 0): ความทนทานของทั้งระบบถูกกำหนดโดยผลคูณของความทนทานขององค์ประกอบแต่ละตัว ($R^n$) ยิ่งจำนวนดิสก์เพิ่มขึ้น ความน่าจะเป็นที่ระบบจะอยู่รอดยิ่งลดลงแบบเอ็กซ์โพเนนเชียล
- โครงสร้างแบบทำสำเนา (Mirroring/RAID 1): ลดความน่าจะเป็นของความขัดข้องต่อชาร์ดลงเป็นกำลังสอง ($Q^2$) ทำให้สามารถยกระดับความทนทานของทั้งระบบได้อย่างมาก แม้จะใช้ฮาร์ดแวร์ชุดเดิมก็ตาม
- การแยกกลยุทธ์การจัดการ:
- Redundancy (เช่น RAID): กลยุทธ์สำหรับรับมือกับความขัดข้องเชิงกลของฮาร์ดแวร์ทางกายภาพ เพื่อคงความพร้อมใช้งานและความทนทานของบริการ
- Backup (เช่น S3 snapshot): วิธีเดียวในการกู้คืนจาก 'ความเสียหายเชิงตรรกะของข้อมูล' เช่น ความผิดพลาดของผู้ดูแล บั๊กของซอฟต์แวร์ หรือแรนซัมแวร์ ทั้งสองอย่างไม่สามารถใช้แทนกันได้
- สรุป: แม้บริการแบบ managed บนคลาวด์จะให้ความเสถียรสูงจริง แต่ความทนทานสุดท้ายของระบบไม่ได้ถูกตัดสินจากสเปกของชิ้นส่วนแต่ละตัวเท่านั้น หากขึ้นอยู่กับ ความสามารถในการออกแบบสถาปัตยกรรมของวิศวกร
1 ความคิดเห็น
อ่านบทความได้อย่างเพลิดเพลินครับ ^^
เป็นเรื่องที่ไม่ควรประหยัดเงินในส่วนสุดท้ายแท้ ๆ เลยนะครับ 555