- สรุปเนื้อหาการบรรยายของ David Rosenthal ผู้เชี่ยวชาญด้าน Digital Preservation
ความแตกต่างระหว่างแบ็กอัป (Backup) และอาร์ไคฟ์ (Archival)
- แบ็กอัป จำเป็นสำหรับการกู้คืนไปยังสถานะล่าสุดเมื่อเกิดภัยพิบัติ
- อายุการใช้งานที่มีผลของข้อมูลแบ็กอัปถูกกำหนดโดยช่วงเวลาตั้งแต่การแบ็กอัปล่าสุดจนถึงการกู้คืน
- อายุของสื่อจัดเก็บข้อมูลสำหรับแบ็กอัปไม่ใช่ประเด็นสำคัญ
- หลังจากทำงานในสายการเก็บรักษาดิจิทัลมาเกือบ 20 ปี วิธีแบ็กอัประบบสำคัญ 4 แบบ ของฉันคือ
- เมลและเว็บเซิร์ฟเวอร์: ทำแบ็กอัปแบบเต็มรายสัปดาห์และแบบเพิ่มเฉพาะส่วนรายวันบน Raspberry Pi → เก็บแบ็กอัปรายสัปดาห์ลง DVD-R
- เดสก์ท็อปพีซี: ทำแบ็กอัปแบบเต็มทุกคืนลงฮาร์ดไดรฟ์ภายนอก → หมุนเวียนจัดเก็บเป็นระยะบนฮาร์ดไดรฟ์ 3 ลูก
- iPhone: แบ็กอัปรายวันลง Mac Air → แบ็กอัปลง SSD เป็นระยะผ่าน Time Machine
- การเก็บไว้นอกสถานที่: ทุกสัปดาห์นำ DVD-R, SSD และฮาร์ดไดรฟ์ไปเก็บไว้ในสถานที่ภายนอก
- ข้อมูล อาร์ไคฟ์ คืออะไร?
- เมื่อเวลาผ่านไป ข้อมูลจะค่อย ๆ ถูกย้ายลงไปยังลำดับชั้นการจัดเก็บที่ต่ำกว่า
- ข้อมูลอาร์ไคฟ์ = ข้อมูลที่ไม่สามารถแบกรับต้นทุนการเก็บรักษาไว้ในสตอเรจสำหรับงานปฏิบัติการได้
- เป้าหมายหลักของระบบจัดเก็บแบบอาร์ไคฟ์คือ ลดต้นทุน โดยยอมรับความล่าช้าในการเข้าถึง
ความเป็นจริงของสื่อจัดเก็บแบบอาร์ไคฟ์
- มีการพูดเกินจริงในสื่อเกี่ยวกับ “สตอเรจที่เก็บได้ตลอดกาล” อยู่มาก
- เทคโนโลยีการจัดเก็บใหม่จากงานวิจัยมีโอกาสต่ำที่จะถูกใช้งานในตลาดในวงกว้าง
- สื่อที่ออกแบบมาเฉพาะสำหรับงานอาร์ไคฟ์มีความต้องการในตลาดต่ำ จึงยากจะประสบความสำเร็จในเชิงพาณิชย์
- ตัวอย่าง: เทป LTO มีสัดส่วนน้อยกว่า 1% ของตลาดสื่อจัดเก็บทั้งหมด
- ในปี 2023 OD-3 (ดิสก์ออปติคัล 1TB) ถูกยกเลิกเพราะปัญหาการขาดแคลนในตลาด
ปัญหาเรื่องช่วงเวลาการนำสื่อจัดเก็บมาใช้
- เทคโนโลยีการจัดเก็บใหม่ใช้เวลานานกว่าจะถูกนำเข้าสู่ตลาด
- ฮาร์ดไดรฟ์ HAMR: ถูกนำมาใช้หลังจากเริ่มวิจัยไปแล้ว 26 ปี
- Silica และ DNA storage: แม้จะวิจัยกันมาหลายสิบปี แต่กว่าจะใช้งานเชิงพาณิชย์ได้ยังต้องใช้เวลาอย่างน้อยอีก 5 ปี
ปัญหาเรื่องความคุ้มค่าทางเศรษฐศาสตร์ของสื่อจัดเก็บ
- สิ่งที่สำคัญกว่าตัวสื่อจัดเก็บคือ ต้นทุนโครงสร้างพื้นฐานของระบบจัดเก็บ
- ค่าสื่อจัดเก็บอย่างเทปหรือดิสก์มีสัดส่วนไม่สูงในต้นทุนรวม
- ต้องดำเนินงานในระดับศูนย์ข้อมูลจึงจะลดต้นทุนได้
- การทำอาร์ไคฟ์ในขนาดเล็กไม่คุ้มค่าในเชิงเศรษฐศาสตร์
ปัญหาคลาวด์สตอเรจกับการล็อกอิน (Lock-in)
- ค่าใช้จ่ายของบริการคลาวด์สำหรับการจัดเก็บแบบอาร์ไคฟ์มีราคาแพงมากในระยะยาว
- Amazon Glacier: ลดต้นทุนได้สำหรับการเก็บระยะยาว แต่ค่ากู้คืนข้อมูลสูง
- ค่าจัดเก็บ: $10,900/ปี
- ค่ากู้คืน: $49,550 (อิงจาก 1PB)
- ต้นทุนรวม: $60,950
- ระยะเวลาล็อกอิน: 50.0 เดือน
- Google Archive: ค่าจัดเก็บและกู้คืนสูง → ไม่มีประสิทธิภาพสำหรับการเก็บระยะยาว
- ค่าจัดเก็บ: $13,200/ปี
- ค่ากู้คืน: $210,810 (อิงจาก 1PB)
- ต้นทุนรวม: $224,510
- ระยะเวลาล็อกอิน: 175.6 เดือน
- Microsoft Archive: ค่าจัดเก็บต่ำ แต่ค่ากู้คืนข้อมูลสูง
- ค่าจัดเก็บ: $22,000/ปี
- ค่ากู้คืน: $40,100 (อิงจาก 1PB)
- ต้นทุนรวม: $62,200
- ระยะเวลาล็อกอิน: 20.0 เดือน
- ปัญหาการล็อกอิน: ค่ากู้คืนข้อมูลที่สูงทำให้การย้ายข้อมูลทำได้ยาก
- Amazon Glacier มีค่าจัดเก็บถูกที่สุดและค่ากู้คืนก็ค่อนข้างต่ำเมื่อเทียบกัน
Project Silica (โครงการ Silica ของ Microsoft)
- Silica: สื่อจัดเก็บข้อมูลความหนาแน่นสูงพิเศษ
- ใช้เลเซอร์เฟมโตวินาทีบันทึกข้อมูลลงบนแผ่นซิลิกา
- มีความหนาแน่นการจัดเก็บสูงและมีเสถียรภาพทางกายภาพยอดเยี่ยม
- ปัญหาเรื่องต้นทุน: เลเซอร์เฟมโตวินาทีมีราคาแพง → คาดหวังว่าราคาจะลดลงเมื่อผลิตจำนวนมาก
- แยกการอ่าน/เขียน → เสริมความปลอดภัยและรับประกันความสมบูรณ์ของข้อมูล
- ปัญหาความเร็วในการอ่าน: คาดว่าเวลาในการตอบสนองอยู่ที่ 15 ชั่วโมง → มีประสิทธิภาพเฉพาะในระบบขนาดใหญ่
ปัญหาการกู้คืนข้อมูล
- สิ่งสำคัญของอาร์ไคฟ์คือความเป็นไปได้ในการ กู้คืนข้อมูล
- Microsoft จัดเก็บโค้ดโอเพนซอร์สบนฟิล์มไว้ที่เกาะ Svalbard
- ความเป็นไปได้ในการกู้คืนหลังภัยพิบัติ ต่ำ
- เข้าถึงได้ยากเพราะอยู่ห่างไกลและสภาพอากาศเลวร้าย
ระบบ LOCKSS (Lots Of Copies Keep Stuff Safe)
- เก็บสำเนาจำนวนมากไว้บนสื่อจัดเก็บต้นทุนต่ำ → เพิ่มความปลอดภัยของข้อมูล
- การแบ็กอัปและการกู้คืนไม่ได้อาศัยระบบราคาแพง แต่รับประกันด้วยสำเนาจำนวนมาก
- ความคุ้มค่าด้านต้นทุนสำคัญ → จึงนิยมระบบจัดเก็บราคาถูกมากกว่าสื่อจัดเก็บราคาแพง
บทสรุป
- หัวใจของการจัดเก็บแบบอาร์ไคฟ์ไม่ใช่ เทคโนโลยี แต่คือ ความคุ้มค่าทางเศรษฐศาสตร์
- สื่อเฉพาะสำหรับงานอาร์ไคฟ์ไม่มีประสิทธิภาพเชิงเศรษฐศาสตร์
- บริการคลาวด์มีค่ากู้คืนสูง → ก่อให้เกิดปัญหา lock-in
- ต้องดำเนินงานใน ศูนย์ข้อมูลขนาดใหญ่ จึงจะลดต้นทุนการเก็บระยะยาวได้
- Project Silica เป็นหนึ่งในเทคโนโลยีอาร์ไคฟ์ที่มีอนาคตมากที่สุด แต่ยังต้องใช้เวลากว่าจะพร้อมเชิงพาณิชย์
1 ความคิดเห็น
ความเห็นจาก Hacker News