6 คะแนน โดย GN⁺ 2025-03-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สรุปเนื้อหาการบรรยายของ David Rosenthal ผู้เชี่ยวชาญด้าน Digital Preservation

ความแตกต่างระหว่างแบ็กอัป (Backup) และอาร์ไคฟ์ (Archival)

  • แบ็กอัป จำเป็นสำหรับการกู้คืนไปยังสถานะล่าสุดเมื่อเกิดภัยพิบัติ
    • อายุการใช้งานที่มีผลของข้อมูลแบ็กอัปถูกกำหนดโดยช่วงเวลาตั้งแต่การแบ็กอัปล่าสุดจนถึงการกู้คืน
    • อายุของสื่อจัดเก็บข้อมูลสำหรับแบ็กอัปไม่ใช่ประเด็นสำคัญ
  • หลังจากทำงานในสายการเก็บรักษาดิจิทัลมาเกือบ 20 ปี วิธีแบ็กอัประบบสำคัญ 4 แบบ ของฉันคือ
    • เมลและเว็บเซิร์ฟเวอร์: ทำแบ็กอัปแบบเต็มรายสัปดาห์และแบบเพิ่มเฉพาะส่วนรายวันบน Raspberry Pi → เก็บแบ็กอัปรายสัปดาห์ลง DVD-R
    • เดสก์ท็อปพีซี: ทำแบ็กอัปแบบเต็มทุกคืนลงฮาร์ดไดรฟ์ภายนอก → หมุนเวียนจัดเก็บเป็นระยะบนฮาร์ดไดรฟ์ 3 ลูก
    • iPhone: แบ็กอัปรายวันลง Mac Air → แบ็กอัปลง SSD เป็นระยะผ่าน Time Machine
    • การเก็บไว้นอกสถานที่: ทุกสัปดาห์นำ DVD-R, SSD และฮาร์ดไดรฟ์ไปเก็บไว้ในสถานที่ภายนอก
  • ข้อมูล อาร์ไคฟ์ คืออะไร?
    • เมื่อเวลาผ่านไป ข้อมูลจะค่อย ๆ ถูกย้ายลงไปยังลำดับชั้นการจัดเก็บที่ต่ำกว่า
    • ข้อมูลอาร์ไคฟ์ = ข้อมูลที่ไม่สามารถแบกรับต้นทุนการเก็บรักษาไว้ในสตอเรจสำหรับงานปฏิบัติการได้
    • เป้าหมายหลักของระบบจัดเก็บแบบอาร์ไคฟ์คือ ลดต้นทุน โดยยอมรับความล่าช้าในการเข้าถึง

ความเป็นจริงของสื่อจัดเก็บแบบอาร์ไคฟ์

  • มีการพูดเกินจริงในสื่อเกี่ยวกับ “สตอเรจที่เก็บได้ตลอดกาล” อยู่มาก
  • เทคโนโลยีการจัดเก็บใหม่จากงานวิจัยมีโอกาสต่ำที่จะถูกใช้งานในตลาดในวงกว้าง
  • สื่อที่ออกแบบมาเฉพาะสำหรับงานอาร์ไคฟ์มีความต้องการในตลาดต่ำ จึงยากจะประสบความสำเร็จในเชิงพาณิชย์
    • ตัวอย่าง: เทป LTO มีสัดส่วนน้อยกว่า 1% ของตลาดสื่อจัดเก็บทั้งหมด
    • ในปี 2023 OD-3 (ดิสก์ออปติคัล 1TB) ถูกยกเลิกเพราะปัญหาการขาดแคลนในตลาด

ปัญหาเรื่องช่วงเวลาการนำสื่อจัดเก็บมาใช้

  • เทคโนโลยีการจัดเก็บใหม่ใช้เวลานานกว่าจะถูกนำเข้าสู่ตลาด
  • ฮาร์ดไดรฟ์ HAMR: ถูกนำมาใช้หลังจากเริ่มวิจัยไปแล้ว 26 ปี
  • Silica และ DNA storage: แม้จะวิจัยกันมาหลายสิบปี แต่กว่าจะใช้งานเชิงพาณิชย์ได้ยังต้องใช้เวลาอย่างน้อยอีก 5 ปี

ปัญหาเรื่องความคุ้มค่าทางเศรษฐศาสตร์ของสื่อจัดเก็บ

  • สิ่งที่สำคัญกว่าตัวสื่อจัดเก็บคือ ต้นทุนโครงสร้างพื้นฐานของระบบจัดเก็บ
    • ค่าสื่อจัดเก็บอย่างเทปหรือดิสก์มีสัดส่วนไม่สูงในต้นทุนรวม
    • ต้องดำเนินงานในระดับศูนย์ข้อมูลจึงจะลดต้นทุนได้
    • การทำอาร์ไคฟ์ในขนาดเล็กไม่คุ้มค่าในเชิงเศรษฐศาสตร์

ปัญหาคลาวด์สตอเรจกับการล็อกอิน (Lock-in)

  • ค่าใช้จ่ายของบริการคลาวด์สำหรับการจัดเก็บแบบอาร์ไคฟ์มีราคาแพงมากในระยะยาว
  • Amazon Glacier: ลดต้นทุนได้สำหรับการเก็บระยะยาว แต่ค่ากู้คืนข้อมูลสูง
    • ค่าจัดเก็บ: $10,900/ปี
    • ค่ากู้คืน: $49,550 (อิงจาก 1PB)
    • ต้นทุนรวม: $60,950
    • ระยะเวลาล็อกอิน: 50.0 เดือน
  • Google Archive: ค่าจัดเก็บและกู้คืนสูง → ไม่มีประสิทธิภาพสำหรับการเก็บระยะยาว
    • ค่าจัดเก็บ: $13,200/ปี
    • ค่ากู้คืน: $210,810 (อิงจาก 1PB)
    • ต้นทุนรวม: $224,510
    • ระยะเวลาล็อกอิน: 175.6 เดือน
  • Microsoft Archive: ค่าจัดเก็บต่ำ แต่ค่ากู้คืนข้อมูลสูง
    • ค่าจัดเก็บ: $22,000/ปี
    • ค่ากู้คืน: $40,100 (อิงจาก 1PB)
    • ต้นทุนรวม: $62,200
    • ระยะเวลาล็อกอิน: 20.0 เดือน
  • ปัญหาการล็อกอิน: ค่ากู้คืนข้อมูลที่สูงทำให้การย้ายข้อมูลทำได้ยาก
  • Amazon Glacier มีค่าจัดเก็บถูกที่สุดและค่ากู้คืนก็ค่อนข้างต่ำเมื่อเทียบกัน

Project Silica (โครงการ Silica ของ Microsoft)

  • Silica: สื่อจัดเก็บข้อมูลความหนาแน่นสูงพิเศษ
    • ใช้เลเซอร์เฟมโตวินาทีบันทึกข้อมูลลงบนแผ่นซิลิกา
    • มีความหนาแน่นการจัดเก็บสูงและมีเสถียรภาพทางกายภาพยอดเยี่ยม
  • ปัญหาเรื่องต้นทุน: เลเซอร์เฟมโตวินาทีมีราคาแพง → คาดหวังว่าราคาจะลดลงเมื่อผลิตจำนวนมาก
  • แยกการอ่าน/เขียน → เสริมความปลอดภัยและรับประกันความสมบูรณ์ของข้อมูล
  • ปัญหาความเร็วในการอ่าน: คาดว่าเวลาในการตอบสนองอยู่ที่ 15 ชั่วโมง → มีประสิทธิภาพเฉพาะในระบบขนาดใหญ่

ปัญหาการกู้คืนข้อมูล

  • สิ่งสำคัญของอาร์ไคฟ์คือความเป็นไปได้ในการ กู้คืนข้อมูล
  • Microsoft จัดเก็บโค้ดโอเพนซอร์สบนฟิล์มไว้ที่เกาะ Svalbard
    • ความเป็นไปได้ในการกู้คืนหลังภัยพิบัติ ต่ำ
    • เข้าถึงได้ยากเพราะอยู่ห่างไกลและสภาพอากาศเลวร้าย

ระบบ LOCKSS (Lots Of Copies Keep Stuff Safe)

  • เก็บสำเนาจำนวนมากไว้บนสื่อจัดเก็บต้นทุนต่ำ → เพิ่มความปลอดภัยของข้อมูล
  • การแบ็กอัปและการกู้คืนไม่ได้อาศัยระบบราคาแพง แต่รับประกันด้วยสำเนาจำนวนมาก
  • ความคุ้มค่าด้านต้นทุนสำคัญ → จึงนิยมระบบจัดเก็บราคาถูกมากกว่าสื่อจัดเก็บราคาแพง

บทสรุป

  • หัวใจของการจัดเก็บแบบอาร์ไคฟ์ไม่ใช่ เทคโนโลยี แต่คือ ความคุ้มค่าทางเศรษฐศาสตร์
    • สื่อเฉพาะสำหรับงานอาร์ไคฟ์ไม่มีประสิทธิภาพเชิงเศรษฐศาสตร์
    • บริการคลาวด์มีค่ากู้คืนสูง → ก่อให้เกิดปัญหา lock-in
  • ต้องดำเนินงานใน ศูนย์ข้อมูลขนาดใหญ่ จึงจะลดต้นทุนการเก็บระยะยาวได้
  • Project Silica เป็นหนึ่งในเทคโนโลยีอาร์ไคฟ์ที่มีอนาคตมากที่สุด แต่ยังต้องใช้เวลากว่าจะพร้อมเชิงพาณิชย์

1 ความคิดเห็น

 
GN⁺ 2025-03-18
ความเห็นจาก Hacker News
  • มีทั้ง AI, ควอนตัมคอมพิวติง, จอ 6K, M2 NVME, อุปกรณ์เครือข่ายนับพันล้านชิ้น ฯลฯ แต่ข้อมูลทั่วไปอาจอยู่ได้เพียงราว 5 ปี เนื่องจากดิสก์เสีย, ความไม่เสถียรของ SSD, bit rot เป็นต้น
    • หากจะรับมือกับเรื่องนี้ ต้องคอยดูแล JBOD, RAID, NAS อย่างต่อเนื่อง หรือเขียนลง M-Disc Blu-ray, ฝากไว้บนคลาวด์ หรือทำทั้งสองอย่าง
    • กลยุทธ์แบ็กอัป 3-2-1 แบบเรียบง่ายอาจได้ผลถ้าโชคดี แต่การเก็บถาวรข้อมูลขนาดใหญ่ก็ยังคงยากอยู่ดี
  • เคยคิดเรื่องปัญหา “หลายร้อยปี” มาตลอด และวิธีที่คาดว่าน่าจะใช้ได้จริงมีดังนี้
    • สลักหรือปั๊มลงบนวัสดุ (แผ่นหิน, Edison cylinder, แผ่น shellac 78 รอบ, แผ่นไวนิล, Voyager Golden Record ฯลฯ)
    • พิมพ์หรือเจาะลงบนกระดาษด้วยหมึก (หนังสือ, บัตร, เทป)
    • ภาพถ่าย; microfiche/microfilm (GitHub Arctic Code Vault), lithography
  • เพิ่งศึกษาวิธี “พิมพ์” microfilm ระดับงานเก็บถาวรเมื่อไม่นานมานี้ มีอยู่หลายทางเลือก แต่ส่วนใหญ่เป็นการสแกน microfilm เพื่อทำสำเนาดิจิทัล
    • จากประสบการณ์ส่วนตัว ภาพวาดดินสอที่วาดตอนอยู่ชั้น ม.2 มีแนวโน้มจะอยู่ได้นานกว่าสื่อดิจิทัลอีกหลายร้อยปี
  • ในระดับองค์กร การคำนวณต้นทุนอาจต่างจากระดับบุคคล
    • Linear Tape-Open เป็นสื่อจัดเก็บราคาถูกเมื่อคุณต้องเก็บข้อมูลระดับเพตะไบต์
    • ค่าไดรฟ์เพียงอย่างเดียวซื้อฮาร์ดไดรฟ์ได้ถึง 400TB
    • คิดว่าฮาร์ดไดรฟ์ที่ผลิตจำนวนมากน่าเชื่อถือกว่าเทป LTO
    • โดยส่วนตัวมีประสบการณ์กับเทปที่ไม่ค่อยดีนัก
  • โน้ตที่ว่า “ได้ทำการสำรวจธรณีวิทยาที่หมู่เกาะ Svalbard ในฤดูร้อนปี 1969” ทำให้อยากรู้จักผู้เขียนมากขึ้น และเส้นทางอาชีพของพวกเขาก็น่าสนใจมาก
  • เวลาจะใช้ cloud storage สำหรับแบ็กอัป อย่าลืมเปิด Object Lock
    • แม้จะไม่ดีเท่าการเก็บแบบออฟไลน์ แต่ก็ดีกว่าสื่อ R/W มาก
    • ที่บริษัทใช้ restic เพื่อแบ็กอัปไปยัง B2 และทำ deduplicated backup ทุกครั้ง
  • ใช้กลยุทธ์แบ็กอัป 3-2-1
    • เก็บสำเนาข้อมูล 3 ชุด บนสื่อ 2 ประเภทที่ต่างกัน และเก็บ 1 ชุดไว้นอกสถานที่
    • ข้อมูลสำคัญทำมิเรอร์ไว้บน SSD และเก็บสำเนา Blu-ray หลายชุด
    • เหตุผลที่ใช้ Blu-ray คือเพื่อป้องกันพายุแม่เหล็กโลก เช่น Carrington Event ในปี 1859
  • อยากให้ tape archive เข้าถึงได้ง่ายกว่านี้
    • มันเป็นตลาดเฉพาะทางและเน้นองค์กรเป็นหลัก ดังนั้นไดรฟ์จึงเริ่มต้นที่หลายพันดอลลาร์ และถ้าลดความจุลงก็ยังได้น้อยกว่า SSD สมัยใหม่
  • บทความพูดถึงหลายประเด็น จึงยากจะสรุปเป็นข้อสรุปเดียว
    • ปิดท้ายด้วยคำพูดของ CTO ของ Backblaze: “เตรียมรับมือความล้มเหลว และซื้อชิ้นส่วนที่ถูกที่สุด”
    • เหมาะกับบริษัทขนาดใหญ่มากกว่า ไม่เหมาะกับบุคคลทั่วไปหรือธุรกิจขนาดเล็ก
    • โดยส่วนตัวแบ็กอัปลง external hard drive ราคาถูก และเก็บถาวรลง M-DISC Blu-ray
  • เก็บไฟล์มาตั้งแต่ปี 1991 และย้ายผ่านรูปแบบต่าง ๆ มาเรื่อย ๆ
    • ใช้กลยุทธ์แบ็กอัป 3-2-1 และตรวจสอบ checksum ของไฟล์ทั้งหมดปีละ 2 ครั้ง
    • ถ้าใช้สคริปต์ ก็จัดการได้ง่ายด้วยคำสั่งไม่กี่คำสั่งต่อสัปดาห์
  • ขอความเห็นเกี่ยวกับ LOCKSS
    • LOCKSS ดูเหมือนจะให้ความสำคัญอย่างจริงจังกับแนวคิดที่ว่า หากข้อมูลไม่ได้รับการตรวจสอบเมื่อไม่นานมานี้ ก็เท่ากับมันอาจไม่มีอยู่จริง