1 คะแนน โดย GN⁺ 2024-05-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ขนาดมหาศาลของอินเทอร์เน็ตและการสูญหายของคอนเทนต์

    • อินเทอร์เน็ตที่มีหน้าเว็บหลายหมื่นล้านหน้าเป็นคลังข้อมูลขนาดมหาศาลของชีวิตสมัยใหม่
    • อย่างไรก็ตาม คอนเทนต์ที่ผู้ใช้พึ่งพาบางครั้งก็หายไป
    • การวิเคราะห์ใหม่ของ Pew Research Center แสดงให้เห็นว่าคอนเทนต์ออนไลน์มีความไม่ถาวรอย่างมาก
      • ในบรรดาหน้าเว็บทั้งหมดที่มีอยู่ระหว่างปี 2013 ถึง 2023 หนึ่งในสี่อยู่ในสถานะที่ไม่สามารถเข้าถึงได้อีกต่อไป ณ เดือนตุลาคม 2023
      • สาเหตุหลักคือหน้าเว็บบางหน้าถูกลบหรือถูกนำออกไป
  • การเกิดขึ้นของ digital decay

    • ได้สำรวจเว็บไซต์รัฐบาล เว็บไซต์ข่าว และส่วน "เอกสารอ้างอิง" ของหน้า Wikipedia
      • 23% ของหน้าเว็บข่าวมีลิงก์เสียอย่างน้อยหนึ่งลิงก์
      • 21% ของเว็บไซต์รัฐบาลมีลิงก์เสียอย่างน้อยหนึ่งลิงก์
      • 54% ของหน้า Wikipedia มีลิงก์ที่ชี้ไปยังหน้าที่ไม่มีอยู่อีกต่อไป
  • digital decay บนโซเชียลมีเดีย

    • เก็บตัวอย่างทวีตแบบเรียลไทม์จากแพลตฟอร์มโซเชียลมีเดีย X (ในขณะนั้นคือ Twitter) ในช่วงฤดูใบไม้ผลิปี 2023 และติดตามเป็นเวลา 3 เดือน
      • ประมาณหนึ่งในห้าของทวีตไม่สามารถมองเห็นแบบสาธารณะได้อีกต่อไปหลังจากโพสต์ไปไม่กี่เดือน
      • 60% ของกรณีเหล่านี้เกิดจากบัญชีที่โพสต์ทวีตต้นฉบับถูกตั้งค่าเป็นส่วนตัว ถูกระงับ หรือถูกลบไปทั้งหมด
      • อีก 40% ที่เหลือคือบัญชียังคงอยู่ แต่ทวีตแต่ละรายการถูกลบ
  • ลิงก์ส่วนตัวและนิยามของหน้าเว็บ

    • มีหลายวิธีในการนิยามหน้าที่เคยมีอยู่บนอินเทอร์เน็ตแต่ปัจจุบันไม่สามารถเข้าถึงได้
      • หน้าไม่อยู่บนเซิร์ฟเวอร์โฮสต์อีกต่อไป หรือเซิร์ฟเวอร์โฮสต์เองก็ไม่มีอยู่อีกแล้ว
      • ที่อยู่ของหน้ายังมีอยู่ แต่เนื้อหาเปลี่ยนไปแล้ว
      • หน้ายังคงอยู่ แต่ผู้ใช้บางกลุ่ม (เช่น ผู้พิการทางสายตา) อ่านได้ยาก
    • รายงานนี้มุ่งเน้นที่นิยามแรก: หน้าที่ไม่มีอยู่อีกต่อไป
  • หน้าเว็บตลอด 10 ปีที่ผ่านมา

    • เก็บตัวอย่างหน้าเว็บแบบสุ่มประมาณ 1 ล้านหน้าจากคลัง Common Crawl
      • 25% ของหน้าทั้งหมดที่เก็บรวบรวมระหว่างปี 2013 ถึง 2023 อยู่ในสถานะที่ไม่สามารถเข้าถึงได้อีกต่อไป ณ เดือนตุลาคม 2023
      • 38% ของหน้าที่เก็บรวบรวมในปี 2013 ไม่สามารถเข้าถึงได้อีกต่อไปในปี 2023
  • ลิงก์ในเว็บไซต์รัฐบาล

    • สุ่มตัวอย่างประมาณ 500,000 หน้าจากเว็บไซต์รัฐบาลที่เก็บรวบรวมในเดือนมีนาคม/เมษายน 2023
      • 86% ของหน้าเหล่านี้มีลิงก์ภายใน และ 6% อยู่ในสถานะที่ไม่สามารถเข้าถึงได้อีกต่อไป
      • โดยรวมแล้ว 21% ของหน้าเว็บรัฐบาลที่ตรวจสอบมีลิงก์เสียอย่างน้อยหนึ่งลิงก์
  • ลิงก์ในเว็บไซต์ข่าว

    • สุ่มตัวอย่างประมาณ 500,000 หน้าจากเว็บไซต์ข่าวที่เก็บรวบรวมในเดือนมีนาคม/เมษายน 2023
      • 94% ของเว็บไซต์ข่าวมีลิงก์ภายนอกอย่างน้อยหนึ่งลิงก์ และ 23% ของหน้ามีลิงก์เสียอย่างน้อยหนึ่งลิงก์
  • ลิงก์อ้างอิงใน Wikipedia

    • สุ่มตัวอย่างหน้า English Wikipedia จำนวน 50,000 หน้า
      • 82% ของหน้าที่เก็บรวบรวมมีลิงก์อ้างอิงอย่างน้อยหนึ่งลิงก์ และ 11% ของลิงก์อ้างอิงอยู่ในสถานะที่ไม่สามารถเข้าถึงได้อีกต่อไป
  • โพสต์บน Twitter

    • เก็บรวบรวมทวีต 5 ล้านรายการในช่วงฤดูใบไม้ผลิปี 2023 และติดตามเป็นเวลา 3 เดือน
      • 18% ของทวีตที่เก็บรวบรวมไม่สามารถมองเห็นแบบสาธารณะได้อีกต่อไปเมื่อสิ้นสุดช่วงติดตาม
      • 60% ของทวีตที่หายไปเกิดจากบัญชีถูกตั้งค่าเป็นส่วนตัว ถูกระงับ หรือถูกลบ
      • 1% ของทวีตถูกลบภายใน 1 ชั่วโมง, 3% ภายใน 1 วัน, 10% ภายใน 1 สัปดาห์ และ 15% ภายใน 1 เดือน
  • การวิเคราะห์การอยู่รอดของทวีต

    • ครึ่งหนึ่งของทวีตที่หายไปจะหายไปภายใน 6 วันแรกหลังโพสต์
    • 90% ของทวีตจะกลายเป็นไม่สามารถเข้าถึงได้ภายใน 46 วันหลังโพสต์
    • มี 6% ของทวีตที่เคยถูกลบแต่ภายหลังกลับมาเป็นสาธารณะอีกครั้ง

1 ความคิดเห็น

 
GN⁺ 2024-05-20
ความเห็นจาก Hacker News

สรุปรวมความคิดเห็นจาก Hacker News

  • ปัญหาของหน้า Facebook

    • องค์กรและบริษัทจำนวนมากใช้เพียงหน้า Facebook ทำให้ไม่มีตัวตนบนเว็บในรูปแบบอื่น และยังบังคับให้ต้องมีบัญชี Facebook
  • ความพยายามในการเก็บถาวร

    • เว็บไซต์อย่าง CNN และ BBC พยายามเก็บถาวรเนื้อหาเก่าไว้ เช่น รายงานข่าวเกี่ยวกับเหตุวินาศกรรม 9/11
  • การสนับสนุน Internet Archive

    • ควรบริจาคให้ Internet Archive (archive.org) เพื่อช่วยสนับสนุนการเก็บรักษาเนื้อหาเก่า และควรทำสำเนาเนื้อหาสำคัญไว้ในเครื่องด้วย
  • ประสบการณ์ในการดูแลเว็บไซต์ข่าว

    • มีการดูแลเว็บไซต์ข่าวมาตั้งแต่ปี 2019 โดยใช้ครอว์เลอร์ตรวจหาลิงก์เสียทุกชั่วโมงและแทนที่ด้วยลิงก์ไปยังไฟล์เก็บถาวร บ่อยครั้งที่เว็บไซต์ของผู้สมัครรับเลือกตั้งหายไปในวันถัดจากวันเลือกตั้ง
  • กราฟอายุขัยของเว็บไซต์

    • คาดว่าเว็บไซต์จำนวนมากน่าจะหายไปหลังปี 2013 โดยเฉพาะเว็บไซต์ชุมชนอย่าง Angelfire และ Geocities ที่เลิกหายไปซึ่งส่งผลมาก ถ้านำอายุขัยของเว็บไซต์มาทำเป็นกราฟก็น่าจะน่าสนใจ
  • ปัญหาของเว็บไซต์ในอดีต

    • ได้กลับไปเห็นเว็บไซต์ .com แรกที่โฮสต์บน Angelfire ในยุค 90 อีกครั้ง ตอนนั้นอาจดูโอเค แต่เมื่อมองด้วยมาตรฐานปัจจุบันก็มีเนื้อหาที่ไม่เหมาะสมอยู่มาก
  • ความไม่ถาวรของอินเทอร์เน็ต

    • ควรยอมรับว่าธรรมชาติของอินเทอร์เน็ตนั้นไม่ถาวร หากต้องการเก็บถาวร ก็ควรทำสำเนาแบบออฟไลน์ไว้ และรูปแบบ PDF/A เหมาะกับงานเก็บถาวร
  • ปัญหา SEO

    • ปัจจุบันเว็บส่วนใหญ่เต็มไปด้วยสแปม SEO
  • ปัญหาลิงก์เสีย

    • เป็นปัญหาใหญ่ของอินเทอร์เน็ต เพราะหลายครั้งเนื้อหายังอยู่แต่ลิงก์เสีย ระบบสองชั้นแบบ DOI ของห้องสมุดอาจช่วยได้
  • ความสำคัญของการลืมและการให้อภัย

    • โลกที่ทุกอย่างคงอยู่ตลอดไปคงน่ากลัว จึงจำเป็นต้องมีความพยายามในการเก็บรักษาเฉพาะเนื้อหาที่มีคุณค่า และนั่นยิ่งทำให้คุณค่าของมันเด่นชัดขึ้น