-
ขนาดมหาศาลของอินเทอร์เน็ตและการสูญหายของคอนเทนต์
- อินเทอร์เน็ตที่มีหน้าเว็บหลายหมื่นล้านหน้าเป็นคลังข้อมูลขนาดมหาศาลของชีวิตสมัยใหม่
- อย่างไรก็ตาม คอนเทนต์ที่ผู้ใช้พึ่งพาบางครั้งก็หายไป
- การวิเคราะห์ใหม่ของ Pew Research Center แสดงให้เห็นว่าคอนเทนต์ออนไลน์มีความไม่ถาวรอย่างมาก
- ในบรรดาหน้าเว็บทั้งหมดที่มีอยู่ระหว่างปี 2013 ถึง 2023 หนึ่งในสี่อยู่ในสถานะที่ไม่สามารถเข้าถึงได้อีกต่อไป ณ เดือนตุลาคม 2023
- สาเหตุหลักคือหน้าเว็บบางหน้าถูกลบหรือถูกนำออกไป
-
การเกิดขึ้นของ digital decay
- ได้สำรวจเว็บไซต์รัฐบาล เว็บไซต์ข่าว และส่วน "เอกสารอ้างอิง" ของหน้า Wikipedia
- 23% ของหน้าเว็บข่าวมีลิงก์เสียอย่างน้อยหนึ่งลิงก์
- 21% ของเว็บไซต์รัฐบาลมีลิงก์เสียอย่างน้อยหนึ่งลิงก์
- 54% ของหน้า Wikipedia มีลิงก์ที่ชี้ไปยังหน้าที่ไม่มีอยู่อีกต่อไป
- ได้สำรวจเว็บไซต์รัฐบาล เว็บไซต์ข่าว และส่วน "เอกสารอ้างอิง" ของหน้า Wikipedia
-
digital decay บนโซเชียลมีเดีย
- เก็บตัวอย่างทวีตแบบเรียลไทม์จากแพลตฟอร์มโซเชียลมีเดีย X (ในขณะนั้นคือ Twitter) ในช่วงฤดูใบไม้ผลิปี 2023 และติดตามเป็นเวลา 3 เดือน
- ประมาณหนึ่งในห้าของทวีตไม่สามารถมองเห็นแบบสาธารณะได้อีกต่อไปหลังจากโพสต์ไปไม่กี่เดือน
- 60% ของกรณีเหล่านี้เกิดจากบัญชีที่โพสต์ทวีตต้นฉบับถูกตั้งค่าเป็นส่วนตัว ถูกระงับ หรือถูกลบไปทั้งหมด
- อีก 40% ที่เหลือคือบัญชียังคงอยู่ แต่ทวีตแต่ละรายการถูกลบ
- เก็บตัวอย่างทวีตแบบเรียลไทม์จากแพลตฟอร์มโซเชียลมีเดีย X (ในขณะนั้นคือ Twitter) ในช่วงฤดูใบไม้ผลิปี 2023 และติดตามเป็นเวลา 3 เดือน
-
ลิงก์ส่วนตัวและนิยามของหน้าเว็บ
- มีหลายวิธีในการนิยามหน้าที่เคยมีอยู่บนอินเทอร์เน็ตแต่ปัจจุบันไม่สามารถเข้าถึงได้
- หน้าไม่อยู่บนเซิร์ฟเวอร์โฮสต์อีกต่อไป หรือเซิร์ฟเวอร์โฮสต์เองก็ไม่มีอยู่อีกแล้ว
- ที่อยู่ของหน้ายังมีอยู่ แต่เนื้อหาเปลี่ยนไปแล้ว
- หน้ายังคงอยู่ แต่ผู้ใช้บางกลุ่ม (เช่น ผู้พิการทางสายตา) อ่านได้ยาก
- รายงานนี้มุ่งเน้นที่นิยามแรก: หน้าที่ไม่มีอยู่อีกต่อไป
- มีหลายวิธีในการนิยามหน้าที่เคยมีอยู่บนอินเทอร์เน็ตแต่ปัจจุบันไม่สามารถเข้าถึงได้
-
หน้าเว็บตลอด 10 ปีที่ผ่านมา
- เก็บตัวอย่างหน้าเว็บแบบสุ่มประมาณ 1 ล้านหน้าจากคลัง Common Crawl
- 25% ของหน้าทั้งหมดที่เก็บรวบรวมระหว่างปี 2013 ถึง 2023 อยู่ในสถานะที่ไม่สามารถเข้าถึงได้อีกต่อไป ณ เดือนตุลาคม 2023
- 38% ของหน้าที่เก็บรวบรวมในปี 2013 ไม่สามารถเข้าถึงได้อีกต่อไปในปี 2023
- เก็บตัวอย่างหน้าเว็บแบบสุ่มประมาณ 1 ล้านหน้าจากคลัง Common Crawl
-
ลิงก์ในเว็บไซต์รัฐบาล
- สุ่มตัวอย่างประมาณ 500,000 หน้าจากเว็บไซต์รัฐบาลที่เก็บรวบรวมในเดือนมีนาคม/เมษายน 2023
- 86% ของหน้าเหล่านี้มีลิงก์ภายใน และ 6% อยู่ในสถานะที่ไม่สามารถเข้าถึงได้อีกต่อไป
- โดยรวมแล้ว 21% ของหน้าเว็บรัฐบาลที่ตรวจสอบมีลิงก์เสียอย่างน้อยหนึ่งลิงก์
- สุ่มตัวอย่างประมาณ 500,000 หน้าจากเว็บไซต์รัฐบาลที่เก็บรวบรวมในเดือนมีนาคม/เมษายน 2023
-
ลิงก์ในเว็บไซต์ข่าว
- สุ่มตัวอย่างประมาณ 500,000 หน้าจากเว็บไซต์ข่าวที่เก็บรวบรวมในเดือนมีนาคม/เมษายน 2023
- 94% ของเว็บไซต์ข่าวมีลิงก์ภายนอกอย่างน้อยหนึ่งลิงก์ และ 23% ของหน้ามีลิงก์เสียอย่างน้อยหนึ่งลิงก์
- สุ่มตัวอย่างประมาณ 500,000 หน้าจากเว็บไซต์ข่าวที่เก็บรวบรวมในเดือนมีนาคม/เมษายน 2023
-
ลิงก์อ้างอิงใน Wikipedia
- สุ่มตัวอย่างหน้า English Wikipedia จำนวน 50,000 หน้า
- 82% ของหน้าที่เก็บรวบรวมมีลิงก์อ้างอิงอย่างน้อยหนึ่งลิงก์ และ 11% ของลิงก์อ้างอิงอยู่ในสถานะที่ไม่สามารถเข้าถึงได้อีกต่อไป
- สุ่มตัวอย่างหน้า English Wikipedia จำนวน 50,000 หน้า
-
โพสต์บน Twitter
- เก็บรวบรวมทวีต 5 ล้านรายการในช่วงฤดูใบไม้ผลิปี 2023 และติดตามเป็นเวลา 3 เดือน
- 18% ของทวีตที่เก็บรวบรวมไม่สามารถมองเห็นแบบสาธารณะได้อีกต่อไปเมื่อสิ้นสุดช่วงติดตาม
- 60% ของทวีตที่หายไปเกิดจากบัญชีถูกตั้งค่าเป็นส่วนตัว ถูกระงับ หรือถูกลบ
- 1% ของทวีตถูกลบภายใน 1 ชั่วโมง, 3% ภายใน 1 วัน, 10% ภายใน 1 สัปดาห์ และ 15% ภายใน 1 เดือน
- เก็บรวบรวมทวีต 5 ล้านรายการในช่วงฤดูใบไม้ผลิปี 2023 และติดตามเป็นเวลา 3 เดือน
-
การวิเคราะห์การอยู่รอดของทวีต
- ครึ่งหนึ่งของทวีตที่หายไปจะหายไปภายใน 6 วันแรกหลังโพสต์
- 90% ของทวีตจะกลายเป็นไม่สามารถเข้าถึงได้ภายใน 46 วันหลังโพสต์
- มี 6% ของทวีตที่เคยถูกลบแต่ภายหลังกลับมาเป็นสาธารณะอีกครั้ง
1 ความคิดเห็น
ความเห็นจาก Hacker News
สรุปรวมความคิดเห็นจาก Hacker News
ปัญหาของหน้า Facebook
ความพยายามในการเก็บถาวร
การสนับสนุน Internet Archive
ประสบการณ์ในการดูแลเว็บไซต์ข่าว
กราฟอายุขัยของเว็บไซต์
ปัญหาของเว็บไซต์ในอดีต
ความไม่ถาวรของอินเทอร์เน็ต
ปัญหา SEO
ปัญหาลิงก์เสีย
ความสำคัญของการลืมและการให้อภัย