38% ของหน้าเว็บที่มีอยู่ในปี 2013 ไม่สามารถเข้าถึงได้หลังผ่านไป 10 ปี

(pewresearch.org)

1 คะแนน โดย GN⁺ 2024-05-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

แม้ว่าเว็บจะดูเหมือนเป็นบันทึกถาวร แต่จากตัวอย่างของ Pew Research Center พบว่า ณ เดือนตุลาคม 2023 หน้าเว็บที่เคยมีอยู่ในช่วงปี 2013~2023 จำนวน 25% หายไปแล้ว และในบรรดาหน้าที่อยู่ในปี 2013 นั้น 38% ไม่สามารถเข้าถึงได้
ในการนับครั้งนี้ คำว่า ไม่สามารถเข้าถึงได้ ไม่ได้หมายถึงการเปลี่ยนแปลงเนื้อหาหรือปัญหาด้านการเข้าถึง แต่จำกัดเฉพาะ รหัสข้อผิดพลาด 9 แบบ ที่ชี้ชัดว่าหน้าเว็บหรือโฮสต์เซิร์ฟเวอร์หายไปแล้ว
เมื่อตรวจสอบลิงก์ของรัฐบาล ข่าว และ Wikipedia ในช่วงฤดูใบไม้ผลิปี 2023 พบว่าเว็บเพจข่าว 23%, เว็บเพจภาครัฐ 21% และหน้า English Wikipedia 54% มีลิงก์เสียอย่างน้อย 1 ลิงก์
จากการติดตามทวีตสาธารณะราว 5 ล้านรายการ บน X ซึ่งในขณะนั้นยังใช้ชื่อ Twitter เป็นเวลา 3 เดือน พบว่า 18% ไม่ปรากฏต่อสาธารณะอีกต่อไป โดยในจำนวนนี้ 60% เกิดจากการตั้งค่าบัญชีเป็นส่วนตัว การระงับบัญชี หรือการลบบัญชี
คอนเทนต์กำลังหายไปทั่วทั้งหน้าเว็บ เอกสารจากหน่วยงานรัฐ ลิงก์ข่าว เอกสารอ้างอิงใน Wikipedia และโพสต์บนโซเชียล โดยยิ่งเป็นข้อมูลเก่ายิ่งเห็นปรากฏการณ์ digital decay ชัดเจนขึ้น

หน้าเว็บที่หายไปในช่วง 10 ปี

อินเทอร์เน็ตถูกใช้เป็นแหล่งเก็บข้อมูลของชีวิตสมัยใหม่ เช่น หนังสือ รูปภาพ และบทความข่าว แต่คอนเทนต์บางส่วนจะมองไม่เห็นอีกต่อไปเมื่อเวลาผ่านไป
Pew Research Center ตรวจสอบตัวอย่างหน้าเว็บที่เคยมีอยู่ระหว่างปี 2013~2023 ว่ายังเข้าถึงได้หรือไม่ ณ เดือนตุลาคม 2023
ในตัวอย่างทั้งหมด หน้าเว็บที่เคยมีอยู่ 25% ไม่สามารถเข้าถึงได้อีกต่อไป
- 16% คือกรณีที่ root domain ยังทำงาน แต่หน้าเพจนั้นเข้าถึงไม่ได้
- 9% คือกรณีที่ root domain ทั้งหมดไม่ทำงานแล้ว จึงไม่สามารถเข้าถึงได้
ยิ่งเป็นหน้าเว็บเก่า สัดส่วนที่หายไปยิ่งสูง
- ใน snapshot ปี 2013 หน้าเว็บ 38% ไม่สามารถเข้าถึงได้ในปี 2023
- ใน snapshot ปี 2023 หน้าเว็บ 8% ไม่สามารถเข้าถึงได้
- แม้แต่ snapshot ปี 2021 ก็มีหน้าเว็บประมาณ 1 ใน 5 ที่เข้าถึงไม่ได้หลังจากนั้น 2 ปี

เกณฑ์ที่ใช้ตัดสินว่าเข้าถึงไม่ได้

ในการวิเคราะห์นี้ คำว่า ไม่สามารถเข้าถึงได้ จำกัดเฉพาะกรณีที่หน้าเว็บไม่มีอยู่อีกต่อไป
- เช่น กรณีที่โฮสต์เซิร์ฟเวอร์หรือหน้าเว็บหายไป และมักแสดงข้อผิดพลาดของเซิร์ฟเวอร์อย่าง 404 Not Found
กรณีต่อไปนี้อยู่นอกขอบเขตของงานวิจัยครั้งนี้
- ที่อยู่หน้าเว็บยังมีอยู่ แต่เนื้อหาเปลี่ยนไปจากเดิมอย่างมาก
- หน้าเว็บยังมีอยู่ แต่ผู้ใช้บางกลุ่ม เช่น ผู้พิการทางสายตา อ่านได้ยากหรืออ่านไม่ได้
การตัดสินสถานะของหน้าเว็บยังมีความกำกวมอยู่
- รหัสสถานะข้อผิดพลาดมีอยู่หลายสิบแบบ และบางแบบก็ไม่ชัดเจนว่าเป็นการหายไปถาวรหรือเป็นเพียงปัญหาชั่วคราว
- หลายเว็บไซต์ป้องกันการเก็บข้อมูลอัตโนมัติด้วยเหตุผลด้านความปลอดภัย
ดังนั้นจึงใช้เกณฑ์ที่ระมัดระวังที่สุด โดยนับว่าเข้าถึงไม่ได้เฉพาะ รหัสข้อผิดพลาด 9 แบบ ที่ชี้ชัดว่าหน้าเว็บหรือโฮสต์เซิร์ฟเวอร์ไม่มีอยู่อีกต่อไปหรืออยู่ในสภาพที่ไม่ทำงาน
รายการรหัสข้อผิดพลาดทั้งหมดรวมอยู่ใน methodology

ตัวอย่างหน้าเว็บจาก Common Crawl

การวิเคราะห์นี้ใช้บริการอินเทอร์เน็ตอาร์ไคฟ์ Common Crawl เพื่อสุ่มเก็บหน้าเว็บของแต่ละปีตั้งแต่ 2013~2023
ตัวอย่างทั้งหมดมีหน้าเว็บน้อยกว่า 1 ล้านหน้า เล็กน้อย และมีประมาณ 90,000 หน้า ต่อปี
ณ เดือนตุลาคม 2023 ตัวอย่างทั้งหมดจากปี 2013~2023 มี 25% ที่ไม่สามารถเข้าถึงได้
หน้าเว็บที่เข้าถึงไม่ได้แบ่งเป็น 2 ประเภท
- หน้าเพจหายไป แต่ root domain ยังทำงาน: 16%
- root domain ทั้งหมดไม่ทำงานอีกต่อไป: 9%
ยิ่ง snapshot เก่านานเท่าไร อัตราการเข้าถึงไม่ได้ยิ่งสูงขึ้น และหน้าเว็บปี 2013 มี 38% ที่ไม่มีอยู่อีกต่อไป

ลิงก์เสียบนเว็บไซต์ภาครัฐ

การวิเคราะห์เว็บไซต์ภาครัฐใช้ตัวอย่างราว 500,000 หน้า จาก snapshot เดือนมีนาคม~เมษายน 2023 ของ Common Crawl
ตัวอย่างนี้ครอบคลุมเว็บไซต์ภาครัฐหลายระดับ ทั้งรัฐบาลกลาง รัฐ และท้องถิ่น
ลิงก์ที่พบบนเว็บเพจภาครัฐทั้งหมดมี 42 ล้านลิงก์
- 86% เป็นลิงก์ภายในที่เชื่อมไปยังหน้าอื่นในเว็บไซต์เดียวกัน
- เว็บเพจภาครัฐประมาณ 3 ใน 4 มีลิงก์อย่างน้อย 1 ลิงก์
- จำนวนลิงก์ต่อหน้าตามค่ามัธยฐานคือ 50 ลิงก์
- หน้าเว็บในกลุ่มบนสุด 10% มี 190 ลิงก์ และกลุ่มบนสุด 1% มี 740 ลิงก์
มีการตรวจสอบรูปแบบของลิงก์ด้วย
- ส่วนใหญ่เชื่อมไปยังหน้า HTTP แบบปลอดภัยที่ขึ้นต้นด้วย https://
- 6% เชื่อมไปยังไฟล์คงที่ เช่น PDF
- 16% ถูก redirect ไปยัง URL อื่นที่ไม่ใช่ URL เดิม
เมื่อติดตามลิงก์ไปตรวจสอบ พบว่า 6% ของลิงก์บนเว็บไซต์ภาครัฐไม่สามารถเข้าถึงได้อีกต่อไป
เว็บเพจภาครัฐทั้งหมดที่ตรวจสอบมี 21% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
- อัตราการใช้งานไม่ได้ของลิงก์ภายในและลิงก์ภายนอกใกล้เคียงกัน
- ในทุกระดับของหน่วยงานรัฐ มีอย่างน้อย 14% ของหน้าเว็บที่มีลิงก์เสีย
- หน้าเว็บของเทศบาลมีสัดส่วนลิงก์เสียสูงที่สุด

ลิงก์เสียบนเว็บไซต์ข่าว

การวิเคราะห์เว็บไซต์ข่าวใช้ตัวอย่างราว 500,000 หน้า จากเว็บไซต์ 2,063 แห่ง ที่ comScore จัดอยู่ในหมวด “News/Information”
หน้าเว็บถูกเก็บจาก snapshot เดือนมีนาคม~เมษายน 2023 ของ Common Crawl
ตัวอย่างเว็บไซต์ข่าวมีลิงก์ที่เชื่อมออกไปยังเว็บไซต์ภายนอกมากกว่า 14 ล้านลิงก์
- ไม่มีการเก็บหรือตรวจสอบการทำงานของลิงก์ภายใน
- 94% ของหน้าเว็บข่าวมีลิงก์ภายนอกอย่างน้อย 1 ลิงก์
- จำนวนลิงก์ต่อหน้าตามค่ามัธยฐานคือ 20 ลิงก์
- หน้าเว็บในกลุ่มบนสุด 10% ตามจำนวนลิงก์มี 56 ลิงก์
ลิงก์ของเว็บไซต์ข่าวส่วนใหญ่เชื่อมไปยังหน้า HTTP แบบปลอดภัยที่ขึ้นต้นด้วย https://
- ประมาณ 12% เชื่อมไปยังไฟล์คงที่ เช่น PDF
- 32% ถูก redirect ไปยัง URL อื่นที่ไม่ใช่ URL เดิม
- สัดส่วน redirect ของลิงก์ภายนอกบนเว็บไซต์ภาครัฐอยู่ที่ 39%
เมื่อติดตามลิงก์ของเว็บไซต์ข่าว พบว่า 5% ของลิงก์ทั้งหมดไม่สามารถเข้าถึงได้
หน้าเว็บข่าวในตัวอย่างมี 23% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
- ในหน้าเว็บของเว็บไซต์ข่าวที่มีทราฟฟิกสูงสุด 20% มี 25% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
- ในหน้าเว็บของเว็บไซต์ข่าวที่มีทราฟฟิกต่ำสุด 20% มี 26% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
- แทบไม่มีความแตกต่างของสัดส่วนลิงก์เสียตามขนาดทราฟฟิก

ลิงก์อ้างอิงใน Wikipedia

การวิเคราะห์นี้สุ่มเก็บหน้า English Wikipedia จำนวน 50,000 หน้า แล้วตรวจสอบลิงก์ในส่วน “References”
82% ของหน้าตัวอย่างมีลิงก์อ้างอิงอย่างน้อย 1 ลิงก์ที่เชื่อมไปยังเว็บเพจนอก Wikipedia
ตัวอย่างทั้งหมดมีลิงก์อ้างอิงรวมกัน มากกว่า 1 ล้านลิงก์เล็กน้อย
จำนวนลิงก์อ้างอิงของหน้าทั่วไปคือ 4 ลิงก์
11% ของลิงก์อ้างอิงทั้งหมดใน Wikipedia ไม่สามารถเข้าถึงได้อีกต่อไป
ในบรรดาหน้าที่มีลิงก์อ้างอิง ประมาณ 2% มีลิงก์เสียหรือเข้าถึงไม่ได้ทั้งหมด
และอีก 53% ของหน้ามีลิงก์เสียอย่างน้อย 1 ลิงก์

การหายไปของโพสต์บน X/Twitter

การวิเคราะห์โซเชียลมีเดียนี้เก็บทวีตสาธารณะราว 5 ล้านรายการ แบบเรียลไทม์จาก X ซึ่งในขณะนั้นยังใช้ชื่อ Twitter ระหว่างวันที่ 8 มีนาคม~27 เมษายน 2023
การเก็บข้อมูลใช้ Twitter Streaming API และเก็บทวีตสาธารณะ 3,000 รายการ ทุก 30 นาที
การติดตามดำเนินต่อไปจนถึงวันที่ 15 มิถุนายน 2023 และตรวจสอบทุกวันว่าทวีตแต่ละรายการยังเข้าถึงได้บนเว็บไซต์หรือไม่
เมื่อสิ้นสุดการสังเกตการณ์ 18% ของทวีตที่เก็บครั้งแรกไม่ปรากฏต่อสาธารณะอีกต่อไป
- 60% เกิดจากบัญชีต้นทางเปลี่ยนเป็นส่วนตัว ถูกระงับ หรือถูกลบ
- 40% เป็นกรณีที่บัญชียังอยู่ แต่ทวีตรายนั้นถูกลบ

ลักษณะของทวีตที่หายไปบ่อยกว่า

ทวีตที่เขียนด้วยบางภาษามีแนวโน้มจะหายไปมากกว่า
- ทวีตภาษาตุรกีเกือบครึ่งหนึ่งไม่สามารถเข้าถึงได้อีกต่อไปเมื่อสิ้นสุดการติดตาม
- ทวีตภาษาอาหรับก็หายไปในสัดส่วนที่ต่ำกว่านี้เล็กน้อย
- โดยสรุปแล้ว ทวีตภาษาตุรกีหรือภาษาอาหรับ มากกว่า 40% หายไปภายใน 3 เดือน
ทวีตจากบัญชีที่ใช้การตั้งค่าโปรไฟล์เริ่มต้นก็หายไปบ่อยกว่าเช่นกัน
- ทวีตจากบัญชีที่ใช้รูปโปรไฟล์เริ่มต้น มากกว่าครึ่ง ไม่สามารถเข้าถึงได้อีกต่อไป
- ทวีตจากบัญชีที่ใช้ช่องแนะนำตัวเริ่มต้น มากกว่า 1 ใน 3 ไม่สามารถเข้าถึงได้อีกต่อไป
- ทวีตจากบัญชีลักษณะนี้มักหายไปเพราะลบบัญชีหรือเปลี่ยนเป็นส่วนตัว มากกว่าการลบทวีตรายการเดี่ยว
ทวีตจากบัญชีที่ไม่ได้รับการยืนยันก็มีโอกาสถูกลบหรือถูกนำออกสูงกว่าเช่นกัน
โดยทั่วไป ทวีตที่หายไปมักใหม่กว่า และมาจากบัญชีที่มีผู้ติดตามค่อนข้างน้อยและมีกิจกรรมระดับปานกลาง
- บัญชีที่โพสต์ทวีตซึ่งมองไม่เห็นแล้ว มีอายุบัญชีใหม่กว่าโดยเฉลี่ยประมาณ 8 เดือน เมื่อเทียบกับบัญชีที่โพสต์ทวีตซึ่งยังคงมองเห็นได้
รีทวีต ทวีตอ้างอิง และทวีตต้นฉบับไม่ได้แตกต่างจากค่าเฉลี่ยรวมมากนัก
ส่วน reply ถูกนำออกน้อยกว่าเมื่อเทียบกัน โดยมีอัตราเข้าถึงไม่ได้เมื่อสิ้นสุดการติดตามที่ 12%

ความเร็วในการหายไปและการกลับมาของทวีต

ทวีตส่วนใหญ่ที่ถูกนำออกมักหายไปค่อนข้างเร็วหลังจากโพสต์
จากการวิเคราะห์การอยู่รอด ช่วงเวลาที่ทวีตถูกนำออกมีดังนี้
- 1% ถูกนำออกภายใน 1 ชั่วโมงหลังโพสต์
- 3% ถูกนำออกภายใน 1 วัน
- 10% ถูกนำออกภายใน 1 สัปดาห์
- 15% ถูกนำออกภายใน 1 เดือน
ครึ่งหนึ่งของทวีตที่ท้ายที่สุดถูกนำออก จะเข้าถึงไม่ได้ภายใน 6 วัน หลังโพสต์
90% ของทวีตที่ท้ายที่สุดถูกนำออก จะเข้าถึงไม่ได้ภายใน 46 วัน หลังโพสต์
ทวีตไม่ได้หายไปอย่างถาวรเสมอไป
- 6% ของทวีตที่เก็บมาหายไปแล้วกลับมาเข้าถึงได้อีกในภายหลัง
- สาเหตุอาจเป็นเพราะบัญชีเปลี่ยนจากส่วนตัวกลับมาเป็นสาธารณะ หรือได้รับการกู้คืนหลังถูกระงับ
- 90% ของทวีตที่กลับมาปรากฏอีกครั้งยังคงเข้าถึงได้บน Twitter เมื่อสิ้นสุดการติดตาม

1 ความคิดเห็น

GN⁺ 2024-05-20

ความคิดเห็นจาก Hacker News

ปัญหาที่ใหญ่กว่าการที่เว็บเพจ 38% หายไป คือทุกวันนี้ องค์กร·กลุ่ม·ธุรกิจ จำนวนมากแทบจะใช้แค่เพจ Facebook และไม่มีตัวตนบนเว็บนอก Facebook เลย
สุดท้ายแล้ว ถ้าจะโต้ตอบกับพวกเขา บัญชี Facebook ก็กลายเป็นสิ่งจำเป็น
- ฟอรัมก็เป็นแบบเดียวกัน
  ตอนนี้ทุกอย่างย้ายไปอยู่ใน subreddit, กลุ่ม Facebook และแชต Discord หมดแล้ว น่าเสียดายมากที่ข้อมูลมีค่าถูกซ่อนอยู่ในกลุ่มเหล่านั้น
- ผมใช้ Facebook แค่เพื่อติดต่อกับญาติ ๆ ที่อยู่ไกลกัน
  ประมาณว่าเข้าไปดูวันละครั้งว่ามีอะไรเกิดขึ้นบ้าง และถ้ามีบัญชี ลิงก์นี้จะทำให้เรื่องนั้นง่ายขึ้นมาก: https://www.facebook.com/?filter=friends
- ผมสงสัยว่ามีธุรกิจที่ขนาดใหญ่พอสมควรที่ใช้ แค่ Facebook จริง ๆ หรือเปล่า
  ธุรกิจท้องถิ่นแถวบ้านผมมีข้อมูลบน Google Maps ค่อนข้างเยอะ และถึงจะมีเว็บไซต์ก็มักจะเก่า แต่ถ้าโทรไปโดยตรงก็ได้คำตอบที่อยากรู้
- 38% ของเว็บยุคก่อนเป็นพื้นที่ที่หลากหลาย มีเจตนาแอบแฝงน้อย และสร้างโดยมือสมัครเล่นในความหมายที่ดี
  ตอนนี้เว็บใหญ่ขึ้นมาก แต่ก็เป็นเนื้อเดียวกันมากขึ้นมาก ผมเดาว่าสัดส่วนแบบนั้นคงเหลือราว 0.00001% และผมคิดว่า เว็บไซต์ Web 1.0 ดีกว่า “เพจกลุ่ม” แบบปิดในปัจจุบัน
- เคยไปร้านอาหารที่ลงเมนูดิจิทัลไว้ บน Facebook เท่านั้น
  พอบอกว่าไม่ได้ใช้ Facebook เขาก็มองผมเหมือนเป็นคนประหลาด
ถึงอย่างนั้น เว็บไซต์ดี ๆ ก็ยังพยายามอยู่บ้างในการเก็บรักษาเนื้อหาเก่า
ตัวอย่างเช่น หน้ารายงานข่าวของ CNN และ BBC ตอนเหตุการณ์โจมตี 9/11 ยังอยู่: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
คงคาดหวังไม่ได้ว่าลิงก์จำนวนมากจะทำงานได้ถูกต้อง แต่แค่ได้เห็นว่าเว็บสมัยก่อนหน้าตาเป็นอย่างไรก็น่าสนใจแล้ว
- องค์ประกอบแบบโต้ตอบ บางส่วนของรายงานการเลือกตั้งเก่า ๆ ของ BBC ยังแทบจะใช้งานได้อยู่จนถึงตอนนี้
  ยากที่จะจินตนาการว่าอีก 20 ปีข้างหน้า เว็บไซต์จำนวนมากในปัจจุบันจะยังคงอยู่แบบนั้น และดูเหมือนว่าไม่ใช่เพราะเป็นไปไม่ได้ทางเทคนิค แต่คล้ายกับคุณภาพงานเขียนที่แย่ลงหลังมีการประดิษฐ์โปรแกรมประมวลผลคำ
  ตอนนี้ทุกอย่างถูกจัดการและจัดโครงสร้าง จนรู้สึกว่าอิสระและความฟูฟ่องที่เคยทำให้เราสร้างสิ่งดี ๆ ได้ในแบบที่อธิบายง่าย ๆ ไม่ได้หายไปแล้ว
ถ้าอยากสนับสนุนความพยายามในการเก็บรักษาเนื้อหาเก่า ๆ และเนื้อหาอื่น ๆ ก็ควรบริจาคให้ Internet Archive (archive.org) แม้เพียงไม่กี่ปอนด์
และสิ่งใดที่รู้สึกว่ามีคุณค่า ก็ควรทำสำเนาไว้ในเครื่องเท่าที่ทำได้ เผื่อว่าสักวันมันจะหายไป
หน้าเทคนิคจำนวนมากในไฟล์บุ๊กมาร์กของผมที่ย้ายข้ามการติดตั้งระบบต่าง ๆ มานานกว่า 20 ปี ตอนนี้ชี้ไปยังแบ็กอัปฉบับสมบูรณ์สุดท้ายก่อนที่หน้าต้นฉบับจะหายไป
Internet Archive เป็นประโยชน์มหาศาลต่อทุกคน
- ผมรู้ตัวว่าใช้บุ๊กมาร์กมากเกินไป
  ตอนนี้ถ้ามีข้อมูลอย่างบทความที่ลึกซึ้ง ข้อมูลเทคนิค หรือมุกตลกที่อยากอ้างอิงในภายหลัง ผมจะบันทึกเว็บเพจเป็น PDF หรือรูปแบบอื่น
  บุ๊กมาร์กเหมาะกับสิ่งที่มีค่าเมื่อเข้าถึงเวอร์ชันล่าสุดเท่านั้น เช่น เว็บไซต์ธนาคาร เว็บไซต์ช็อปปิง หรือระบบรีโมตเดสก์ท็อปของบริษัท
- อยากให้ Internet Archive แยกเป็นสองนิติบุคคลอิสระ
  ฝั่งหนึ่งทำแค่การเก็บรักษาเว็บไซต์ ส่วนอีกฝั่งรับงานที่เหลือ เช่น การทดสอบทรัพย์สินทางปัญญาเชิงรุกเกี่ยวกับอีบุ๊กหรือวิดีโอเกม
  แบบนั้นต่อให้ “อีกฝั่ง” ล้มเพราะคดีความ การเก็บรักษาเว็บไซต์ก็ยังคงอยู่ได้ ฝั่งแรกเป็นบริการที่สำคัญต่อมนุษยชาติ ผมเลยบริจาคให้ แต่ก็เป็นห่วงอนาคต
ผมดูแลเว็บไซต์ข่าวมาตั้งแต่ปี 2019
ทุกชั่วโมง crawler จะค้นหา ลิงก์ตาย และเปลี่ยนเป็นลิงก์ archive.org ประมาณวันละหนึ่งลิงก์
เรื่องที่ตลกที่สุดคือเว็บไซต์ของผู้สมัครเลือกตั้งกลายเป็นหน้าว่างทั้งหมดในวันถัดจากการเลือกตั้ง ส่วนเรื่องที่เศร้าที่สุดคือเว็บไซต์รัฐบาลที่ล่มทุกสัปดาห์ตั้งแต่ตี 3 ถึงตี 5
- น่าสนใจนะ crawler ตัวนั้นตรวจลิงก์ทั้งหมดทุกชั่วโมงเลยหรือว่าแบ่งเป็นชุด ๆ แล้วค่อยรัน?
จริง ๆ แล้วผมแปลกใจที่ตัวเลขไม่ได้สูงกว่านี้
ปี 2013 เป็นช่วงหลังจากยุคเว็บไซต์งานอดิเรกของอินเทอร์เน็ตยุคแรกมานานแล้ว และเป็นช่วงที่เว็บไซต์ใหม่ส่วนใหญ่มีวัตถุประสงค์ทางธุรกิจ
เมื่อคิดถึงอายุขัยของธุรกิจ ผมคาดว่าอีก 11 ปีให้หลัง เว็บไซต์น่าจะหายไปมากกว่านี้มาก
บางทีการตายของ พื้นที่สร้างคอมมูนิตี้ อย่าง Angelfire, Geocities จำนวนมากอาจเป็นสัดส่วนใหญ่ก็ได้
โดยเฉพาะถ้ามีกราฟแสดงว่าเว็บไซต์อยู่ได้นานแค่ไหนก็น่าจะน่าสนใจ เนื้อหายุคแรก ๆ ยังเหลืออยู่ค่อนข้างมาก และผมคิดว่าช่วงราวปี 2008–2018 น่าจะเป็นจุดสูงสุดของการหายไปของเว็บไซต์
- เนื้อหายุคแรกจำนวนมากเคยอยู่บนแพลตฟอร์มที่ตายไปนานแล้ว
  เช่น Geocities, โฟลเดอร์ FTP ที่มหาวิทยาลัยให้และจะถูกลบหลังเรียนจบ, โฟลเดอร์ FTP ที่ ISP อย่าง Earthlink·Juno·Comcast ให้มา และมีความเป็นไปได้สูงว่าส่วนใหญ่ถูกลบไปแล้ว
ผมไม่อยากให้ทุกอย่างคงอยู่ตลอดไป
ไม่นานมานี้บังเอิญเจอ .com แรกของผมที่ทำไว้ในยุค 90 โฮสต์อยู่บน Angelfire และ archive.org ก็เก็บรักษาซ้ำไว้อย่างขยันขันแข็ง ผลลัพธ์ก็เป็นอย่างที่คุณจินตนาการนั่นแหละ
เป็นเว็บเพจที่ผมทำกับเพื่อนตอน ป.4 ถ้าวัดตามมาตรฐานตอนนั้นก็ถือว่าโอเค แต่ถ้าวัดตามมาตรฐานตอนนี้ ต่อให้เข้าใจบริบทแล้วก็ยังมีเนื้อหาบางอย่างที่ไม่โอเค
มันไม่ได้เลวร้ายสุด ๆ แต่เป็นเนื้อหารสนิยมแย่ที่เกิดจากความไม่รู้แบบไร้เดียงสาของเด็กประถมยุค 90 และคงไม่ถูกลบออกจากมโนธรรมได้หมด ดังนั้นก็คงต้องรับมันไว้และได้แต่หวังว่าจะไม่มีใครเห็น
- ผมก็มีข้อมูลคล้าย ๆ กัน
  ถ้าจะช่วยปลอบใจได้ พวกเราทุกคนก็แค่เป็นเด็กหรือวัยรุ่น และกำลังเรียนรู้โลกอยู่
  ผมรู้สึกสงสารคนรุ่นหลังเรามากกว่า เพราะพวกเขาเติบโตขึ้นหลังจากอินเทอร์เน็ตกลายเป็นพื้นที่ที่เข้าถึงได้ง่ายขึ้น และบางครั้งก็ถาวรมากขึ้น
- เข้าใจความเจ็บปวดนั้นเลย
  โชคดีที่บางครั้ง archive ก็ยอมลบข้อมูลลงให้
ทุกสิ่งบนอินเทอร์เน็ตโดยเนื้อแท้แล้วเป็นสิ่ง ชั่วคราว
แทนที่จะต่อต้านมัน ยอมรับมันน่าจะดีกว่า และถ้าอยากเก็บอะไรไว้ ก็ทำสำเนาแบบออฟไลน์ไว้ก็พอ
PDF/A โดยเฉพาะเวอร์ชัน -1 และ -2 เป็นฟอร์แมตที่ออกแบบมาอย่างชัดเจนเพื่อการเก็บรักษา และเหมาะกับคอนเทนต์แบบสแตติก
เพียงแต่น่าเสียดายที่การทำมิเรอร์ไม่ได้ถูกฝังอยู่ในเว็บสแตกอย่าง HTTP/HTML ให้ทำได้ง่ายกว่านี้ ถ้าสามารถสร้างลิงก์ที่มีสำเนาโลคัลเป็นเส้นทางสำรองได้ง่าย ๆ ปัญหา link rot ก็คงน่ากังวลน้อยลงมาก
ส่วนตัวแล้ว วิธีที่ Wikipedia ลิงก์ทุกอย่างผ่าน archive.org ดูเหมือนเป็นทางแก้ขัดอยู่บ้าง
พูดตรง ๆ น่าแปลกใจที่ตัวเลขต่ำขนาดนั้น
เว็บส่วนใหญ่ทุกวันนี้ดูเหมือน ขยะเพื่อทำ SEO
- บางครั้งก็ทดลองอะไรบางอย่าง ทำเว็บเล็ก ๆ ขึ้นมา แล้วพอลืมทิ้งไว้สักพักและเห็นว่าไม่เกี่ยวข้องอีกต่อไป ก็ปิดมันลง
  เรื่องนั้นเองก็ไม่ได้แย่
  แต่การมีสิ่งอย่างเว็บอาร์ไคฟ์ที่ช่วยปกป้องความทรงจำร่วมของเราไว้สำหรับคอนเทนต์ที่มีคุณค่า ก็เป็นเรื่องยอดเยี่ยม
  โดยเฉพาะอย่างยิ่ง บันทึกที่ถูกเขียนขึ้นอย่างถูกต้องในขณะที่เหตุการณ์กำลังเกิดขึ้น ควรถูกเก็บรักษาไว้ในที่ใดที่หนึ่งซึ่งไม่สามารถเปลี่ยนแปลงได้ภายหลัง ทุกวันนี้ดูเหมือนการเขียนประวัติศาสตร์ใหม่จะเป็นที่นิยม การเก็บบันทึกต้นฉบับ ณ เวลานั้นไว้จึงช่วยต้านทานสิ่งนั้นได้
  แม้บันทึกนั้นจะไม่ได้ถูกต้องสมบูรณ์ทั้งหมด ก็ยังช่วยให้เข้าใจได้ว่าผู้กระทำในเวลานั้นเชื่อว่าอะไรคือความจริง
- บางอย่างยังคงมีอยู่ เพียงแต่ ไม่ถูกแสดงบน Google อีกต่อไป เท่านั้น
ผมมองว่านี่เป็นความล้มเหลวร้ายแรงของอินเทอร์เน็ตที่พวกเรา collectively ควรหลีกเลี่ยงได้ดีกว่านี้
ในกรณีส่วนใหญ่ คอนเทนต์เองน่าจะยังอยู่ที่ไหนสักแห่ง เพียงแต่ลิงก์เสียไปเท่านั้น
ระบบสองชั้น แบบระบบ DOI ที่ห้องสมุดใช้ อาจช่วยในกรณีแบบนี้ได้: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
แต่ถ้าจะรักษาประโยชน์ใช้สอยและความสะดวกของ URL ไว้ ก็คงต้องทำให้จัดการได้โดยอัตโนมัติ ซึ่งผมก็ไม่แน่ใจว่าจะเป็นไปได้อย่างไร
นี่ไม่ใช่บั๊ก แต่เป็นฟีเจอร์
คงเลวร้ายมากถ้าเราอยู่ในโลกที่ไม่ลืมและไม่ให้อภัย
การที่การเก็บรักษาคอนเทนต์ที่มีคุณค่าต้องใช้ความพยายามในระดับหนึ่งก็เป็นเรื่องดี เพราะจะทำให้คุณค่าของมันได้รับการยอมรับมากขึ้น
- “โลกที่ไม่ลืมและไม่ให้อภัย” เป็นปัญหาคนละเรื่อง และหลัก ๆ มองได้ว่าเป็นปัญหาเรื่อง ความเป็นส่วนตัว
  ตรรกะที่ว่า “คอนเทนต์ที่มีคุณค่าควรต้องใช้ความพยายามในการเก็บรักษา คุณค่าจึงจะได้รับการยอมรับมากขึ้น” ฟังดูแทบเหมือนการอ้างว่าทุกอย่างควรมีราคาแพง
  ประมาณว่า สตอเรจราคาถูกเป็นเรื่องไม่ดีเพราะทำให้เราไม่เห็นคุณค่าของไฟล์ ส่วนการรักษาพยาบาลราคาแพงเป็นเรื่องดีเพราะทำให้เราตระหนักถึงคุณค่าของอวัยวะ
  ส่วนที่ยากคือการคาดการณ์ว่าในอนาคตคอนเทนต์ใดจะถูกมองว่ามีคุณค่า จนถึงตอนนี้ยังไม่มีอารยธรรมมนุษย์ใดหาคำตอบนั้นได้ดีนัก และโดยมากก็มุ่งเก็บรักษาเรื่องว่ากษัตริย์ยิ่งใหญ่เพียงใด
- ในวันที่ Apple เข้าซื้อ NeXT ผมเคยอ่านบทความที่ตลกมากจากที่ไหนสักแห่งบนอินเทอร์เน็ต
  มันเริ่มต้นว่า “เหล่าลูกหลานแห่ง Macintosh จงคุกเข่าต่อหน้า Unix…” และทั้งบทความคงสำนวนแบบคัมภีร์ไบเบิลไว้ พร้อมอธิบายว่าทำไม Mac จึงถูก NeXT พิชิต
  เป็นบทความที่ยอดเยี่ยมจริง ๆ จนบางครั้งผมพยายามค้นหาอีกครั้งบนอินเทอร์เน็ต แต่ถ้าเราไม่รู้ว่าอะไรหายไป ก็ยากที่จะรู้ได้
- คุณคิดว่าเราใช้ชีวิตอยู่ที่ไหนมาตลอด 5,000 ปีที่ผ่านมา?
  เรามี แผ่นดินเหนียวอักษรลิ่ม ที่ขุดพบจากกองขยะของ Ur และด้วยสิ่งนั้น ความรู้เล็กน้อยที่เรามีเกี่ยวกับ Sumer จึงยังคงหลงเหลืออยู่
  การประดิษฐ์ตัวอักษรทำให้การหลงลืมเป็นไปไม่ได้ และนักมานุษยวิทยาอย่าง Jack Goody, James Carey, David Olson, Barry Powell รวมถึงผู้เขียนอย่าง Walter Ong ได้ศึกษาประเด็นนี้อย่างลึกซึ้ง
  จริง ๆ แล้วเราอาศัยอยู่ในโลกอันเลวร้ายที่ส่วนใหญ่ติดอยู่กับอดีต และความซับซ้อนทางวัฒนธรรมก็ทับซ้อนกันเป็นชั้น ๆ เหมือนเปลือกหัวหอม
  ใคร ๆ ก็ย้อนกลับไปหาอดีตและโหยหามันได้ แต่อดีตที่เข้าถึงผ่านความรู้ที่ถูกจัดเก็บไว้ ย่อมมีความหมายแตกต่างกันสำหรับคนที่ไม่ได้มีประสบการณ์ตรง
  หลังยุคแท่นพิมพ์ เราอยู่ท่ามกลาง เงินเฟ้อของข้อมูล มาโดยตลอด นักวิชาการยุคกลางบ่นว่าเพราะแท่นพิมพ์ ใคร ๆ ก็อ่านและเขียนหนังสือได้ นักสโกลาสติกตกใจกับการเติบโตของภาษาพูด และ Michelangelo ก็บ่นถึงศิลปะอันว่างเปล่าของจิตรกร Flemish
  ประเด็นสำคัญตรงนี้คือความเร็วที่การเสื่อมสลายเกิดขึ้น บทความบอกว่า 38% ของไซต์ที่มีอยู่ในปี 2013 หายไปแล้ว แต่นั่นเพียงแค่ 10 ปีเท่านั้น
  เราไม่รู้ว่าในนั้นมีเสียงรบกวนมากแค่ไหน และมีข้อมูลที่เป็นประโยชน์หรืออย่างน้อยก็เป็นคอนเทนต์ที่น่าสนใจมากแค่ไหน เพราะมันหายไปแล้ว
  เราไม่รู้ด้วยว่าเว็บสแครปเปอร์รายใหญ่เก็บไว้มากแค่ไหน หรือ Google กับ Twitter เก็บไว้มากเท่าไร
  เราจะนิยามคอนเทนต์ที่มีคุณค่าอย่างไร? เป็นทวีตรูปนักแสดงหญิงกึ่งเปลือยที่มียอดวิว 1 ล้านครั้ง หรือทวีตการค้นพบครั้งสำคัญที่มียอดวิว 300 ครั้ง?
  ตอนที่อินเทอร์เน็ตทำลายผู้เฝ้าประตูอย่างบรรณาธิการหนังสือพิมพ์ หนังสือ นิตยสาร ทีวี และวิทยุ เราดีใจกันอย่างไม่สิ้นสุด แต่ผลลัพธ์คือเราถูกพัดพาไปกับเสียงรบกวน ทฤษฎีสมคบคิด มีม TikTok และอื่น ๆ
  ปัญหาคือเราแทบรับมือกับปริมาณข้อมูลมหาศาลที่ถาโถมเข้ามาไม่ได้ ผู้คนก็มีมากเกินไป รสนิยมก็แตกต่างกันเกินไป จนยากที่จะตกลงกันว่าอะไรมีคุณค่าและอะไรไม่มี
  “ฟีเจอร์” ที่คุณพูดถึงอาจเป็นเช่นนั้นโดยการออกแบบ แต่ไม่ได้หมายความว่ามันมีประโยชน์หรือถูกต้องทางศีลธรรม

38% ของหน้าเว็บที่มีอยู่ในปี 2013 ไม่สามารถเข้าถึงได้หลังผ่านไป 10 ปี

หน้าเว็บที่หายไปในช่วง 10 ปี

เกณฑ์ที่ใช้ตัดสินว่าเข้าถึงไม่ได้

ตัวอย่างหน้าเว็บจาก Common Crawl

ลิงก์เสียบนเว็บไซต์ภาครัฐ

ลิงก์เสียบนเว็บไซต์ข่าว

ลิงก์อ้างอิงใน Wikipedia

การหายไปของโพสต์บน X/Twitter

ลักษณะของทวีตที่หายไปบ่อยกว่า

ความเร็วในการหายไปและการกลับมาของทวีต

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News