38% ของหน้าเว็บที่มีอยู่ในปี 2013 ไม่สามารถเข้าถึงได้หลังผ่านไป 10 ปี
(pewresearch.org)- แม้ว่าเว็บจะดูเหมือนเป็นบันทึกถาวร แต่จากตัวอย่างของ Pew Research Center พบว่า ณ เดือนตุลาคม 2023 หน้าเว็บที่เคยมีอยู่ในช่วงปี 2013~2023 จำนวน 25% หายไปแล้ว และในบรรดาหน้าที่อยู่ในปี 2013 นั้น 38% ไม่สามารถเข้าถึงได้
- ในการนับครั้งนี้ คำว่า ไม่สามารถเข้าถึงได้ ไม่ได้หมายถึงการเปลี่ยนแปลงเนื้อหาหรือปัญหาด้านการเข้าถึง แต่จำกัดเฉพาะ รหัสข้อผิดพลาด 9 แบบ ที่ชี้ชัดว่าหน้าเว็บหรือโฮสต์เซิร์ฟเวอร์หายไปแล้ว
- เมื่อตรวจสอบลิงก์ของรัฐบาล ข่าว และ Wikipedia ในช่วงฤดูใบไม้ผลิปี 2023 พบว่าเว็บเพจข่าว 23%, เว็บเพจภาครัฐ 21% และหน้า English Wikipedia 54% มีลิงก์เสียอย่างน้อย 1 ลิงก์
- จากการติดตามทวีตสาธารณะราว 5 ล้านรายการ บน X ซึ่งในขณะนั้นยังใช้ชื่อ Twitter เป็นเวลา 3 เดือน พบว่า 18% ไม่ปรากฏต่อสาธารณะอีกต่อไป โดยในจำนวนนี้ 60% เกิดจากการตั้งค่าบัญชีเป็นส่วนตัว การระงับบัญชี หรือการลบบัญชี
- คอนเทนต์กำลังหายไปทั่วทั้งหน้าเว็บ เอกสารจากหน่วยงานรัฐ ลิงก์ข่าว เอกสารอ้างอิงใน Wikipedia และโพสต์บนโซเชียล โดยยิ่งเป็นข้อมูลเก่ายิ่งเห็นปรากฏการณ์ digital decay ชัดเจนขึ้น
หน้าเว็บที่หายไปในช่วง 10 ปี
- อินเทอร์เน็ตถูกใช้เป็นแหล่งเก็บข้อมูลของชีวิตสมัยใหม่ เช่น หนังสือ รูปภาพ และบทความข่าว แต่คอนเทนต์บางส่วนจะมองไม่เห็นอีกต่อไปเมื่อเวลาผ่านไป
- Pew Research Center ตรวจสอบตัวอย่างหน้าเว็บที่เคยมีอยู่ระหว่างปี 2013~2023 ว่ายังเข้าถึงได้หรือไม่ ณ เดือนตุลาคม 2023
- ในตัวอย่างทั้งหมด หน้าเว็บที่เคยมีอยู่ 25% ไม่สามารถเข้าถึงได้อีกต่อไป
- 16% คือกรณีที่ root domain ยังทำงาน แต่หน้าเพจนั้นเข้าถึงไม่ได้
- 9% คือกรณีที่ root domain ทั้งหมดไม่ทำงานแล้ว จึงไม่สามารถเข้าถึงได้
- ยิ่งเป็นหน้าเว็บเก่า สัดส่วนที่หายไปยิ่งสูง
- ใน snapshot ปี 2013 หน้าเว็บ 38% ไม่สามารถเข้าถึงได้ในปี 2023
- ใน snapshot ปี 2023 หน้าเว็บ 8% ไม่สามารถเข้าถึงได้
- แม้แต่ snapshot ปี 2021 ก็มีหน้าเว็บประมาณ 1 ใน 5 ที่เข้าถึงไม่ได้หลังจากนั้น 2 ปี
เกณฑ์ที่ใช้ตัดสินว่าเข้าถึงไม่ได้
- ในการวิเคราะห์นี้ คำว่า ไม่สามารถเข้าถึงได้ จำกัดเฉพาะกรณีที่หน้าเว็บไม่มีอยู่อีกต่อไป
- เช่น กรณีที่โฮสต์เซิร์ฟเวอร์หรือหน้าเว็บหายไป และมักแสดงข้อผิดพลาดของเซิร์ฟเวอร์อย่าง
404 Not Found
- เช่น กรณีที่โฮสต์เซิร์ฟเวอร์หรือหน้าเว็บหายไป และมักแสดงข้อผิดพลาดของเซิร์ฟเวอร์อย่าง
- กรณีต่อไปนี้อยู่นอกขอบเขตของงานวิจัยครั้งนี้
- ที่อยู่หน้าเว็บยังมีอยู่ แต่เนื้อหาเปลี่ยนไปจากเดิมอย่างมาก
- หน้าเว็บยังมีอยู่ แต่ผู้ใช้บางกลุ่ม เช่น ผู้พิการทางสายตา อ่านได้ยากหรืออ่านไม่ได้
- การตัดสินสถานะของหน้าเว็บยังมีความกำกวมอยู่
- รหัสสถานะข้อผิดพลาดมีอยู่หลายสิบแบบ และบางแบบก็ไม่ชัดเจนว่าเป็นการหายไปถาวรหรือเป็นเพียงปัญหาชั่วคราว
- หลายเว็บไซต์ป้องกันการเก็บข้อมูลอัตโนมัติด้วยเหตุผลด้านความปลอดภัย
- ดังนั้นจึงใช้เกณฑ์ที่ระมัดระวังที่สุด โดยนับว่าเข้าถึงไม่ได้เฉพาะ รหัสข้อผิดพลาด 9 แบบ ที่ชี้ชัดว่าหน้าเว็บหรือโฮสต์เซิร์ฟเวอร์ไม่มีอยู่อีกต่อไปหรืออยู่ในสภาพที่ไม่ทำงาน
- รายการรหัสข้อผิดพลาดทั้งหมดรวมอยู่ใน methodology
ตัวอย่างหน้าเว็บจาก Common Crawl
- การวิเคราะห์นี้ใช้บริการอินเทอร์เน็ตอาร์ไคฟ์ Common Crawl เพื่อสุ่มเก็บหน้าเว็บของแต่ละปีตั้งแต่ 2013~2023
- ตัวอย่างทั้งหมดมีหน้าเว็บน้อยกว่า 1 ล้านหน้า เล็กน้อย และมีประมาณ 90,000 หน้า ต่อปี
- ณ เดือนตุลาคม 2023 ตัวอย่างทั้งหมดจากปี 2013~2023 มี 25% ที่ไม่สามารถเข้าถึงได้
- หน้าเว็บที่เข้าถึงไม่ได้แบ่งเป็น 2 ประเภท
- หน้าเพจหายไป แต่ root domain ยังทำงาน: 16%
- root domain ทั้งหมดไม่ทำงานอีกต่อไป: 9%
- ยิ่ง snapshot เก่านานเท่าไร อัตราการเข้าถึงไม่ได้ยิ่งสูงขึ้น และหน้าเว็บปี 2013 มี 38% ที่ไม่มีอยู่อีกต่อไป
ลิงก์เสียบนเว็บไซต์ภาครัฐ
- การวิเคราะห์เว็บไซต์ภาครัฐใช้ตัวอย่างราว 500,000 หน้า จาก snapshot เดือนมีนาคม~เมษายน 2023 ของ Common Crawl
- ตัวอย่างนี้ครอบคลุมเว็บไซต์ภาครัฐหลายระดับ ทั้งรัฐบาลกลาง รัฐ และท้องถิ่น
- ลิงก์ที่พบบนเว็บเพจภาครัฐทั้งหมดมี 42 ล้านลิงก์
- 86% เป็นลิงก์ภายในที่เชื่อมไปยังหน้าอื่นในเว็บไซต์เดียวกัน
- เว็บเพจภาครัฐประมาณ 3 ใน 4 มีลิงก์อย่างน้อย 1 ลิงก์
- จำนวนลิงก์ต่อหน้าตามค่ามัธยฐานคือ 50 ลิงก์
- หน้าเว็บในกลุ่มบนสุด 10% มี 190 ลิงก์ และกลุ่มบนสุด 1% มี 740 ลิงก์
- มีการตรวจสอบรูปแบบของลิงก์ด้วย
- ส่วนใหญ่เชื่อมไปยังหน้า HTTP แบบปลอดภัยที่ขึ้นต้นด้วย
https:// - 6% เชื่อมไปยังไฟล์คงที่ เช่น PDF
- 16% ถูก redirect ไปยัง URL อื่นที่ไม่ใช่ URL เดิม
- ส่วนใหญ่เชื่อมไปยังหน้า HTTP แบบปลอดภัยที่ขึ้นต้นด้วย
- เมื่อติดตามลิงก์ไปตรวจสอบ พบว่า 6% ของลิงก์บนเว็บไซต์ภาครัฐไม่สามารถเข้าถึงได้อีกต่อไป
- เว็บเพจภาครัฐทั้งหมดที่ตรวจสอบมี 21% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
- อัตราการใช้งานไม่ได้ของลิงก์ภายในและลิงก์ภายนอกใกล้เคียงกัน
- ในทุกระดับของหน่วยงานรัฐ มีอย่างน้อย 14% ของหน้าเว็บที่มีลิงก์เสีย
- หน้าเว็บของเทศบาลมีสัดส่วนลิงก์เสียสูงที่สุด
ลิงก์เสียบนเว็บไซต์ข่าว
- การวิเคราะห์เว็บไซต์ข่าวใช้ตัวอย่างราว 500,000 หน้า จากเว็บไซต์ 2,063 แห่ง ที่ comScore จัดอยู่ในหมวด “News/Information”
- หน้าเว็บถูกเก็บจาก snapshot เดือนมีนาคม~เมษายน 2023 ของ Common Crawl
- ตัวอย่างเว็บไซต์ข่าวมีลิงก์ที่เชื่อมออกไปยังเว็บไซต์ภายนอกมากกว่า 14 ล้านลิงก์
- ไม่มีการเก็บหรือตรวจสอบการทำงานของลิงก์ภายใน
- 94% ของหน้าเว็บข่าวมีลิงก์ภายนอกอย่างน้อย 1 ลิงก์
- จำนวนลิงก์ต่อหน้าตามค่ามัธยฐานคือ 20 ลิงก์
- หน้าเว็บในกลุ่มบนสุด 10% ตามจำนวนลิงก์มี 56 ลิงก์
- ลิงก์ของเว็บไซต์ข่าวส่วนใหญ่เชื่อมไปยังหน้า HTTP แบบปลอดภัยที่ขึ้นต้นด้วย
https://- ประมาณ 12% เชื่อมไปยังไฟล์คงที่ เช่น PDF
- 32% ถูก redirect ไปยัง URL อื่นที่ไม่ใช่ URL เดิม
- สัดส่วน redirect ของลิงก์ภายนอกบนเว็บไซต์ภาครัฐอยู่ที่ 39%
- เมื่อติดตามลิงก์ของเว็บไซต์ข่าว พบว่า 5% ของลิงก์ทั้งหมดไม่สามารถเข้าถึงได้
- หน้าเว็บข่าวในตัวอย่างมี 23% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
- ในหน้าเว็บของเว็บไซต์ข่าวที่มีทราฟฟิกสูงสุด 20% มี 25% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
- ในหน้าเว็บของเว็บไซต์ข่าวที่มีทราฟฟิกต่ำสุด 20% มี 26% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
- แทบไม่มีความแตกต่างของสัดส่วนลิงก์เสียตามขนาดทราฟฟิก
ลิงก์อ้างอิงใน Wikipedia
- การวิเคราะห์นี้สุ่มเก็บหน้า English Wikipedia จำนวน 50,000 หน้า แล้วตรวจสอบลิงก์ในส่วน “References”
- 82% ของหน้าตัวอย่างมีลิงก์อ้างอิงอย่างน้อย 1 ลิงก์ที่เชื่อมไปยังเว็บเพจนอก Wikipedia
- ตัวอย่างทั้งหมดมีลิงก์อ้างอิงรวมกัน มากกว่า 1 ล้านลิงก์เล็กน้อย
- จำนวนลิงก์อ้างอิงของหน้าทั่วไปคือ 4 ลิงก์
- 11% ของลิงก์อ้างอิงทั้งหมดใน Wikipedia ไม่สามารถเข้าถึงได้อีกต่อไป
- ในบรรดาหน้าที่มีลิงก์อ้างอิง ประมาณ 2% มีลิงก์เสียหรือเข้าถึงไม่ได้ทั้งหมด
- และอีก 53% ของหน้ามีลิงก์เสียอย่างน้อย 1 ลิงก์
การหายไปของโพสต์บน X/Twitter
- การวิเคราะห์โซเชียลมีเดียนี้เก็บทวีตสาธารณะราว 5 ล้านรายการ แบบเรียลไทม์จาก X ซึ่งในขณะนั้นยังใช้ชื่อ Twitter ระหว่างวันที่ 8 มีนาคม~27 เมษายน 2023
- การเก็บข้อมูลใช้ Twitter Streaming API และเก็บทวีตสาธารณะ 3,000 รายการ ทุก 30 นาที
- การติดตามดำเนินต่อไปจนถึงวันที่ 15 มิถุนายน 2023 และตรวจสอบทุกวันว่าทวีตแต่ละรายการยังเข้าถึงได้บนเว็บไซต์หรือไม่
- เมื่อสิ้นสุดการสังเกตการณ์ 18% ของทวีตที่เก็บครั้งแรกไม่ปรากฏต่อสาธารณะอีกต่อไป
- 60% เกิดจากบัญชีต้นทางเปลี่ยนเป็นส่วนตัว ถูกระงับ หรือถูกลบ
- 40% เป็นกรณีที่บัญชียังอยู่ แต่ทวีตรายนั้นถูกลบ
ลักษณะของทวีตที่หายไปบ่อยกว่า
- ทวีตที่เขียนด้วยบางภาษามีแนวโน้มจะหายไปมากกว่า
- ทวีตภาษาตุรกีเกือบครึ่งหนึ่งไม่สามารถเข้าถึงได้อีกต่อไปเมื่อสิ้นสุดการติดตาม
- ทวีตภาษาอาหรับก็หายไปในสัดส่วนที่ต่ำกว่านี้เล็กน้อย
- โดยสรุปแล้ว ทวีตภาษาตุรกีหรือภาษาอาหรับ มากกว่า 40% หายไปภายใน 3 เดือน
- ทวีตจากบัญชีที่ใช้การตั้งค่าโปรไฟล์เริ่มต้นก็หายไปบ่อยกว่าเช่นกัน
- ทวีตจากบัญชีที่ใช้รูปโปรไฟล์เริ่มต้น มากกว่าครึ่ง ไม่สามารถเข้าถึงได้อีกต่อไป
- ทวีตจากบัญชีที่ใช้ช่องแนะนำตัวเริ่มต้น มากกว่า 1 ใน 3 ไม่สามารถเข้าถึงได้อีกต่อไป
- ทวีตจากบัญชีลักษณะนี้มักหายไปเพราะลบบัญชีหรือเปลี่ยนเป็นส่วนตัว มากกว่าการลบทวีตรายการเดี่ยว
- ทวีตจากบัญชีที่ไม่ได้รับการยืนยันก็มีโอกาสถูกลบหรือถูกนำออกสูงกว่าเช่นกัน
- โดยทั่วไป ทวีตที่หายไปมักใหม่กว่า และมาจากบัญชีที่มีผู้ติดตามค่อนข้างน้อยและมีกิจกรรมระดับปานกลาง
- บัญชีที่โพสต์ทวีตซึ่งมองไม่เห็นแล้ว มีอายุบัญชีใหม่กว่าโดยเฉลี่ยประมาณ 8 เดือน เมื่อเทียบกับบัญชีที่โพสต์ทวีตซึ่งยังคงมองเห็นได้
- รีทวีต ทวีตอ้างอิง และทวีตต้นฉบับไม่ได้แตกต่างจากค่าเฉลี่ยรวมมากนัก
- ส่วน reply ถูกนำออกน้อยกว่าเมื่อเทียบกัน โดยมีอัตราเข้าถึงไม่ได้เมื่อสิ้นสุดการติดตามที่ 12%
ความเร็วในการหายไปและการกลับมาของทวีต
- ทวีตส่วนใหญ่ที่ถูกนำออกมักหายไปค่อนข้างเร็วหลังจากโพสต์
- จากการวิเคราะห์การอยู่รอด ช่วงเวลาที่ทวีตถูกนำออกมีดังนี้
- 1% ถูกนำออกภายใน 1 ชั่วโมงหลังโพสต์
- 3% ถูกนำออกภายใน 1 วัน
- 10% ถูกนำออกภายใน 1 สัปดาห์
- 15% ถูกนำออกภายใน 1 เดือน
- ครึ่งหนึ่งของทวีตที่ท้ายที่สุดถูกนำออก จะเข้าถึงไม่ได้ภายใน 6 วัน หลังโพสต์
- 90% ของทวีตที่ท้ายที่สุดถูกนำออก จะเข้าถึงไม่ได้ภายใน 46 วัน หลังโพสต์
- ทวีตไม่ได้หายไปอย่างถาวรเสมอไป
- 6% ของทวีตที่เก็บมาหายไปแล้วกลับมาเข้าถึงได้อีกในภายหลัง
- สาเหตุอาจเป็นเพราะบัญชีเปลี่ยนจากส่วนตัวกลับมาเป็นสาธารณะ หรือได้รับการกู้คืนหลังถูกระงับ
- 90% ของทวีตที่กลับมาปรากฏอีกครั้งยังคงเข้าถึงได้บน Twitter เมื่อสิ้นสุดการติดตาม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ปัญหาที่ใหญ่กว่าการที่เว็บเพจ 38% หายไป คือทุกวันนี้ องค์กร·กลุ่ม·ธุรกิจ จำนวนมากแทบจะใช้แค่เพจ Facebook และไม่มีตัวตนบนเว็บนอก Facebook เลย
สุดท้ายแล้ว ถ้าจะโต้ตอบกับพวกเขา บัญชี Facebook ก็กลายเป็นสิ่งจำเป็น
ตอนนี้ทุกอย่างย้ายไปอยู่ใน subreddit, กลุ่ม Facebook และแชต Discord หมดแล้ว น่าเสียดายมากที่ข้อมูลมีค่าถูกซ่อนอยู่ในกลุ่มเหล่านั้น
ประมาณว่าเข้าไปดูวันละครั้งว่ามีอะไรเกิดขึ้นบ้าง และถ้ามีบัญชี ลิงก์นี้จะทำให้เรื่องนั้นง่ายขึ้นมาก: https://www.facebook.com/?filter=friends
ธุรกิจท้องถิ่นแถวบ้านผมมีข้อมูลบน Google Maps ค่อนข้างเยอะ และถึงจะมีเว็บไซต์ก็มักจะเก่า แต่ถ้าโทรไปโดยตรงก็ได้คำตอบที่อยากรู้
ตอนนี้เว็บใหญ่ขึ้นมาก แต่ก็เป็นเนื้อเดียวกันมากขึ้นมาก ผมเดาว่าสัดส่วนแบบนั้นคงเหลือราว 0.00001% และผมคิดว่า เว็บไซต์ Web 1.0 ดีกว่า “เพจกลุ่ม” แบบปิดในปัจจุบัน
พอบอกว่าไม่ได้ใช้ Facebook เขาก็มองผมเหมือนเป็นคนประหลาด
ถึงอย่างนั้น เว็บไซต์ดี ๆ ก็ยังพยายามอยู่บ้างในการเก็บรักษาเนื้อหาเก่า
ตัวอย่างเช่น หน้ารายงานข่าวของ CNN และ BBC ตอนเหตุการณ์โจมตี 9/11 ยังอยู่: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
คงคาดหวังไม่ได้ว่าลิงก์จำนวนมากจะทำงานได้ถูกต้อง แต่แค่ได้เห็นว่าเว็บสมัยก่อนหน้าตาเป็นอย่างไรก็น่าสนใจแล้ว
ยากที่จะจินตนาการว่าอีก 20 ปีข้างหน้า เว็บไซต์จำนวนมากในปัจจุบันจะยังคงอยู่แบบนั้น และดูเหมือนว่าไม่ใช่เพราะเป็นไปไม่ได้ทางเทคนิค แต่คล้ายกับคุณภาพงานเขียนที่แย่ลงหลังมีการประดิษฐ์โปรแกรมประมวลผลคำ
ตอนนี้ทุกอย่างถูกจัดการและจัดโครงสร้าง จนรู้สึกว่าอิสระและความฟูฟ่องที่เคยทำให้เราสร้างสิ่งดี ๆ ได้ในแบบที่อธิบายง่าย ๆ ไม่ได้หายไปแล้ว
ถ้าอยากสนับสนุนความพยายามในการเก็บรักษาเนื้อหาเก่า ๆ และเนื้อหาอื่น ๆ ก็ควรบริจาคให้ Internet Archive (archive.org) แม้เพียงไม่กี่ปอนด์
และสิ่งใดที่รู้สึกว่ามีคุณค่า ก็ควรทำสำเนาไว้ในเครื่องเท่าที่ทำได้ เผื่อว่าสักวันมันจะหายไป
หน้าเทคนิคจำนวนมากในไฟล์บุ๊กมาร์กของผมที่ย้ายข้ามการติดตั้งระบบต่าง ๆ มานานกว่า 20 ปี ตอนนี้ชี้ไปยังแบ็กอัปฉบับสมบูรณ์สุดท้ายก่อนที่หน้าต้นฉบับจะหายไป
Internet Archive เป็นประโยชน์มหาศาลต่อทุกคน
ตอนนี้ถ้ามีข้อมูลอย่างบทความที่ลึกซึ้ง ข้อมูลเทคนิค หรือมุกตลกที่อยากอ้างอิงในภายหลัง ผมจะบันทึกเว็บเพจเป็น PDF หรือรูปแบบอื่น
บุ๊กมาร์กเหมาะกับสิ่งที่มีค่าเมื่อเข้าถึงเวอร์ชันล่าสุดเท่านั้น เช่น เว็บไซต์ธนาคาร เว็บไซต์ช็อปปิง หรือระบบรีโมตเดสก์ท็อปของบริษัท
ฝั่งหนึ่งทำแค่การเก็บรักษาเว็บไซต์ ส่วนอีกฝั่งรับงานที่เหลือ เช่น การทดสอบทรัพย์สินทางปัญญาเชิงรุกเกี่ยวกับอีบุ๊กหรือวิดีโอเกม
แบบนั้นต่อให้ “อีกฝั่ง” ล้มเพราะคดีความ การเก็บรักษาเว็บไซต์ก็ยังคงอยู่ได้ ฝั่งแรกเป็นบริการที่สำคัญต่อมนุษยชาติ ผมเลยบริจาคให้ แต่ก็เป็นห่วงอนาคต
ผมดูแลเว็บไซต์ข่าวมาตั้งแต่ปี 2019
ทุกชั่วโมง crawler จะค้นหา ลิงก์ตาย และเปลี่ยนเป็นลิงก์ archive.org ประมาณวันละหนึ่งลิงก์
เรื่องที่ตลกที่สุดคือเว็บไซต์ของผู้สมัครเลือกตั้งกลายเป็นหน้าว่างทั้งหมดในวันถัดจากการเลือกตั้ง ส่วนเรื่องที่เศร้าที่สุดคือเว็บไซต์รัฐบาลที่ล่มทุกสัปดาห์ตั้งแต่ตี 3 ถึงตี 5
จริง ๆ แล้วผมแปลกใจที่ตัวเลขไม่ได้สูงกว่านี้
ปี 2013 เป็นช่วงหลังจากยุคเว็บไซต์งานอดิเรกของอินเทอร์เน็ตยุคแรกมานานแล้ว และเป็นช่วงที่เว็บไซต์ใหม่ส่วนใหญ่มีวัตถุประสงค์ทางธุรกิจ
เมื่อคิดถึงอายุขัยของธุรกิจ ผมคาดว่าอีก 11 ปีให้หลัง เว็บไซต์น่าจะหายไปมากกว่านี้มาก
บางทีการตายของ พื้นที่สร้างคอมมูนิตี้ อย่าง Angelfire, Geocities จำนวนมากอาจเป็นสัดส่วนใหญ่ก็ได้
โดยเฉพาะถ้ามีกราฟแสดงว่าเว็บไซต์อยู่ได้นานแค่ไหนก็น่าจะน่าสนใจ เนื้อหายุคแรก ๆ ยังเหลืออยู่ค่อนข้างมาก และผมคิดว่าช่วงราวปี 2008–2018 น่าจะเป็นจุดสูงสุดของการหายไปของเว็บไซต์
เช่น Geocities, โฟลเดอร์ FTP ที่มหาวิทยาลัยให้และจะถูกลบหลังเรียนจบ, โฟลเดอร์ FTP ที่ ISP อย่าง Earthlink·Juno·Comcast ให้มา และมีความเป็นไปได้สูงว่าส่วนใหญ่ถูกลบไปแล้ว
ผมไม่อยากให้ทุกอย่างคงอยู่ตลอดไป
ไม่นานมานี้บังเอิญเจอ .com แรกของผมที่ทำไว้ในยุค 90 โฮสต์อยู่บน Angelfire และ archive.org ก็เก็บรักษาซ้ำไว้อย่างขยันขันแข็ง ผลลัพธ์ก็เป็นอย่างที่คุณจินตนาการนั่นแหละ
เป็นเว็บเพจที่ผมทำกับเพื่อนตอน ป.4 ถ้าวัดตามมาตรฐานตอนนั้นก็ถือว่าโอเค แต่ถ้าวัดตามมาตรฐานตอนนี้ ต่อให้เข้าใจบริบทแล้วก็ยังมีเนื้อหาบางอย่างที่ไม่โอเค
มันไม่ได้เลวร้ายสุด ๆ แต่เป็นเนื้อหารสนิยมแย่ที่เกิดจากความไม่รู้แบบไร้เดียงสาของเด็กประถมยุค 90 และคงไม่ถูกลบออกจากมโนธรรมได้หมด ดังนั้นก็คงต้องรับมันไว้และได้แต่หวังว่าจะไม่มีใครเห็น
ถ้าจะช่วยปลอบใจได้ พวกเราทุกคนก็แค่เป็นเด็กหรือวัยรุ่น และกำลังเรียนรู้โลกอยู่
ผมรู้สึกสงสารคนรุ่นหลังเรามากกว่า เพราะพวกเขาเติบโตขึ้นหลังจากอินเทอร์เน็ตกลายเป็นพื้นที่ที่เข้าถึงได้ง่ายขึ้น และบางครั้งก็ถาวรมากขึ้น
โชคดีที่บางครั้ง archive ก็ยอมลบข้อมูลลงให้
ทุกสิ่งบนอินเทอร์เน็ตโดยเนื้อแท้แล้วเป็นสิ่ง ชั่วคราว
แทนที่จะต่อต้านมัน ยอมรับมันน่าจะดีกว่า และถ้าอยากเก็บอะไรไว้ ก็ทำสำเนาแบบออฟไลน์ไว้ก็พอ
PDF/A โดยเฉพาะเวอร์ชัน -1 และ -2 เป็นฟอร์แมตที่ออกแบบมาอย่างชัดเจนเพื่อการเก็บรักษา และเหมาะกับคอนเทนต์แบบสแตติก
เพียงแต่น่าเสียดายที่การทำมิเรอร์ไม่ได้ถูกฝังอยู่ในเว็บสแตกอย่าง HTTP/HTML ให้ทำได้ง่ายกว่านี้ ถ้าสามารถสร้างลิงก์ที่มีสำเนาโลคัลเป็นเส้นทางสำรองได้ง่าย ๆ ปัญหา link rot ก็คงน่ากังวลน้อยลงมาก
ส่วนตัวแล้ว วิธีที่ Wikipedia ลิงก์ทุกอย่างผ่าน archive.org ดูเหมือนเป็นทางแก้ขัดอยู่บ้าง
พูดตรง ๆ น่าแปลกใจที่ตัวเลขต่ำขนาดนั้น
เว็บส่วนใหญ่ทุกวันนี้ดูเหมือน ขยะเพื่อทำ SEO
เรื่องนั้นเองก็ไม่ได้แย่
แต่การมีสิ่งอย่างเว็บอาร์ไคฟ์ที่ช่วยปกป้องความทรงจำร่วมของเราไว้สำหรับคอนเทนต์ที่มีคุณค่า ก็เป็นเรื่องยอดเยี่ยม
โดยเฉพาะอย่างยิ่ง บันทึกที่ถูกเขียนขึ้นอย่างถูกต้องในขณะที่เหตุการณ์กำลังเกิดขึ้น ควรถูกเก็บรักษาไว้ในที่ใดที่หนึ่งซึ่งไม่สามารถเปลี่ยนแปลงได้ภายหลัง ทุกวันนี้ดูเหมือนการเขียนประวัติศาสตร์ใหม่จะเป็นที่นิยม การเก็บบันทึกต้นฉบับ ณ เวลานั้นไว้จึงช่วยต้านทานสิ่งนั้นได้
แม้บันทึกนั้นจะไม่ได้ถูกต้องสมบูรณ์ทั้งหมด ก็ยังช่วยให้เข้าใจได้ว่าผู้กระทำในเวลานั้นเชื่อว่าอะไรคือความจริง
ผมมองว่านี่เป็นความล้มเหลวร้ายแรงของอินเทอร์เน็ตที่พวกเรา collectively ควรหลีกเลี่ยงได้ดีกว่านี้
ในกรณีส่วนใหญ่ คอนเทนต์เองน่าจะยังอยู่ที่ไหนสักแห่ง เพียงแต่ลิงก์เสียไปเท่านั้น
ระบบสองชั้น แบบระบบ DOI ที่ห้องสมุดใช้ อาจช่วยในกรณีแบบนี้ได้: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
แต่ถ้าจะรักษาประโยชน์ใช้สอยและความสะดวกของ URL ไว้ ก็คงต้องทำให้จัดการได้โดยอัตโนมัติ ซึ่งผมก็ไม่แน่ใจว่าจะเป็นไปได้อย่างไร
นี่ไม่ใช่บั๊ก แต่เป็นฟีเจอร์
คงเลวร้ายมากถ้าเราอยู่ในโลกที่ไม่ลืมและไม่ให้อภัย
การที่การเก็บรักษาคอนเทนต์ที่มีคุณค่าต้องใช้ความพยายามในระดับหนึ่งก็เป็นเรื่องดี เพราะจะทำให้คุณค่าของมันได้รับการยอมรับมากขึ้น
ตรรกะที่ว่า “คอนเทนต์ที่มีคุณค่าควรต้องใช้ความพยายามในการเก็บรักษา คุณค่าจึงจะได้รับการยอมรับมากขึ้น” ฟังดูแทบเหมือนการอ้างว่าทุกอย่างควรมีราคาแพง
ประมาณว่า สตอเรจราคาถูกเป็นเรื่องไม่ดีเพราะทำให้เราไม่เห็นคุณค่าของไฟล์ ส่วนการรักษาพยาบาลราคาแพงเป็นเรื่องดีเพราะทำให้เราตระหนักถึงคุณค่าของอวัยวะ
ส่วนที่ยากคือการคาดการณ์ว่าในอนาคตคอนเทนต์ใดจะถูกมองว่ามีคุณค่า จนถึงตอนนี้ยังไม่มีอารยธรรมมนุษย์ใดหาคำตอบนั้นได้ดีนัก และโดยมากก็มุ่งเก็บรักษาเรื่องว่ากษัตริย์ยิ่งใหญ่เพียงใด
มันเริ่มต้นว่า “เหล่าลูกหลานแห่ง Macintosh จงคุกเข่าต่อหน้า Unix…” และทั้งบทความคงสำนวนแบบคัมภีร์ไบเบิลไว้ พร้อมอธิบายว่าทำไม Mac จึงถูก NeXT พิชิต
เป็นบทความที่ยอดเยี่ยมจริง ๆ จนบางครั้งผมพยายามค้นหาอีกครั้งบนอินเทอร์เน็ต แต่ถ้าเราไม่รู้ว่าอะไรหายไป ก็ยากที่จะรู้ได้
เรามี แผ่นดินเหนียวอักษรลิ่ม ที่ขุดพบจากกองขยะของ Ur และด้วยสิ่งนั้น ความรู้เล็กน้อยที่เรามีเกี่ยวกับ Sumer จึงยังคงหลงเหลืออยู่
การประดิษฐ์ตัวอักษรทำให้การหลงลืมเป็นไปไม่ได้ และนักมานุษยวิทยาอย่าง Jack Goody, James Carey, David Olson, Barry Powell รวมถึงผู้เขียนอย่าง Walter Ong ได้ศึกษาประเด็นนี้อย่างลึกซึ้ง
จริง ๆ แล้วเราอาศัยอยู่ในโลกอันเลวร้ายที่ส่วนใหญ่ติดอยู่กับอดีต และความซับซ้อนทางวัฒนธรรมก็ทับซ้อนกันเป็นชั้น ๆ เหมือนเปลือกหัวหอม
ใคร ๆ ก็ย้อนกลับไปหาอดีตและโหยหามันได้ แต่อดีตที่เข้าถึงผ่านความรู้ที่ถูกจัดเก็บไว้ ย่อมมีความหมายแตกต่างกันสำหรับคนที่ไม่ได้มีประสบการณ์ตรง
หลังยุคแท่นพิมพ์ เราอยู่ท่ามกลาง เงินเฟ้อของข้อมูล มาโดยตลอด นักวิชาการยุคกลางบ่นว่าเพราะแท่นพิมพ์ ใคร ๆ ก็อ่านและเขียนหนังสือได้ นักสโกลาสติกตกใจกับการเติบโตของภาษาพูด และ Michelangelo ก็บ่นถึงศิลปะอันว่างเปล่าของจิตรกร Flemish
ประเด็นสำคัญตรงนี้คือความเร็วที่การเสื่อมสลายเกิดขึ้น บทความบอกว่า 38% ของไซต์ที่มีอยู่ในปี 2013 หายไปแล้ว แต่นั่นเพียงแค่ 10 ปีเท่านั้น
เราไม่รู้ว่าในนั้นมีเสียงรบกวนมากแค่ไหน และมีข้อมูลที่เป็นประโยชน์หรืออย่างน้อยก็เป็นคอนเทนต์ที่น่าสนใจมากแค่ไหน เพราะมันหายไปแล้ว
เราไม่รู้ด้วยว่าเว็บสแครปเปอร์รายใหญ่เก็บไว้มากแค่ไหน หรือ Google กับ Twitter เก็บไว้มากเท่าไร
เราจะนิยามคอนเทนต์ที่มีคุณค่าอย่างไร? เป็นทวีตรูปนักแสดงหญิงกึ่งเปลือยที่มียอดวิว 1 ล้านครั้ง หรือทวีตการค้นพบครั้งสำคัญที่มียอดวิว 300 ครั้ง?
ตอนที่อินเทอร์เน็ตทำลายผู้เฝ้าประตูอย่างบรรณาธิการหนังสือพิมพ์ หนังสือ นิตยสาร ทีวี และวิทยุ เราดีใจกันอย่างไม่สิ้นสุด แต่ผลลัพธ์คือเราถูกพัดพาไปกับเสียงรบกวน ทฤษฎีสมคบคิด มีม TikTok และอื่น ๆ
ปัญหาคือเราแทบรับมือกับปริมาณข้อมูลมหาศาลที่ถาโถมเข้ามาไม่ได้ ผู้คนก็มีมากเกินไป รสนิยมก็แตกต่างกันเกินไป จนยากที่จะตกลงกันว่าอะไรมีคุณค่าและอะไรไม่มี
“ฟีเจอร์” ที่คุณพูดถึงอาจเป็นเช่นนั้นโดยการออกแบบ แต่ไม่ได้หมายความว่ามันมีประโยชน์หรือถูกต้องทางศีลธรรม