1 คะแนน โดย GN⁺ 2024-05-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แม้ว่าเว็บจะดูเหมือนเป็นบันทึกถาวร แต่จากตัวอย่างของ Pew Research Center พบว่า ณ เดือนตุลาคม 2023 หน้าเว็บที่เคยมีอยู่ในช่วงปี 2013~2023 จำนวน 25% หายไปแล้ว และในบรรดาหน้าที่อยู่ในปี 2013 นั้น 38% ไม่สามารถเข้าถึงได้
  • ในการนับครั้งนี้ คำว่า ไม่สามารถเข้าถึงได้ ไม่ได้หมายถึงการเปลี่ยนแปลงเนื้อหาหรือปัญหาด้านการเข้าถึง แต่จำกัดเฉพาะ รหัสข้อผิดพลาด 9 แบบ ที่ชี้ชัดว่าหน้าเว็บหรือโฮสต์เซิร์ฟเวอร์หายไปแล้ว
  • เมื่อตรวจสอบลิงก์ของรัฐบาล ข่าว และ Wikipedia ในช่วงฤดูใบไม้ผลิปี 2023 พบว่าเว็บเพจข่าว 23%, เว็บเพจภาครัฐ 21% และหน้า English Wikipedia 54% มีลิงก์เสียอย่างน้อย 1 ลิงก์
  • จากการติดตามทวีตสาธารณะราว 5 ล้านรายการ บน X ซึ่งในขณะนั้นยังใช้ชื่อ Twitter เป็นเวลา 3 เดือน พบว่า 18% ไม่ปรากฏต่อสาธารณะอีกต่อไป โดยในจำนวนนี้ 60% เกิดจากการตั้งค่าบัญชีเป็นส่วนตัว การระงับบัญชี หรือการลบบัญชี
  • คอนเทนต์กำลังหายไปทั่วทั้งหน้าเว็บ เอกสารจากหน่วยงานรัฐ ลิงก์ข่าว เอกสารอ้างอิงใน Wikipedia และโพสต์บนโซเชียล โดยยิ่งเป็นข้อมูลเก่ายิ่งเห็นปรากฏการณ์ digital decay ชัดเจนขึ้น

หน้าเว็บที่หายไปในช่วง 10 ปี

  • อินเทอร์เน็ตถูกใช้เป็นแหล่งเก็บข้อมูลของชีวิตสมัยใหม่ เช่น หนังสือ รูปภาพ และบทความข่าว แต่คอนเทนต์บางส่วนจะมองไม่เห็นอีกต่อไปเมื่อเวลาผ่านไป
  • Pew Research Center ตรวจสอบตัวอย่างหน้าเว็บที่เคยมีอยู่ระหว่างปี 2013~2023 ว่ายังเข้าถึงได้หรือไม่ ณ เดือนตุลาคม 2023
  • ในตัวอย่างทั้งหมด หน้าเว็บที่เคยมีอยู่ 25% ไม่สามารถเข้าถึงได้อีกต่อไป
    • 16% คือกรณีที่ root domain ยังทำงาน แต่หน้าเพจนั้นเข้าถึงไม่ได้
    • 9% คือกรณีที่ root domain ทั้งหมดไม่ทำงานแล้ว จึงไม่สามารถเข้าถึงได้
  • ยิ่งเป็นหน้าเว็บเก่า สัดส่วนที่หายไปยิ่งสูง
    • ใน snapshot ปี 2013 หน้าเว็บ 38% ไม่สามารถเข้าถึงได้ในปี 2023
    • ใน snapshot ปี 2023 หน้าเว็บ 8% ไม่สามารถเข้าถึงได้
    • แม้แต่ snapshot ปี 2021 ก็มีหน้าเว็บประมาณ 1 ใน 5 ที่เข้าถึงไม่ได้หลังจากนั้น 2 ปี

เกณฑ์ที่ใช้ตัดสินว่าเข้าถึงไม่ได้

  • ในการวิเคราะห์นี้ คำว่า ไม่สามารถเข้าถึงได้ จำกัดเฉพาะกรณีที่หน้าเว็บไม่มีอยู่อีกต่อไป
    • เช่น กรณีที่โฮสต์เซิร์ฟเวอร์หรือหน้าเว็บหายไป และมักแสดงข้อผิดพลาดของเซิร์ฟเวอร์อย่าง 404 Not Found
  • กรณีต่อไปนี้อยู่นอกขอบเขตของงานวิจัยครั้งนี้
    • ที่อยู่หน้าเว็บยังมีอยู่ แต่เนื้อหาเปลี่ยนไปจากเดิมอย่างมาก
    • หน้าเว็บยังมีอยู่ แต่ผู้ใช้บางกลุ่ม เช่น ผู้พิการทางสายตา อ่านได้ยากหรืออ่านไม่ได้
  • การตัดสินสถานะของหน้าเว็บยังมีความกำกวมอยู่
    • รหัสสถานะข้อผิดพลาดมีอยู่หลายสิบแบบ และบางแบบก็ไม่ชัดเจนว่าเป็นการหายไปถาวรหรือเป็นเพียงปัญหาชั่วคราว
    • หลายเว็บไซต์ป้องกันการเก็บข้อมูลอัตโนมัติด้วยเหตุผลด้านความปลอดภัย
  • ดังนั้นจึงใช้เกณฑ์ที่ระมัดระวังที่สุด โดยนับว่าเข้าถึงไม่ได้เฉพาะ รหัสข้อผิดพลาด 9 แบบ ที่ชี้ชัดว่าหน้าเว็บหรือโฮสต์เซิร์ฟเวอร์ไม่มีอยู่อีกต่อไปหรืออยู่ในสภาพที่ไม่ทำงาน
  • รายการรหัสข้อผิดพลาดทั้งหมดรวมอยู่ใน methodology

ตัวอย่างหน้าเว็บจาก Common Crawl

  • การวิเคราะห์นี้ใช้บริการอินเทอร์เน็ตอาร์ไคฟ์ Common Crawl เพื่อสุ่มเก็บหน้าเว็บของแต่ละปีตั้งแต่ 2013~2023
  • ตัวอย่างทั้งหมดมีหน้าเว็บน้อยกว่า 1 ล้านหน้า เล็กน้อย และมีประมาณ 90,000 หน้า ต่อปี
  • ณ เดือนตุลาคม 2023 ตัวอย่างทั้งหมดจากปี 2013~2023 มี 25% ที่ไม่สามารถเข้าถึงได้
  • หน้าเว็บที่เข้าถึงไม่ได้แบ่งเป็น 2 ประเภท
    • หน้าเพจหายไป แต่ root domain ยังทำงาน: 16%
    • root domain ทั้งหมดไม่ทำงานอีกต่อไป: 9%
  • ยิ่ง snapshot เก่านานเท่าไร อัตราการเข้าถึงไม่ได้ยิ่งสูงขึ้น และหน้าเว็บปี 2013 มี 38% ที่ไม่มีอยู่อีกต่อไป

ลิงก์เสียบนเว็บไซต์ภาครัฐ

  • การวิเคราะห์เว็บไซต์ภาครัฐใช้ตัวอย่างราว 500,000 หน้า จาก snapshot เดือนมีนาคม~เมษายน 2023 ของ Common Crawl
  • ตัวอย่างนี้ครอบคลุมเว็บไซต์ภาครัฐหลายระดับ ทั้งรัฐบาลกลาง รัฐ และท้องถิ่น
  • ลิงก์ที่พบบนเว็บเพจภาครัฐทั้งหมดมี 42 ล้านลิงก์
    • 86% เป็นลิงก์ภายในที่เชื่อมไปยังหน้าอื่นในเว็บไซต์เดียวกัน
    • เว็บเพจภาครัฐประมาณ 3 ใน 4 มีลิงก์อย่างน้อย 1 ลิงก์
    • จำนวนลิงก์ต่อหน้าตามค่ามัธยฐานคือ 50 ลิงก์
    • หน้าเว็บในกลุ่มบนสุด 10% มี 190 ลิงก์ และกลุ่มบนสุด 1% มี 740 ลิงก์
  • มีการตรวจสอบรูปแบบของลิงก์ด้วย
    • ส่วนใหญ่เชื่อมไปยังหน้า HTTP แบบปลอดภัยที่ขึ้นต้นด้วย https://
    • 6% เชื่อมไปยังไฟล์คงที่ เช่น PDF
    • 16% ถูก redirect ไปยัง URL อื่นที่ไม่ใช่ URL เดิม
  • เมื่อติดตามลิงก์ไปตรวจสอบ พบว่า 6% ของลิงก์บนเว็บไซต์ภาครัฐไม่สามารถเข้าถึงได้อีกต่อไป
  • เว็บเพจภาครัฐทั้งหมดที่ตรวจสอบมี 21% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
    • อัตราการใช้งานไม่ได้ของลิงก์ภายในและลิงก์ภายนอกใกล้เคียงกัน
    • ในทุกระดับของหน่วยงานรัฐ มีอย่างน้อย 14% ของหน้าเว็บที่มีลิงก์เสีย
    • หน้าเว็บของเทศบาลมีสัดส่วนลิงก์เสียสูงที่สุด

ลิงก์เสียบนเว็บไซต์ข่าว

  • การวิเคราะห์เว็บไซต์ข่าวใช้ตัวอย่างราว 500,000 หน้า จากเว็บไซต์ 2,063 แห่ง ที่ comScore จัดอยู่ในหมวด “News/Information”
  • หน้าเว็บถูกเก็บจาก snapshot เดือนมีนาคม~เมษายน 2023 ของ Common Crawl
  • ตัวอย่างเว็บไซต์ข่าวมีลิงก์ที่เชื่อมออกไปยังเว็บไซต์ภายนอกมากกว่า 14 ล้านลิงก์
    • ไม่มีการเก็บหรือตรวจสอบการทำงานของลิงก์ภายใน
    • 94% ของหน้าเว็บข่าวมีลิงก์ภายนอกอย่างน้อย 1 ลิงก์
    • จำนวนลิงก์ต่อหน้าตามค่ามัธยฐานคือ 20 ลิงก์
    • หน้าเว็บในกลุ่มบนสุด 10% ตามจำนวนลิงก์มี 56 ลิงก์
  • ลิงก์ของเว็บไซต์ข่าวส่วนใหญ่เชื่อมไปยังหน้า HTTP แบบปลอดภัยที่ขึ้นต้นด้วย https://
    • ประมาณ 12% เชื่อมไปยังไฟล์คงที่ เช่น PDF
    • 32% ถูก redirect ไปยัง URL อื่นที่ไม่ใช่ URL เดิม
    • สัดส่วน redirect ของลิงก์ภายนอกบนเว็บไซต์ภาครัฐอยู่ที่ 39%
  • เมื่อติดตามลิงก์ของเว็บไซต์ข่าว พบว่า 5% ของลิงก์ทั้งหมดไม่สามารถเข้าถึงได้
  • หน้าเว็บข่าวในตัวอย่างมี 23% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
    • ในหน้าเว็บของเว็บไซต์ข่าวที่มีทราฟฟิกสูงสุด 20% มี 25% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
    • ในหน้าเว็บของเว็บไซต์ข่าวที่มีทราฟฟิกต่ำสุด 20% มี 26% ที่มีลิงก์เสียอย่างน้อย 1 ลิงก์
    • แทบไม่มีความแตกต่างของสัดส่วนลิงก์เสียตามขนาดทราฟฟิก

ลิงก์อ้างอิงใน Wikipedia

  • การวิเคราะห์นี้สุ่มเก็บหน้า English Wikipedia จำนวน 50,000 หน้า แล้วตรวจสอบลิงก์ในส่วน “References”
  • 82% ของหน้าตัวอย่างมีลิงก์อ้างอิงอย่างน้อย 1 ลิงก์ที่เชื่อมไปยังเว็บเพจนอก Wikipedia
  • ตัวอย่างทั้งหมดมีลิงก์อ้างอิงรวมกัน มากกว่า 1 ล้านลิงก์เล็กน้อย
  • จำนวนลิงก์อ้างอิงของหน้าทั่วไปคือ 4 ลิงก์
  • 11% ของลิงก์อ้างอิงทั้งหมดใน Wikipedia ไม่สามารถเข้าถึงได้อีกต่อไป
  • ในบรรดาหน้าที่มีลิงก์อ้างอิง ประมาณ 2% มีลิงก์เสียหรือเข้าถึงไม่ได้ทั้งหมด
  • และอีก 53% ของหน้ามีลิงก์เสียอย่างน้อย 1 ลิงก์

การหายไปของโพสต์บน X/Twitter

  • การวิเคราะห์โซเชียลมีเดียนี้เก็บทวีตสาธารณะราว 5 ล้านรายการ แบบเรียลไทม์จาก X ซึ่งในขณะนั้นยังใช้ชื่อ Twitter ระหว่างวันที่ 8 มีนาคม~27 เมษายน 2023
  • การเก็บข้อมูลใช้ Twitter Streaming API และเก็บทวีตสาธารณะ 3,000 รายการ ทุก 30 นาที
  • การติดตามดำเนินต่อไปจนถึงวันที่ 15 มิถุนายน 2023 และตรวจสอบทุกวันว่าทวีตแต่ละรายการยังเข้าถึงได้บนเว็บไซต์หรือไม่
  • เมื่อสิ้นสุดการสังเกตการณ์ 18% ของทวีตที่เก็บครั้งแรกไม่ปรากฏต่อสาธารณะอีกต่อไป
    • 60% เกิดจากบัญชีต้นทางเปลี่ยนเป็นส่วนตัว ถูกระงับ หรือถูกลบ
    • 40% เป็นกรณีที่บัญชียังอยู่ แต่ทวีตรายนั้นถูกลบ

ลักษณะของทวีตที่หายไปบ่อยกว่า

  • ทวีตที่เขียนด้วยบางภาษามีแนวโน้มจะหายไปมากกว่า
    • ทวีตภาษาตุรกีเกือบครึ่งหนึ่งไม่สามารถเข้าถึงได้อีกต่อไปเมื่อสิ้นสุดการติดตาม
    • ทวีตภาษาอาหรับก็หายไปในสัดส่วนที่ต่ำกว่านี้เล็กน้อย
    • โดยสรุปแล้ว ทวีตภาษาตุรกีหรือภาษาอาหรับ มากกว่า 40% หายไปภายใน 3 เดือน
  • ทวีตจากบัญชีที่ใช้การตั้งค่าโปรไฟล์เริ่มต้นก็หายไปบ่อยกว่าเช่นกัน
    • ทวีตจากบัญชีที่ใช้รูปโปรไฟล์เริ่มต้น มากกว่าครึ่ง ไม่สามารถเข้าถึงได้อีกต่อไป
    • ทวีตจากบัญชีที่ใช้ช่องแนะนำตัวเริ่มต้น มากกว่า 1 ใน 3 ไม่สามารถเข้าถึงได้อีกต่อไป
    • ทวีตจากบัญชีลักษณะนี้มักหายไปเพราะลบบัญชีหรือเปลี่ยนเป็นส่วนตัว มากกว่าการลบทวีตรายการเดี่ยว
  • ทวีตจากบัญชีที่ไม่ได้รับการยืนยันก็มีโอกาสถูกลบหรือถูกนำออกสูงกว่าเช่นกัน
  • โดยทั่วไป ทวีตที่หายไปมักใหม่กว่า และมาจากบัญชีที่มีผู้ติดตามค่อนข้างน้อยและมีกิจกรรมระดับปานกลาง
    • บัญชีที่โพสต์ทวีตซึ่งมองไม่เห็นแล้ว มีอายุบัญชีใหม่กว่าโดยเฉลี่ยประมาณ 8 เดือน เมื่อเทียบกับบัญชีที่โพสต์ทวีตซึ่งยังคงมองเห็นได้
  • รีทวีต ทวีตอ้างอิง และทวีตต้นฉบับไม่ได้แตกต่างจากค่าเฉลี่ยรวมมากนัก
  • ส่วน reply ถูกนำออกน้อยกว่าเมื่อเทียบกัน โดยมีอัตราเข้าถึงไม่ได้เมื่อสิ้นสุดการติดตามที่ 12%

ความเร็วในการหายไปและการกลับมาของทวีต

  • ทวีตส่วนใหญ่ที่ถูกนำออกมักหายไปค่อนข้างเร็วหลังจากโพสต์
  • จากการวิเคราะห์การอยู่รอด ช่วงเวลาที่ทวีตถูกนำออกมีดังนี้
    • 1% ถูกนำออกภายใน 1 ชั่วโมงหลังโพสต์
    • 3% ถูกนำออกภายใน 1 วัน
    • 10% ถูกนำออกภายใน 1 สัปดาห์
    • 15% ถูกนำออกภายใน 1 เดือน
  • ครึ่งหนึ่งของทวีตที่ท้ายที่สุดถูกนำออก จะเข้าถึงไม่ได้ภายใน 6 วัน หลังโพสต์
  • 90% ของทวีตที่ท้ายที่สุดถูกนำออก จะเข้าถึงไม่ได้ภายใน 46 วัน หลังโพสต์
  • ทวีตไม่ได้หายไปอย่างถาวรเสมอไป
    • 6% ของทวีตที่เก็บมาหายไปแล้วกลับมาเข้าถึงได้อีกในภายหลัง
    • สาเหตุอาจเป็นเพราะบัญชีเปลี่ยนจากส่วนตัวกลับมาเป็นสาธารณะ หรือได้รับการกู้คืนหลังถูกระงับ
    • 90% ของทวีตที่กลับมาปรากฏอีกครั้งยังคงเข้าถึงได้บน Twitter เมื่อสิ้นสุดการติดตาม

1 ความคิดเห็น

 
GN⁺ 2024-05-20
ความคิดเห็นจาก Hacker News
  • ปัญหาที่ใหญ่กว่าการที่เว็บเพจ 38% หายไป คือทุกวันนี้ องค์กร·กลุ่ม·ธุรกิจ จำนวนมากแทบจะใช้แค่เพจ Facebook และไม่มีตัวตนบนเว็บนอก Facebook เลย
    สุดท้ายแล้ว ถ้าจะโต้ตอบกับพวกเขา บัญชี Facebook ก็กลายเป็นสิ่งจำเป็น

    • ฟอรัมก็เป็นแบบเดียวกัน
      ตอนนี้ทุกอย่างย้ายไปอยู่ใน subreddit, กลุ่ม Facebook และแชต Discord หมดแล้ว น่าเสียดายมากที่ข้อมูลมีค่าถูกซ่อนอยู่ในกลุ่มเหล่านั้น
    • ผมใช้ Facebook แค่เพื่อติดต่อกับญาติ ๆ ที่อยู่ไกลกัน
      ประมาณว่าเข้าไปดูวันละครั้งว่ามีอะไรเกิดขึ้นบ้าง และถ้ามีบัญชี ลิงก์นี้จะทำให้เรื่องนั้นง่ายขึ้นมาก: https://www.facebook.com/?filter=friends
    • ผมสงสัยว่ามีธุรกิจที่ขนาดใหญ่พอสมควรที่ใช้ แค่ Facebook จริง ๆ หรือเปล่า
      ธุรกิจท้องถิ่นแถวบ้านผมมีข้อมูลบน Google Maps ค่อนข้างเยอะ และถึงจะมีเว็บไซต์ก็มักจะเก่า แต่ถ้าโทรไปโดยตรงก็ได้คำตอบที่อยากรู้
    • 38% ของเว็บยุคก่อนเป็นพื้นที่ที่หลากหลาย มีเจตนาแอบแฝงน้อย และสร้างโดยมือสมัครเล่นในความหมายที่ดี
      ตอนนี้เว็บใหญ่ขึ้นมาก แต่ก็เป็นเนื้อเดียวกันมากขึ้นมาก ผมเดาว่าสัดส่วนแบบนั้นคงเหลือราว 0.00001% และผมคิดว่า เว็บไซต์ Web 1.0 ดีกว่า “เพจกลุ่ม” แบบปิดในปัจจุบัน
    • เคยไปร้านอาหารที่ลงเมนูดิจิทัลไว้ บน Facebook เท่านั้น
      พอบอกว่าไม่ได้ใช้ Facebook เขาก็มองผมเหมือนเป็นคนประหลาด
  • ถึงอย่างนั้น เว็บไซต์ดี ๆ ก็ยังพยายามอยู่บ้างในการเก็บรักษาเนื้อหาเก่า
    ตัวอย่างเช่น หน้ารายงานข่าวของ CNN และ BBC ตอนเหตุการณ์โจมตี 9/11 ยังอยู่: http://news.bbc.co.uk/hi/english/static/in_depth/americas/20...
    http://edition.cnn.com/SPECIALS/2001/trade.center/index.html
    คงคาดหวังไม่ได้ว่าลิงก์จำนวนมากจะทำงานได้ถูกต้อง แต่แค่ได้เห็นว่าเว็บสมัยก่อนหน้าตาเป็นอย่างไรก็น่าสนใจแล้ว

    • องค์ประกอบแบบโต้ตอบ บางส่วนของรายงานการเลือกตั้งเก่า ๆ ของ BBC ยังแทบจะใช้งานได้อยู่จนถึงตอนนี้
      ยากที่จะจินตนาการว่าอีก 20 ปีข้างหน้า เว็บไซต์จำนวนมากในปัจจุบันจะยังคงอยู่แบบนั้น และดูเหมือนว่าไม่ใช่เพราะเป็นไปไม่ได้ทางเทคนิค แต่คล้ายกับคุณภาพงานเขียนที่แย่ลงหลังมีการประดิษฐ์โปรแกรมประมวลผลคำ
      ตอนนี้ทุกอย่างถูกจัดการและจัดโครงสร้าง จนรู้สึกว่าอิสระและความฟูฟ่องที่เคยทำให้เราสร้างสิ่งดี ๆ ได้ในแบบที่อธิบายง่าย ๆ ไม่ได้หายไปแล้ว
  • ถ้าอยากสนับสนุนความพยายามในการเก็บรักษาเนื้อหาเก่า ๆ และเนื้อหาอื่น ๆ ก็ควรบริจาคให้ Internet Archive (archive.org) แม้เพียงไม่กี่ปอนด์
    และสิ่งใดที่รู้สึกว่ามีคุณค่า ก็ควรทำสำเนาไว้ในเครื่องเท่าที่ทำได้ เผื่อว่าสักวันมันจะหายไป
    หน้าเทคนิคจำนวนมากในไฟล์บุ๊กมาร์กของผมที่ย้ายข้ามการติดตั้งระบบต่าง ๆ มานานกว่า 20 ปี ตอนนี้ชี้ไปยังแบ็กอัปฉบับสมบูรณ์สุดท้ายก่อนที่หน้าต้นฉบับจะหายไป
    Internet Archive เป็นประโยชน์มหาศาลต่อทุกคน

    • ผมรู้ตัวว่าใช้บุ๊กมาร์กมากเกินไป
      ตอนนี้ถ้ามีข้อมูลอย่างบทความที่ลึกซึ้ง ข้อมูลเทคนิค หรือมุกตลกที่อยากอ้างอิงในภายหลัง ผมจะบันทึกเว็บเพจเป็น PDF หรือรูปแบบอื่น
      บุ๊กมาร์กเหมาะกับสิ่งที่มีค่าเมื่อเข้าถึงเวอร์ชันล่าสุดเท่านั้น เช่น เว็บไซต์ธนาคาร เว็บไซต์ช็อปปิง หรือระบบรีโมตเดสก์ท็อปของบริษัท
    • อยากให้ Internet Archive แยกเป็นสองนิติบุคคลอิสระ
      ฝั่งหนึ่งทำแค่การเก็บรักษาเว็บไซต์ ส่วนอีกฝั่งรับงานที่เหลือ เช่น การทดสอบทรัพย์สินทางปัญญาเชิงรุกเกี่ยวกับอีบุ๊กหรือวิดีโอเกม
      แบบนั้นต่อให้ “อีกฝั่ง” ล้มเพราะคดีความ การเก็บรักษาเว็บไซต์ก็ยังคงอยู่ได้ ฝั่งแรกเป็นบริการที่สำคัญต่อมนุษยชาติ ผมเลยบริจาคให้ แต่ก็เป็นห่วงอนาคต
  • ผมดูแลเว็บไซต์ข่าวมาตั้งแต่ปี 2019
    ทุกชั่วโมง crawler จะค้นหา ลิงก์ตาย และเปลี่ยนเป็นลิงก์ archive.org ประมาณวันละหนึ่งลิงก์
    เรื่องที่ตลกที่สุดคือเว็บไซต์ของผู้สมัครเลือกตั้งกลายเป็นหน้าว่างทั้งหมดในวันถัดจากการเลือกตั้ง ส่วนเรื่องที่เศร้าที่สุดคือเว็บไซต์รัฐบาลที่ล่มทุกสัปดาห์ตั้งแต่ตี 3 ถึงตี 5

    • น่าสนใจนะ crawler ตัวนั้นตรวจลิงก์ทั้งหมดทุกชั่วโมงเลยหรือว่าแบ่งเป็นชุด ๆ แล้วค่อยรัน?
  • จริง ๆ แล้วผมแปลกใจที่ตัวเลขไม่ได้สูงกว่านี้
    ปี 2013 เป็นช่วงหลังจากยุคเว็บไซต์งานอดิเรกของอินเทอร์เน็ตยุคแรกมานานแล้ว และเป็นช่วงที่เว็บไซต์ใหม่ส่วนใหญ่มีวัตถุประสงค์ทางธุรกิจ
    เมื่อคิดถึงอายุขัยของธุรกิจ ผมคาดว่าอีก 11 ปีให้หลัง เว็บไซต์น่าจะหายไปมากกว่านี้มาก
    บางทีการตายของ พื้นที่สร้างคอมมูนิตี้ อย่าง Angelfire, Geocities จำนวนมากอาจเป็นสัดส่วนใหญ่ก็ได้
    โดยเฉพาะถ้ามีกราฟแสดงว่าเว็บไซต์อยู่ได้นานแค่ไหนก็น่าจะน่าสนใจ เนื้อหายุคแรก ๆ ยังเหลืออยู่ค่อนข้างมาก และผมคิดว่าช่วงราวปี 2008–2018 น่าจะเป็นจุดสูงสุดของการหายไปของเว็บไซต์

    • เนื้อหายุคแรกจำนวนมากเคยอยู่บนแพลตฟอร์มที่ตายไปนานแล้ว
      เช่น Geocities, โฟลเดอร์ FTP ที่มหาวิทยาลัยให้และจะถูกลบหลังเรียนจบ, โฟลเดอร์ FTP ที่ ISP อย่าง Earthlink·Juno·Comcast ให้มา และมีความเป็นไปได้สูงว่าส่วนใหญ่ถูกลบไปแล้ว
  • ผมไม่อยากให้ทุกอย่างคงอยู่ตลอดไป
    ไม่นานมานี้บังเอิญเจอ .com แรกของผมที่ทำไว้ในยุค 90 โฮสต์อยู่บน Angelfire และ archive.org ก็เก็บรักษาซ้ำไว้อย่างขยันขันแข็ง ผลลัพธ์ก็เป็นอย่างที่คุณจินตนาการนั่นแหละ
    เป็นเว็บเพจที่ผมทำกับเพื่อนตอน ป.4 ถ้าวัดตามมาตรฐานตอนนั้นก็ถือว่าโอเค แต่ถ้าวัดตามมาตรฐานตอนนี้ ต่อให้เข้าใจบริบทแล้วก็ยังมีเนื้อหาบางอย่างที่ไม่โอเค
    มันไม่ได้เลวร้ายสุด ๆ แต่เป็นเนื้อหารสนิยมแย่ที่เกิดจากความไม่รู้แบบไร้เดียงสาของเด็กประถมยุค 90 และคงไม่ถูกลบออกจากมโนธรรมได้หมด ดังนั้นก็คงต้องรับมันไว้และได้แต่หวังว่าจะไม่มีใครเห็น

    • ผมก็มีข้อมูลคล้าย ๆ กัน
      ถ้าจะช่วยปลอบใจได้ พวกเราทุกคนก็แค่เป็นเด็กหรือวัยรุ่น และกำลังเรียนรู้โลกอยู่
      ผมรู้สึกสงสารคนรุ่นหลังเรามากกว่า เพราะพวกเขาเติบโตขึ้นหลังจากอินเทอร์เน็ตกลายเป็นพื้นที่ที่เข้าถึงได้ง่ายขึ้น และบางครั้งก็ถาวรมากขึ้น
    • เข้าใจความเจ็บปวดนั้นเลย
      โชคดีที่บางครั้ง archive ก็ยอมลบข้อมูลลงให้
  • ทุกสิ่งบนอินเทอร์เน็ตโดยเนื้อแท้แล้วเป็นสิ่ง ชั่วคราว
    แทนที่จะต่อต้านมัน ยอมรับมันน่าจะดีกว่า และถ้าอยากเก็บอะไรไว้ ก็ทำสำเนาแบบออฟไลน์ไว้ก็พอ
    PDF/A โดยเฉพาะเวอร์ชัน -1 และ -2 เป็นฟอร์แมตที่ออกแบบมาอย่างชัดเจนเพื่อการเก็บรักษา และเหมาะกับคอนเทนต์แบบสแตติก
    เพียงแต่น่าเสียดายที่การทำมิเรอร์ไม่ได้ถูกฝังอยู่ในเว็บสแตกอย่าง HTTP/HTML ให้ทำได้ง่ายกว่านี้ ถ้าสามารถสร้างลิงก์ที่มีสำเนาโลคัลเป็นเส้นทางสำรองได้ง่าย ๆ ปัญหา link rot ก็คงน่ากังวลน้อยลงมาก
    ส่วนตัวแล้ว วิธีที่ Wikipedia ลิงก์ทุกอย่างผ่าน archive.org ดูเหมือนเป็นทางแก้ขัดอยู่บ้าง

  • พูดตรง ๆ น่าแปลกใจที่ตัวเลขต่ำขนาดนั้น
    เว็บส่วนใหญ่ทุกวันนี้ดูเหมือน ขยะเพื่อทำ SEO

    • บางครั้งก็ทดลองอะไรบางอย่าง ทำเว็บเล็ก ๆ ขึ้นมา แล้วพอลืมทิ้งไว้สักพักและเห็นว่าไม่เกี่ยวข้องอีกต่อไป ก็ปิดมันลง
      เรื่องนั้นเองก็ไม่ได้แย่
      แต่การมีสิ่งอย่างเว็บอาร์ไคฟ์ที่ช่วยปกป้องความทรงจำร่วมของเราไว้สำหรับคอนเทนต์ที่มีคุณค่า ก็เป็นเรื่องยอดเยี่ยม
      โดยเฉพาะอย่างยิ่ง บันทึกที่ถูกเขียนขึ้นอย่างถูกต้องในขณะที่เหตุการณ์กำลังเกิดขึ้น ควรถูกเก็บรักษาไว้ในที่ใดที่หนึ่งซึ่งไม่สามารถเปลี่ยนแปลงได้ภายหลัง ทุกวันนี้ดูเหมือนการเขียนประวัติศาสตร์ใหม่จะเป็นที่นิยม การเก็บบันทึกต้นฉบับ ณ เวลานั้นไว้จึงช่วยต้านทานสิ่งนั้นได้
      แม้บันทึกนั้นจะไม่ได้ถูกต้องสมบูรณ์ทั้งหมด ก็ยังช่วยให้เข้าใจได้ว่าผู้กระทำในเวลานั้นเชื่อว่าอะไรคือความจริง
    • บางอย่างยังคงมีอยู่ เพียงแต่ ไม่ถูกแสดงบน Google อีกต่อไป เท่านั้น
  • ผมมองว่านี่เป็นความล้มเหลวร้ายแรงของอินเทอร์เน็ตที่พวกเรา collectively ควรหลีกเลี่ยงได้ดีกว่านี้
    ในกรณีส่วนใหญ่ คอนเทนต์เองน่าจะยังอยู่ที่ไหนสักแห่ง เพียงแต่ลิงก์เสียไปเท่านั้น
    ระบบสองชั้น แบบระบบ DOI ที่ห้องสมุดใช้ อาจช่วยในกรณีแบบนี้ได้: https://nuim.libguides.com/referencing/DigitalObjectIdentifi...
    แต่ถ้าจะรักษาประโยชน์ใช้สอยและความสะดวกของ URL ไว้ ก็คงต้องทำให้จัดการได้โดยอัตโนมัติ ซึ่งผมก็ไม่แน่ใจว่าจะเป็นไปได้อย่างไร

  • นี่ไม่ใช่บั๊ก แต่เป็นฟีเจอร์
    คงเลวร้ายมากถ้าเราอยู่ในโลกที่ไม่ลืมและไม่ให้อภัย
    การที่การเก็บรักษาคอนเทนต์ที่มีคุณค่าต้องใช้ความพยายามในระดับหนึ่งก็เป็นเรื่องดี เพราะจะทำให้คุณค่าของมันได้รับการยอมรับมากขึ้น

    • “โลกที่ไม่ลืมและไม่ให้อภัย” เป็นปัญหาคนละเรื่อง และหลัก ๆ มองได้ว่าเป็นปัญหาเรื่อง ความเป็นส่วนตัว
      ตรรกะที่ว่า “คอนเทนต์ที่มีคุณค่าควรต้องใช้ความพยายามในการเก็บรักษา คุณค่าจึงจะได้รับการยอมรับมากขึ้น” ฟังดูแทบเหมือนการอ้างว่าทุกอย่างควรมีราคาแพง
      ประมาณว่า สตอเรจราคาถูกเป็นเรื่องไม่ดีเพราะทำให้เราไม่เห็นคุณค่าของไฟล์ ส่วนการรักษาพยาบาลราคาแพงเป็นเรื่องดีเพราะทำให้เราตระหนักถึงคุณค่าของอวัยวะ
      ส่วนที่ยากคือการคาดการณ์ว่าในอนาคตคอนเทนต์ใดจะถูกมองว่ามีคุณค่า จนถึงตอนนี้ยังไม่มีอารยธรรมมนุษย์ใดหาคำตอบนั้นได้ดีนัก และโดยมากก็มุ่งเก็บรักษาเรื่องว่ากษัตริย์ยิ่งใหญ่เพียงใด
    • ในวันที่ Apple เข้าซื้อ NeXT ผมเคยอ่านบทความที่ตลกมากจากที่ไหนสักแห่งบนอินเทอร์เน็ต
      มันเริ่มต้นว่า “เหล่าลูกหลานแห่ง Macintosh จงคุกเข่าต่อหน้า Unix…” และทั้งบทความคงสำนวนแบบคัมภีร์ไบเบิลไว้ พร้อมอธิบายว่าทำไม Mac จึงถูก NeXT พิชิต
      เป็นบทความที่ยอดเยี่ยมจริง ๆ จนบางครั้งผมพยายามค้นหาอีกครั้งบนอินเทอร์เน็ต แต่ถ้าเราไม่รู้ว่าอะไรหายไป ก็ยากที่จะรู้ได้
    • คุณคิดว่าเราใช้ชีวิตอยู่ที่ไหนมาตลอด 5,000 ปีที่ผ่านมา?
      เรามี แผ่นดินเหนียวอักษรลิ่ม ที่ขุดพบจากกองขยะของ Ur และด้วยสิ่งนั้น ความรู้เล็กน้อยที่เรามีเกี่ยวกับ Sumer จึงยังคงหลงเหลืออยู่
      การประดิษฐ์ตัวอักษรทำให้การหลงลืมเป็นไปไม่ได้ และนักมานุษยวิทยาอย่าง Jack Goody, James Carey, David Olson, Barry Powell รวมถึงผู้เขียนอย่าง Walter Ong ได้ศึกษาประเด็นนี้อย่างลึกซึ้ง
      จริง ๆ แล้วเราอาศัยอยู่ในโลกอันเลวร้ายที่ส่วนใหญ่ติดอยู่กับอดีต และความซับซ้อนทางวัฒนธรรมก็ทับซ้อนกันเป็นชั้น ๆ เหมือนเปลือกหัวหอม
      ใคร ๆ ก็ย้อนกลับไปหาอดีตและโหยหามันได้ แต่อดีตที่เข้าถึงผ่านความรู้ที่ถูกจัดเก็บไว้ ย่อมมีความหมายแตกต่างกันสำหรับคนที่ไม่ได้มีประสบการณ์ตรง
      หลังยุคแท่นพิมพ์ เราอยู่ท่ามกลาง เงินเฟ้อของข้อมูล มาโดยตลอด นักวิชาการยุคกลางบ่นว่าเพราะแท่นพิมพ์ ใคร ๆ ก็อ่านและเขียนหนังสือได้ นักสโกลาสติกตกใจกับการเติบโตของภาษาพูด และ Michelangelo ก็บ่นถึงศิลปะอันว่างเปล่าของจิตรกร Flemish
      ประเด็นสำคัญตรงนี้คือความเร็วที่การเสื่อมสลายเกิดขึ้น บทความบอกว่า 38% ของไซต์ที่มีอยู่ในปี 2013 หายไปแล้ว แต่นั่นเพียงแค่ 10 ปีเท่านั้น
      เราไม่รู้ว่าในนั้นมีเสียงรบกวนมากแค่ไหน และมีข้อมูลที่เป็นประโยชน์หรืออย่างน้อยก็เป็นคอนเทนต์ที่น่าสนใจมากแค่ไหน เพราะมันหายไปแล้ว
      เราไม่รู้ด้วยว่าเว็บสแครปเปอร์รายใหญ่เก็บไว้มากแค่ไหน หรือ Google กับ Twitter เก็บไว้มากเท่าไร
      เราจะนิยามคอนเทนต์ที่มีคุณค่าอย่างไร? เป็นทวีตรูปนักแสดงหญิงกึ่งเปลือยที่มียอดวิว 1 ล้านครั้ง หรือทวีตการค้นพบครั้งสำคัญที่มียอดวิว 300 ครั้ง?
      ตอนที่อินเทอร์เน็ตทำลายผู้เฝ้าประตูอย่างบรรณาธิการหนังสือพิมพ์ หนังสือ นิตยสาร ทีวี และวิทยุ เราดีใจกันอย่างไม่สิ้นสุด แต่ผลลัพธ์คือเราถูกพัดพาไปกับเสียงรบกวน ทฤษฎีสมคบคิด มีม TikTok และอื่น ๆ
      ปัญหาคือเราแทบรับมือกับปริมาณข้อมูลมหาศาลที่ถาโถมเข้ามาไม่ได้ ผู้คนก็มีมากเกินไป รสนิยมก็แตกต่างกันเกินไป จนยากที่จะตกลงกันว่าอะไรมีคุณค่าและอะไรไม่มี
      “ฟีเจอร์” ที่คุณพูดถึงอาจเป็นเช่นนั้นโดยการออกแบบ แต่ไม่ได้หมายความว่ามันมีประโยชน์หรือถูกต้องทางศีลธรรม