- Internet Archive ผู้ให้บริการ Wayback Machine บรรลุหมุดหมายทางประวัติศาสตร์ด้วยการ เก็บรักษาหน้าเว็บทั่วโลกครบ 1 ล้านล้านหน้า
- โครงการนี้เริ่มต้นในปี 1996 โดยเป็นความร่วมมือเพื่อ อนุรักษ์ความทรงจำร่วมของเว็บ ผ่านการจัดเก็บคอนเทนต์หลากหลายประเภท เช่น ข่าว บล็อก และโฮมเพจส่วนตัว
- เพื่อฉลองโอกาสนี้ จะมีการจัด ชุดกิจกรรมตลอดเดือนตุลาคม ทั้งคอนเสิร์ต เสวนา ฟอรัม และโอเพนเฮาส์ ที่ซานฟรานซิสโกและทางออนไลน์
- งานดังกล่าวมีผู้บุกเบิกอินเทอร์เน็ตเข้าร่วม เช่น Tim Berners-Lee ผู้ให้กำเนิดเว็บ, Brewster Kahle ผู้ก่อตั้ง Internet Archive และ Vint Cerf จาก Google
- ความสำเร็จครั้งนี้มีความหมายในฐานะการย้ำเตือนถึง คุณค่าของการเก็บรักษาบันทึกร่วมในยุคดิจิทัล และเป็นเวทีหารือร่วมกันถึง อนาคตของเว็บที่เสรีและเปิดกว้าง
ความหมายของการแตะ 1 ล้านล้านหน้าของ Internet Archive
- Wayback Machine รวบรวมและเก็บรักษาเว็บไซต์จากทั่วโลกโดยอัตโนมัติตั้งแต่ปี 1996 เพื่อให้ทุกคนสามารถสำรวจเว็บในอดีตได้
- การแตะ 1 ล้านล้านรายการครั้งนี้คือความก้าวหน้าครั้งสำคัญของเป้าหมายในการเป็น “ห้องสมุดร่วมของประวัติศาสตร์ออนไลน์ของมนุษยชาติ”
- โครงการนี้ดำรงอยู่ได้ด้วยความร่วมมือระดับโลกกับห้องสมุด สถาบันวิจัย และอาสาสมัครรายบุคคล
- คลังข้อมูลนี้เก็บร่องรอยของเว็บที่อาจสูญหายไป ไม่ว่าจะเป็นพาดหัวข่าว บล็อก ฟอรัม หรือโฮมเพจส่วนตัว ให้กลายเป็น ความทรงจำดิจิทัลสำหรับคนรุ่นหลัง
กำหนดการกิจกรรมฉลองในเดือนตุลาคม
7 ตุลาคม — The Vast Blue We: Del Sol Quartet at the Internet Archive
- จัดการแสดงที่สำนักงานใหญ่ในซานฟรานซิสโก พร้อมบทเพลงจาก Del Sol Quartet เพื่อเฉลิมฉลองความยิ่งใหญ่ของความร่วมมือระหว่างมนุษย์
- มีกำหนดบรรเลงเพลงใหม่ที่ประพันธ์โดย Erika Oba และ Sam Reider
- ถ่ายทอดผ่านดนตรีถึง ความงดงามของความร่วมมือบนเว็บที่เกิดจากการกระทำของผู้คนนับพันล้าน
9 ตุลาคม — เสวนาระหว่าง Sir Tim Berners-Lee และ Brewster Kahle
- การสนทนาระหว่าง Sir Tim Berners-Lee ผู้ให้กำเนิดเวิลด์ไวด์เว็บ และ Brewster Kahle ผู้ก่อตั้ง Internet Archive
- พูดคุยในหลากหลายประเด็น ทั้งการเติบโตของอินเทอร์เน็ต การเปลี่ยนแปลงของสังคม และบทบาทของ Internet Archive
- เป็นบทสนทนาเชิงลึกว่าด้วยพัฒนาการต่อเนื่องของอินเทอร์เน็ตและประเด็นอนาคต
- จัดที่ Commonwealth Club ในซานฟรานซิสโก พร้อมถ่ายทอดสดออนไลน์
16 ตุลาคม — Library Leaders Forum 2025 (ออนไลน์)
- Internet Archive และองค์กรพันธมิตรจะแชร์บริการห้องสมุดใหม่และความคืบหน้าของโครงการที่ดำเนินอยู่
- ผู้นำห้องสมุดจากทั่วโลกร่วมกันหารือถึง อนาคตของการเก็บรักษาดิจิทัลและการสนับสนุนงานวิจัย
- มีการแนะนำบริการใหม่ของ Internet Archive และกรณีตัวอย่างการสนับสนุนงานวิจัย
21 ตุลาคม — Doors Open 2025: ทัวร์คลังจัดเก็บทางกายภาพ
- เปิดให้ชม คลังจัดเก็บทางกายภาพ ในเมือง Richmond รัฐแคลิฟอร์เนีย รวมถึงสภาพแวดล้อมการเก็บรักษาหนังสือ เพลง วิดีโอ และฟิล์มจริง
- สาธิต กระบวนการจัดเก็บเอกสารจริง เช่น หนังสือ เพลง ฟิล์ม และไมโครฟิช
- เป็นโอกาสให้ได้เห็นวงจรชีวิตทั้งหมดของวัสดุทางกายภาพ ตั้งแต่การบริจาค การอนุรักษ์ การแปลงเป็นดิจิทัล ไปจนถึงการเข้าถึง
22 ตุลาคม — The Web We’ve Built: 1 Trillion Celebration
- งานฉลองอย่างเป็นทางการของ Wayback Machine ในโอกาสแตะ 1 ล้านล้านหน้าเว็บ
- จัดพร้อมกันทั้งที่สำนักงานใหญ่ในซานฟรานซิสโกและในรูปแบบ ปาร์ตี้สตรีมมิงระดับโลก
- ภายใต้ธีม “การเก็บรักษาความทรงจำ ช่วงเวลา และความเคลื่อนไหว 1 ล้านล้านรายการ”
เพื่อเฉลิมฉลอง คุณค่าของเว็บสาธารณะและพลังของบันทึกร่วม
27 ตุลาคม — Wayback to the Future: Celebrating the Open Web
- จัดขึ้นที่ Riggs Library มหาวิทยาลัยจอร์จทาวน์ กรุงวอชิงตัน ดี.ซี.
- ร่วมจัดโดย Foundation for American Innovation, Massive Data Institute และ Internet Archive
- เป็นการทบทวนคุณค่าของเว็บในอดีตที่เปิดกว้างและเต็มไปด้วยการทดลอง พร้อมอภิปรายถึง ความยั่งยืนของระบบนิเวศอินเทอร์เน็ตที่เสรี และอนาคตของเว็บ ท่ามกลางกระแสการรวมศูนย์และปิดกั้นในปัจจุบัน
- มีวิทยากรอย่าง Vint Cerf (Google), Cindy Cohn (EFF) และ Jon Stokes (Ars Technica) เข้าร่วม
อนาคตของความทรงจำดิจิทัล
- การจัดเก็บหน้าเว็บครบ 1 ล้านล้านหน้า มีความหมายมากกว่าตัวเลขเพียงอย่างเดียว
- ข้อมูลเหล่านี้ทำให้ Wayback Machine กลายเป็นทรัพยากรสาธารณะสำคัญในหลายด้าน ตั้งแต่กรณีผู้อพยพ ประวัติศาสตร์ส่วนบุคคล งานวิจัยเชิงวิชาการ ไปจนถึงวารสารศาสตร์เชิงสืบสวน
- Internet Archive จะเดินหน้าสานต่อวิสัยทัศน์ของ “ห้องสมุดเว็บสาธารณะที่ทุกคนเข้าถึงได้” ต่อไป
- การบรรลุ 1 ล้านล้านหน้าไม่ใช่จุดจบ แต่เป็น จุดเริ่มต้นใหม่ และ
จะมีการพูดคุยต่อถึงแนวทางการเข้าถึงและการเก็บรักษาข้อมูลในยุค AI
- Brewster Kahle เน้นย้ำว่า “เว็บที่เราร่วมกันสร้างขึ้นคือ บันทึกขนาดมหึมาของปัญญาส่วนรวม และการปกป้องมันคือความรับผิดชอบของมนุษยชาติ”
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ถ้ามีสิ่งหนึ่งที่อยากได้ก็คือเครือข่ายเพียร์มิเรอร์ของ archive.org เพราะเว็บแอปของ IA มีแนวโน้มจะโดนจำกัดการเข้าถึงอย่างรวดเร็วเมื่อพยายามคลิกดูหลายวันที่ต่างกัน ถ้ามีทางเลือกแบบแหล่งอื่นที่ค่อย ๆ ทำ distributed mirroring ของคอนเทนต์ archive.org อย่างช้า ๆ คล้าย torrent และเปิดให้ผู้ใช้เลือกตรวจดูและยืนยันข้อมูลได้ก็คงดีมาก ตอนนี้ผมรันอาร์ไคฟ์ของตัวเองด้วย ArchiveBox แต่ก็ใช้แค่ตามความต้องการส่วนตัวเป็นหลัก ส่วนใหญ่ก็ยังใช้ IA อยู่ดี เพราะมีข้อมูลอยู่มหาศาลจริง ๆ
Archive Team เคยทำโปรเจ็กต์สำรองข้อมูลแบบกระจายของบางส่วนจากอินเทอร์เน็ตอาร์ไคฟ์โดยแยกจาก Internet Archive ดูรายละเอียดและความคืบหน้าได้ที่ วิกิโปรเจ็กต์ INTERNETARCHIVE.BAK แต่ช่วงหลังอยู่ในสถานะหยุดชั่วคราว
ยืนยันได้เลยว่าเว็บอาร์ไคฟ์ช้ามากจริง ๆ ดูเหมือนพวก AI scraper จะทำให้เกิดคอขวดด้านแบนด์วิดท์ด้วย อาร์ไคฟ์ดิจิทัลบางแห่งต้องมีบัญชีนักวิทยาศาสตร์แยกต่างหากถึงจะเข้าถึงได้เหมือน Common Crawl เพราะปริมาณข้อมูลมหาศาลและเป้าหมายการเก็บรักษาก็ใหญ่มาก จึงเป็นการเก็บไม่ใช่แค่อินเทอร์เน็ตแต่รวมถึงมิติเวลาเพิ่มเข้ามาด้วย ข้อมูลเยอะเกินไปจนการไล่ดูหรือค้นหายากมาก แทบใช้งานจริงไม่ได้เลย เลยทำโปรเจ็กต์ลิงก์เมตาดาต้า Internet-Places-Database ขึ้นมาเองเพื่อดึงข้อมูลโดเมน
ตอนก่อนหน้านี้ที่ทำโปรเจ็กต์ scraping ผมพยายามหา snapshot เก่า ๆ แล้วพบว่าการดึงข้อมูลจาก Internet Archive ยากกว่าที่คิดมาก พอใช้ pywaybackup แล้วรู้สึกว่าดีขึ้นเยอะ
สงสัยว่าทำไม IA ไม่รันอินสแตนซ์ IPFS หรือจริง ๆ รันอยู่แต่ไม่ค่อยมีคนใช้ บริการมิเรอร์ IPFS หลายแห่งก็ทำงานได้ค่อนข้างเร็วอยู่แล้ว ปัญหาอย่างหนึ่งที่ผมเจอกับ IA คือเว็บเก่ามาก ๆ บางเว็บเรนเดอร์ไม่ถูกต้องเพราะปัญหา JS หรือ CSS เลยสงสัยว่าจะมีวิธีแก้ย้อนหลังสิ่งเหล่านี้ได้ไหม ถ้าสามารถส่งออกโค้ดทั้งหมดที่ใช้ได้ในตอนนั้นก็น่าจะกู้เว็บกลับมาได้สมบูรณ์ขึ้นมาก คงดีมากถ้าใน IA เวลาคลิกโดเมนแล้วเดสก์ท็อปไคลเอนต์จะค่อย ๆ ดาวน์โหลดไฟล์ WAR ตามต้องการเข้า low-priority queue เพื่อให้ดูได้สมบูรณ์แบบแม้ออฟไลน์
ผมเคยคิดระบบสำหรับ “บริจาค” พื้นที่เก็บข้อมูลที่เหลือให้ archive.org โดยให้รันไคลเอนต์แล้วประกาศว่าจะให้ 1TB จากนั้นเซิร์ฟเวอร์ก็ส่งคอนเทนต์ที่หายากที่สุดมาเก็บไว้ในเครื่องเรา โครงสร้างจะอิง torrent และสามารถวางระบบส่งต่อคอนเทนต์ที่ใช้งานง่ายทับลงไปได้ด้วย จะใช้เป็นรูปแบบที่รับข้อมูลจากเครือข่ายนี้ก็ได้ ผมเคยอีเมลหาอาร์ไคฟ์ทีมอยู่สองสามทีม แต่ไม่มีใครสนใจ สุดท้ายเลยไม่ได้สร้างมันขึ้นมา
ผมดูแลทีมดาต้าเซ็นเตอร์/อินฟราที่ Internet Archive และอยากชวนทุกคนมางานต่าง ๆ ที่จะจัดในฤดูใบไม้ร่วงนี้ ถ้าค่าตั๋วเป็นภาระ รบกวนอีเมลมาหาผมได้เลย (ดูในโปรไฟล์) จะพยายามช่วยให้เข้าร่วมได้มากที่สุด
อยากรู้ว่า IA จัดงานแบบกระจายทั่วโลก หรือว่ารวมตัวกันที่ SF แล้วก็ขอบคุณจริง ๆ สำหรับงานที่สำคัญต่อมนุษยชาติมากแบบนี้
ผมเคยอยากทำงานที่ IA แต่โอกาสรับสมัครหายากจริง ๆ
อยากรู้เบื้องหลังทางเทคนิคที่ใช้ทำความสำเร็จครั้งนี้ เช่น วิธี web crawling หรือรูปแบบการจัดเก็บข้อมูลต่าง ๆ
อยากรู้ว่างานที่ว่าคืองานอะไรบ้างแบบเจาะจง
ความสำเร็จของการอาร์ไคฟ์เว็บเพจ 1 ล้านล้านหน้านั้นน่าทึ่งมาก แต่... ไม่มีวิธีค้นหามันได้เลย สุดท้ายถ้ารู้ url อยู่แล้วก็ต้องพิมพ์เองถึงจะหาเจอ ซึ่งลดประโยชน์ของบริการไปมาก เช่น น่าจะดีถ้าค้นหาชื่อศิลปิน ชื่อไฟล์ หรือแม้แต่เนื้อหาในภาพทั้งหมดได้
การทำดัชนีทั้งหมดนั้นน่าจะเป็นฝันร้ายจริง ๆ
จำได้ว่าฟีเจอร์นี้เคยทำได้ในที่อย่าง Kagi แต่ตอนนี้หาไม่เจอว่าใช้อยู่ที่ไหน
ต้องคิดเรื่องความเป็นส่วนตัวในกระบวนการนี้ด้วย กติกา robots.txt จะกลายเป็นไร้ความหมาย และการลบเว็บก็แทบจะย้อนกลับไปทำไม่ได้แล้ว สุดท้ายแม้จะเป็นข้อมูลสาธารณะและคงห้ามไม่ได้อยู่ดี แต่การทำให้ค้นหา IA ทั้งหมดได้เป็นความคิดที่แย่มากจริง ๆ
ผมใช้ GPT web search ขอให้ช่วยหาแบบเรียนใน IA อยู่บ่อย ๆ ซึ่งเหมาะกับการหาแบบเรียนดี แต่ไม่แน่ใจว่าใช้กับเว็บเพจทั่วไปได้ดีแค่ไหน
ถ้าจะช่วยส่งข้อมูลเข้า IA เพิ่มเติม กลุ่มอาสาสมัครที่เกี่ยวข้องคือ ArchiveTeam ซึ่งเป็นที่ที่ส่งข้อมูลไปยัง IA และดูรายละเอียดเพิ่มเติมได้ที่ archiveteam.org
ผมคิดว่า Internet Archive ควรทำดีลใหญ่กับบริษัท AI ไปเลย... เช่น เราจะส่งรถบรรทุกข้อมูลทั้งหมดคันหนึ่งให้บริษัท AI แลกกับการบริจาคก้อนใหญ่พอให้ IA เดินหน้าต่อไปได้อีกหลายปี ถ้าไม่จ่ายเงินก็ยังให้เข้าถึงได้เหมือนเดิม แต่ลดความเร็วดาวน์โหลดลงหนัก ๆ จนต้องใช้เวลาหลายปีกว่าจะเอาข้อมูลทั้งหมดไปได้
สงสัยว่า Internet Archive กับ Common Crawl เคยร่วมมือกันไหม อยากเทียบขอบเขตงานหรือโครงสร้างพื้นฐานของทั้งสององค์กร แม้จุดประสงค์ต่างกัน แต่ในทางปฏิบัติก็ทำสิ่งคล้ายกันมาก
ศิลปิน Sam Reider ที่จะขึ้นงานออฟไลน์สัปดาห์นี้ยอดเยี่ยมมาก ตั้งตารอมาก
สรุปแล้วนี่หมายความว่าไม่ต้อง crawl เว็บทั้งก้อนเองก็แค่จ่ายเงินให้ Archive แล้วได้ข้อมูลทั้งหมดมาใช่ไหม
ในบล็อกโพสต์ที่เกี่ยวข้องกำลังเปิดรับเรื่องราวอยู่ ลองดูได้
https://blog.archive.org/2025/09/23/celebrating-1-trillion-webpages-archived-share-your-wayback-story/
นี่เป็นหมุดหมายที่ยิ่งใหญ่มากของประวัติศาสตร์อินเทอร์เน็ต