- สื่อรายใหญ่กำลังบล็อกหรือจำกัดการเข้าถึง Internet Archive เพื่อป้องกันการ เก็บข้อมูลไปใช้ฝึก AI
- The Guardian ตัดหน้าบทความออกจาก API และ Wayback Machine ของ Internet Archive โดยเหลือไว้เพียงบางหน้าโฮมและหน้าหัวข้อ
- The New York Times ได้เพิ่ม
archive.org_bot ใน robots.txt ตั้งแต่ปลายปี 2025 เพื่อ บล็อกการครอลทั้งหมด
- เว็บไซต์ข่าว 241 แห่ง รวมถึง Gannett (USA Today Co.) บล็อกบอตของ Internet Archive อย่างน้อยหนึ่งตัว และหลายแห่งยังบล็อก Common Crawl, OpenAI และ Google AI พร้อมกันด้วย
- มาตรการเหล่านี้เป็นทั้ง การตอบโต้ต่อการใช้ข้อมูลโดยไม่ได้รับอนุญาตจากบริษัท AI และสะท้อน ปัญหาการสร้างสมดุลระหว่างการเก็บรักษาบันทึกดิจิทัลกับการเข้าถึงข้อมูล
การจำกัดการเข้าถึง Internet Archive ของสื่อหลัก
- The Guardian จำกัดการเข้าถึงเพราะกังวลว่า บริษัท AI อาจเก็บเนื้อหาผ่าน Internet Archive
- ตัดหน้าบทความของตนออกจากอินเทอร์เฟซ URL บทความของ API และ Wayback Machine
- แต่หน้าโฮมระดับภูมิภาคและหน้าหัวข้อบางส่วนยังคงเข้าถึงได้ผ่าน Wayback Machine
- Robert Hahn ระบุว่า “บริษัท AI มักชอบฐานข้อมูลที่มีโครงสร้าง และ API ของ Internet Archive อาจกลายเป็นช่องทางนั้นได้”
- The Guardian ระบุว่า ไม่ได้บล็อกทั้งหมด และยังเคารพภารกิจด้านการทำให้ข้อมูลเข้าถึงได้อย่างเป็นประชาธิปไตยของ Internet Archive
- อย่างไรก็ตาม กำลังประเมินจุดยืนนี้ใหม่ระหว่างการทบทวนนโยบายการจัดการบอตในอนาคต
การตอบสนองของ The New York Times และ Financial Times
- The New York Times ได้ เพิ่ม
archive.org_bot ลงใน robots.txt และทำ “hard block” กับครอเลอร์ของ Internet Archive
- โดยอธิบายว่า “Wayback Machine เปิดให้บุคคลที่สามรวมถึงบริษัท AI เข้าถึงเนื้อหาของ Times ได้อย่างไม่จำกัด”
- Financial Times บล็อกบอตที่เกี่ยวข้องทั้งหมด เช่น OpenAI, Anthropic, Perplexity และ Internet Archive เพื่อ ปกป้องเนื้อหาแบบเสียเงิน
- เนื่องจากบทความของ FT ส่วนใหญ่เป็นเนื้อหาแบบชำระเงิน จึงเหลือเฉพาะบทความสาธารณะใน Wayback Machine
ความขัดแย้งระหว่าง Reddit กับ Internet Archive
- Reddit บล็อกการเข้าถึงของ Internet Archive ในเดือนสิงหาคม 2025
- เหตุผลคือมีกรณีที่บริษัท AI สแครปข้อมูล Reddit ผ่าน Wayback Machine
- Reddit อธิบายว่าเป็น “มาตรการจำกัดเพื่อป้องกันกิจกรรมของบริษัท AI ที่ละเมิดนโยบายของแพลตฟอร์ม”
- ก่อนหน้านี้ Reddit เคยทำ ข้อตกลงลิขสิทธิ์ข้อมูลสำหรับการฝึก AI กับ Google
จุดยืนและการตอบสนองของ Internet Archive
- Brewster Kahle ผู้ก่อตั้งเตือนว่า “หากสำนักพิมพ์จำกัดห้องสมุดอย่าง Internet Archive ก็จะทำให้ การเข้าถึงบันทึกประวัติศาสตร์สาธารณะลดลง”
- Kahle ระบุบน Mastodon ว่า “บางคอลเลกชันไม่อนุญาตให้ดาวน์โหลดจำนวนมาก และกำลังใช้ การจำกัดความเร็ว การกรอง และบริการความปลอดภัยของ Cloudflare”
- ในเดือนพฤษภาคม 2023 เคยมีกรณีที่บริษัท AI แห่งหนึ่งส่งคำขอจำนวนมากจนทำให้เซิร์ฟเวอร์ทำงานหนักเกินไปและ Internet Archive ต้องหยุดให้บริการชั่วคราว
- หลังจากนั้นบริษัทดังกล่าวได้ขอโทษและบริจาคเงิน
การวิเคราะห์ข้อมูล: สถานะการบล็อกของเว็บไซต์ข่าวทั่วโลก
- Nieman Lab วิเคราะห์ ฐานข้อมูลเว็บไซต์ข่าว 1,167 แห่งของ Ben Welsh เพื่อตรวจสอบสถานะการบล็อกที่เกี่ยวข้องกับ Internet Archive
- เว็บไซต์ข่าว 241 แห่งบล็อกบอตของ Internet Archive อย่างน้อยหนึ่งตัว
- 87% เป็นสื่อในเครือ USA Today Co. (Gannett) ซึ่งได้เพิ่ม
archive.org_bot และ ia_archiver-web.archive.org ลงใน robots.txt ในปี 2025
- เว็บไซต์บางแห่งของ Gannett แสดงข้อความว่า “URL นี้ถูกยกเว้น” บน Wayback Machine
- Gannett ระบุว่าได้ “นำโปรโตคอลใหม่มาใช้เพื่อป้องกันการเก็บข้อมูลโดยไม่ได้รับอนุญาต” และรายงานว่าในเดือนกันยายน 2025 เพียงเดือนเดียวได้ บล็อกบอต AI ไป 75 ล้านครั้ง โดยในจำนวนนั้น 70 ล้านครั้งมาจาก OpenAI
- เว็บไซต์ 3 แห่งในเครือ Group Le Monde เช่น Le Monde, Le Huffington Post บล็อกครอเลอร์ของ Internet Archive ทั้งสามตัว
การขยายตัวของการบล็อกครอเลอร์ที่เกี่ยวข้องกับ AI
- นอกจาก Internet Archive แล้ว ยังมีแนวโน้มบล็อกครอเลอร์ AI รายใหญ่ เช่น Common Crawl, OpenAI และ Google AI ไปพร้อมกันด้วย
- จาก 241 เว็บไซต์ มี 240 แห่งที่บล็อก Common Crawl และ 231 แห่งที่บล็อกบอตของ OpenAI และ Google AI
- Common Crawl ถูกมองว่ามี ความเชื่อมโยงสูงกับการพัฒนา LLM เชิงพาณิชย์
ปัญหาการสร้างสมดุลระหว่างการเก็บรักษาอินเทอร์เน็ตกับการเข้าถึงข้อมูล
- Internet Archive เป็น โครงการเก็บรักษาเว็บที่ครอบคลุมที่สุดในสหรัฐฯ ขณะที่องค์กรข่าวจำนวนมากยังไม่มีศักยภาพในการเก็บรักษาด้วยตนเอง
- ในเดือนธันวาคม 2025 Poynter และ Internet Archive ได้ประกาศ โครงการฝึกอบรมการเก็บรักษาข่าวท้องถิ่น ร่วมกัน
- Hahn กล่าวว่า “Internet Archive ดำเนินงานด้วยเจตนาดี แต่ก็เกิด ผลข้างเคียงจากการที่ความตั้งใจดีถูกนำไปใช้ผิดทาง”
1 ความคิดเห็น
ความเห็นจาก Hacker News
จะอนุญาตให้ AI scraping หรือไม่ก็ไม่สำคัญ แต่คอนเทนต์ต้องสามารถถูกเก็บรักษาอย่างอิสระจากภายนอกได้เสมอ
กฎอย่าง SOC 2 หรือ HIPAA กำหนดให้ต้องมีaudit trail และการเก็บรักษาหลักฐาน
แต่ถ้าเอกสารด้านความปลอดภัยหรือรายงานตอบสนองเหตุการณ์หายไปจากเว็บ หลักฐานสำหรับการตรวจสอบก็ขาดตอน และผมเคยเห็นบริษัทตกการประเมินรับรองเพราะเรื่องนี้
สุดท้ายการที่เว็บไม่สามารถเก็บรักษาไว้ได้จึงไม่ใช่แค่ความสูญเสียทางวัฒนธรรม แต่กลายเป็นความเสี่ยงด้านการดำเนินงาน
หน้า AWS Compliance Reports เป็นตัวอย่างแบบนั้นพอดี
แม้แต่งานจัดระเบียบ log ธรรมดายังมีการถกเถียงเรื่องความสำคัญ
ถ้าเกิดกรณีความเสียหายใหญ่ ๆ สักไม่กี่ครั้งก็น่าจะกลายเป็นเรื่องจริง
สุดท้ายคนที่เสียประโยชน์คือผู้ใช้ทั่วไปที่ไม่มีทรัพยากรจะ scrape เว็บทั้งก้อน
ผมเคยฝันถึงเว็บที่คอนเทนต์ถูก rehost ใหม่แบบอิง hash — IPFS เคยพยายามทำแบบนั้น แต่เสียดายที่ไม่สำเร็จ
แต่ทั้งที่มี Common Crawl อยู่แล้ว ก็ยังสงสัยว่าทำไมบริษัท AI ถึงยัง crawl เองโดยตรงไม่เลิก
ถ้าไม่มีการทำ archive แยกไว้ บทความข่าวของสื่อก็สุดท้ายหนีไม่พ้นการหายไป
ตัวอย่างเช่น ถ้าบรรณาธิการ Wikipedia หา link บทความของ Times ที่เสถียรไม่ได้ สุดท้ายก็คงเปลี่ยนไปใช้บทความของ WaPo แทน
นี่แหละคือโศกนาฏกรรมของทรัพยากรส่วนรวม
เป็นเครื่องมือที่ช่วยให้ทีมต่าง ๆ เก็บรักษา URL ได้อย่างเสถียรโดยไม่ต้องพึ่งบริการภายนอก
มันบันทึกได้หลายรูปแบบทั้ง HTML snapshot, screenshot, PDF, reader view
มีทั้งเวอร์ชัน cloud-hosted (linkwarden.app) และเวอร์ชัน self-hosted (GitHub repository)
แต่อยากให้มีฟีเจอร์ทำเครื่องหมายว่า“อ่านแล้ว/เก็บถาวรแล้ว”ในแง่ UX
ความผิดพลาดของ metadata เพิ่มขึ้น และเสิร์ชเอนจินงานวิชาการอย่าง Google Scholar ก็เริ่มพัง
ดูเหมือนสำนักพิมพ์วิทยาศาสตร์รายใหญ่บางแห่งก็กำลังบล็อกบอต AI เหมือนกัน
เว็บไซต์ข่าวทั้งหมด 20% บล็อกทั้งสองแห่งพร้อมกัน
ตัวอย่างเช่น บทความของ realtor.com ไม่สามารถ archive บน IA ได้เพราะเจอ error 429
สุดท้ายจึงกลายเป็นว่าฝั่งดีถูกกันออกไป แต่ฝั่งร้ายยังอยู่
แต่โจทย์คือจะกรองหน้าที่มีข้อมูลส่วนบุคคลอย่างไร
พอบริษัท AI เริ่มใช้ proxy ผมก็ต้องบล็อกทุกประเทศที่ไม่ใช่กลุ่มเป้าหมาย
อินเทอร์เน็ตกลายเป็นระบบนิเวศที่ป่วยไข้ไปแล้ว
ถ้ามีเงื่อนไขว่าจะไม่ให้ใช้เพื่อฝึกโมเดลของบริษัทก็น่าจะพอเป็นไปได้
ปัญหาคือ LLM กำลังดูดกลืน value chain ไปโดยที่ไม่มีมูลค่าถูกส่งกลับคืนมา
บันทึกเฉพาะโดเมนที่ผู้ใช้อนุญาต และถ้าเป็นโอเพนซอร์สก็ช่วยลดความกังวลด้านความเป็นส่วนตัวได้
มันไม่ใช่การ crawl อัตโนมัติ แต่เป็นการอัปโหลดเพียงบางส่วนของการดูจากผู้ใช้จริง
แต่เว็บอาจซ่อนข้อมูลระบุตัวตนของผู้ใช้ไว้ได้ จึงมีความเสี่ยงเรื่องข้อมูลส่วนบุคคลรั่วไหล
ถ้าจะใช้เป็นบันทึกทางประวัติศาสตร์ก็ยังยากที่จะสร้างความน่าเชื่อถือ