สื่อข่าวต่าง ๆ จำกัดการเข้าถึง Internet Archive จากความกังวลเรื่องการสแครปข้อมูลโดย AI

(niemanlab.org)

2 คะแนน โดย GN⁺ 2026-02-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สื่อรายใหญ่กำลังบล็อกหรือจำกัดการเข้าถึง Internet Archive เพื่อป้องกันการ เก็บข้อมูลไปใช้ฝึก AI
The Guardian ตัดหน้าบทความออกจาก API และ Wayback Machine ของ Internet Archive โดยเหลือไว้เพียงบางหน้าโฮมและหน้าหัวข้อ
The New York Times ได้เพิ่ม archive.org_bot ใน robots.txt ตั้งแต่ปลายปี 2025 เพื่อ บล็อกการครอลทั้งหมด
เว็บไซต์ข่าว 241 แห่ง รวมถึง Gannett (USA Today Co.) บล็อกบอตของ Internet Archive อย่างน้อยหนึ่งตัว และหลายแห่งยังบล็อก Common Crawl, OpenAI และ Google AI พร้อมกันด้วย
มาตรการเหล่านี้เป็นทั้ง การตอบโต้ต่อการใช้ข้อมูลโดยไม่ได้รับอนุญาตจากบริษัท AI และสะท้อน ปัญหาการสร้างสมดุลระหว่างการเก็บรักษาบันทึกดิจิทัลกับการเข้าถึงข้อมูล

การจำกัดการเข้าถึง Internet Archive ของสื่อหลัก

The Guardian จำกัดการเข้าถึงเพราะกังวลว่า บริษัท AI อาจเก็บเนื้อหาผ่าน Internet Archive
- ตัดหน้าบทความของตนออกจากอินเทอร์เฟซ URL บทความของ API และ Wayback Machine
- แต่หน้าโฮมระดับภูมิภาคและหน้าหัวข้อบางส่วนยังคงเข้าถึงได้ผ่าน Wayback Machine
- Robert Hahn ระบุว่า “บริษัท AI มักชอบฐานข้อมูลที่มีโครงสร้าง และ API ของ Internet Archive อาจกลายเป็นช่องทางนั้นได้”
The Guardian ระบุว่า ไม่ได้บล็อกทั้งหมด และยังเคารพภารกิจด้านการทำให้ข้อมูลเข้าถึงได้อย่างเป็นประชาธิปไตยของ Internet Archive
- อย่างไรก็ตาม กำลังประเมินจุดยืนนี้ใหม่ระหว่างการทบทวนนโยบายการจัดการบอตในอนาคต

การตอบสนองของ The New York Times และ Financial Times

The New York Times ได้ เพิ่ม archive.org_bot ลงใน robots.txt และทำ “hard block” กับครอเลอร์ของ Internet Archive
- โดยอธิบายว่า “Wayback Machine เปิดให้บุคคลที่สามรวมถึงบริษัท AI เข้าถึงเนื้อหาของ Times ได้อย่างไม่จำกัด”
Financial Times บล็อกบอตที่เกี่ยวข้องทั้งหมด เช่น OpenAI, Anthropic, Perplexity และ Internet Archive เพื่อ ปกป้องเนื้อหาแบบเสียเงิน
- เนื่องจากบทความของ FT ส่วนใหญ่เป็นเนื้อหาแบบชำระเงิน จึงเหลือเฉพาะบทความสาธารณะใน Wayback Machine

ความขัดแย้งระหว่าง Reddit กับ Internet Archive

Reddit บล็อกการเข้าถึงของ Internet Archive ในเดือนสิงหาคม 2025
- เหตุผลคือมีกรณีที่บริษัท AI สแครปข้อมูล Reddit ผ่าน Wayback Machine
- Reddit อธิบายว่าเป็น “มาตรการจำกัดเพื่อป้องกันกิจกรรมของบริษัท AI ที่ละเมิดนโยบายของแพลตฟอร์ม”
ก่อนหน้านี้ Reddit เคยทำ ข้อตกลงลิขสิทธิ์ข้อมูลสำหรับการฝึก AI กับ Google

จุดยืนและการตอบสนองของ Internet Archive

Brewster Kahle ผู้ก่อตั้งเตือนว่า “หากสำนักพิมพ์จำกัดห้องสมุดอย่าง Internet Archive ก็จะทำให้ การเข้าถึงบันทึกประวัติศาสตร์สาธารณะลดลง”
Kahle ระบุบน Mastodon ว่า “บางคอลเลกชันไม่อนุญาตให้ดาวน์โหลดจำนวนมาก และกำลังใช้ การจำกัดความเร็ว การกรอง และบริการความปลอดภัยของ Cloudflare”
ในเดือนพฤษภาคม 2023 เคยมีกรณีที่บริษัท AI แห่งหนึ่งส่งคำขอจำนวนมากจนทำให้เซิร์ฟเวอร์ทำงานหนักเกินไปและ Internet Archive ต้องหยุดให้บริการชั่วคราว
- หลังจากนั้นบริษัทดังกล่าวได้ขอโทษและบริจาคเงิน

การวิเคราะห์ข้อมูล: สถานะการบล็อกของเว็บไซต์ข่าวทั่วโลก

Nieman Lab วิเคราะห์ ฐานข้อมูลเว็บไซต์ข่าว 1,167 แห่งของ Ben Welsh เพื่อตรวจสอบสถานะการบล็อกที่เกี่ยวข้องกับ Internet Archive
- เว็บไซต์ข่าว 241 แห่งบล็อกบอตของ Internet Archive อย่างน้อยหนึ่งตัว
- 87% เป็นสื่อในเครือ USA Today Co. (Gannett) ซึ่งได้เพิ่ม archive.org_bot และ ia_archiver-web.archive.org ลงใน robots.txt ในปี 2025
- เว็บไซต์บางแห่งของ Gannett แสดงข้อความว่า “URL นี้ถูกยกเว้น” บน Wayback Machine
Gannett ระบุว่าได้ “นำโปรโตคอลใหม่มาใช้เพื่อป้องกันการเก็บข้อมูลโดยไม่ได้รับอนุญาต” และรายงานว่าในเดือนกันยายน 2025 เพียงเดือนเดียวได้ บล็อกบอต AI ไป 75 ล้านครั้ง โดยในจำนวนนั้น 70 ล้านครั้งมาจาก OpenAI
เว็บไซต์ 3 แห่งในเครือ Group Le Monde เช่น Le Monde, Le Huffington Post บล็อกครอเลอร์ของ Internet Archive ทั้งสามตัว

การขยายตัวของการบล็อกครอเลอร์ที่เกี่ยวข้องกับ AI

นอกจาก Internet Archive แล้ว ยังมีแนวโน้มบล็อกครอเลอร์ AI รายใหญ่ เช่น Common Crawl, OpenAI และ Google AI ไปพร้อมกันด้วย
- จาก 241 เว็บไซต์ มี 240 แห่งที่บล็อก Common Crawl และ 231 แห่งที่บล็อกบอตของ OpenAI และ Google AI
Common Crawl ถูกมองว่ามี ความเชื่อมโยงสูงกับการพัฒนา LLM เชิงพาณิชย์

ปัญหาการสร้างสมดุลระหว่างการเก็บรักษาอินเทอร์เน็ตกับการเข้าถึงข้อมูล

Internet Archive เป็น โครงการเก็บรักษาเว็บที่ครอบคลุมที่สุดในสหรัฐฯ ขณะที่องค์กรข่าวจำนวนมากยังไม่มีศักยภาพในการเก็บรักษาด้วยตนเอง
ในเดือนธันวาคม 2025 Poynter และ Internet Archive ได้ประกาศ โครงการฝึกอบรมการเก็บรักษาข่าวท้องถิ่น ร่วมกัน
Hahn กล่าวว่า “Internet Archive ดำเนินงานด้วยเจตนาดี แต่ก็เกิด ผลข้างเคียงจากการที่ความตั้งใจดีถูกนำไปใช้ผิดทาง”

1 ความคิดเห็น

GN⁺ 2026-02-15

ความเห็นจาก Hacker News

ถ้าสื่อไหนปฏิเสธการเก็บบันทึกถาวรอย่างเป็นอิสระ ผมก็คิดว่าไม่อาจเชื่อถือข่าวของพวกเขาได้
จะอนุญาตให้ AI scraping หรือไม่ก็ไม่สำคัญ แต่คอนเทนต์ต้องสามารถถูกเก็บรักษาอย่างอิสระจากภายนอกได้เสมอ
- ผมก็คิดเหมือนกัน การมีบันทึกอิสระเป็นสิ่งจำเป็น
- รู้สึกว่าไม่มีแหล่งข่าวไหนที่เชื่อถือได้เลย ส่วนใหญ่ต่างก็ผลักดันวาระที่ตั้งใจไว้ และตอนนี้ก็ไม่ได้ปิดบังกันแล้ว
ปัญหานี้มีมิติด้านcompliance (การปฏิบัติตามข้อกำหนด) อยู่ด้วย
กฎอย่าง SOC 2 หรือ HIPAA กำหนดให้ต้องมีaudit trail และการเก็บรักษาหลักฐาน
แต่ถ้าเอกสารด้านความปลอดภัยหรือรายงานตอบสนองเหตุการณ์หายไปจากเว็บ หลักฐานสำหรับการตรวจสอบก็ขาดตอน และผมเคยเห็นบริษัทตกการประเมินรับรองเพราะเรื่องนี้
สุดท้ายการที่เว็บไม่สามารถเก็บรักษาไว้ได้จึงไม่ใช่แค่ความสูญเสียทางวัฒนธรรม แต่กลายเป็นความเสี่ยงด้านการดำเนินงาน
- ผมลองหาตัวอย่างดู ผลลัพธ์แรกก็เจอ 404 เลย
  หน้า AWS Compliance Reports เป็นตัวอย่างแบบนั้นพอดี
- ผมเคยผ่านการตรวจ SOC กับบริษัทการเงินขนาดใหญ่มาหลายครั้ง ตอนนิยามว่างานไหนเป็นงานที่“critical”จริง ๆ มีความขัดแย้งระหว่างฝ่ายหนักมาก
  แม้แต่งานจัดระเบียบ log ธรรมดายังมีการถกเถียงเรื่องความสำคัญ
- สุดท้ายผมว่าเพื่อหลีกเลี่ยงปัญหาแบบนี้ บริษัทประกันอาจเริ่มบังคับให้เก็บสำเนาเอกสารบนกระดาษ
  ถ้าเกิดกรณีความเสียหายใหญ่ ๆ สักไม่กี่ครั้งก็น่าจะกลายเป็นเรื่องจริง
- มีบริษัทอย่าง Page Vault ที่เกิดขึ้นมาเพื่อแก้ปัญหานี้อยู่แล้ว
- แต่ก็มีคนสงสัยว่าผู้เขียนคอมเมนต์นี้ดูเหมือนบัญชีเครื่องมือ AI ช่วงหลัง ๆ บน HN มีบัญชีลักษณะนี้เยอะขึ้นจนชวนกังวล
แทนที่บริษัท AI จะ scrape Internet Archive ครั้งเดียว พวกเขาน่าจะใช้residential proxyแล้วกลับไป scrape แต่ละเว็บซ้ำ ๆ เองมากกว่า
สุดท้ายคนที่เสียประโยชน์คือผู้ใช้ทั่วไปที่ไม่มีทรัพยากรจะ scrape เว็บทั้งก้อน
ผมเคยฝันถึงเว็บที่คอนเทนต์ถูก rehost ใหม่แบบอิง hash — IPFS เคยพยายามทำแบบนั้น แต่เสียดายที่ไม่สำเร็จ
- ในความเป็นจริงบริษัท AI ก็scrape หน้าเดิมซ้ำ ๆ อยู่แล้ว แม้เว็บส่วนตัวของผมไม่มีอะไรเปลี่ยนก็ยังมี request เข้ามาเรื่อย ๆ
- IPFS เป็นโปรเจกต์ที่ตั้งเป้าไปที่โครงสร้างแบบนี้
- ทราฟฟิก proxy จากเวียดนามกับเกาหลีกำลังทำเซิร์ฟเวอร์ของผมพัง 3,500 requests ต่อวินาทีรับไม่ไหวจริง ๆ
- ตอนนี้บริษัท AI ใช้เครือข่าย proxy ผ่านอุปกรณ์หรือแอปที่ติดมัลแวร์กันอยู่แล้ว
- ผมว่า proxy พวกนี้อยู่ได้ไม่นาน เดี๋ยวแรงกดดันเชิงพาณิชย์ก็ทำให้ลดลง
  แต่ทั้งที่มี Common Crawl อยู่แล้ว ก็ยังสงสัยว่าทำไมบริษัท AI ถึงยัง crawl เองโดยตรงไม่เลิก
ความกังวลของ Brewster เรื่องการเก็บรักษาบันทึกทางประวัติศาสตร์เป็นเรื่องจริง
ถ้าไม่มีการทำ archive แยกไว้ บทความข่าวของสื่อก็สุดท้ายหนีไม่พ้นการหายไป
ตัวอย่างเช่น ถ้าบรรณาธิการ Wikipedia หา link บทความของ Times ที่เสถียรไม่ได้ สุดท้ายก็คงเปลี่ยนไปใช้บทความของ WaPo แทน
นี่แหละคือโศกนาฏกรรมของทรัพยากรส่วนรวม
ผมกำลังดูแลโปรเจกต์โอเพนซอร์สชื่อLinkwarden
เป็นเครื่องมือที่ช่วยให้ทีมต่าง ๆ เก็บรักษา URL ได้อย่างเสถียรโดยไม่ต้องพึ่งบริการภายนอก
มันบันทึกได้หลายรูปแบบทั้ง HTML snapshot, screenshot, PDF, reader view
มีทั้งเวอร์ชัน cloud-hosted (linkwarden.app) และเวอร์ชัน self-hosted (GitHub repository)
- Linkwarden ยอดเยี่ยมมาก ถ้าใช้คู่กับส่วนขยาย SingleFile ก็เก็บหน้าเว็บที่บล็อก scraper ได้ด้วย
  แต่อยากให้มีฟีเจอร์ทำเครื่องหมายว่า“อ่านแล้ว/เก็บถาวรแล้ว”ในแง่ UX
- ผมสงสัยเรื่องวิธี integration กับ archive.org ว่าแค่ส่ง URL ไป หรือเก็บข้อมูลที่ client ดึงมาแล้วโดยตรงกันแน่
ปัญหานี้กระทบถึงวงการวิทยาศาสตร์ด้วย
ความผิดพลาดของ metadata เพิ่มขึ้น และเสิร์ชเอนจินงานวิชาการอย่าง Google Scholar ก็เริ่มพัง
ดูเหมือนสำนักพิมพ์วิทยาศาสตร์รายใหญ่บางแห่งก็กำลังบล็อกบอต AI เหมือนกัน
- แถมคุณภาพการค้นหาของ Google เองก็แย่ลงแล้วด้วย รู้สึกเหมือนมุมมองของข้อมูลกำลังแคบลงเรื่อย ๆ
- การทำให้ผลวิทยาศาสตร์ที่วิจัยด้วยเงินสาธารณะเข้าถึงไม่ได้เพราะบล็อก AI ถือเป็นการกระทบต่อประโยชน์สาธารณะ
- แต่ตอนนี้ยังพอประคองได้ด้วย PubMed และsearch operator ที่แม่นยำ
สื่ออย่าง The Guardian และ NYT กำลังบล็อก Internet Archive กับ Common Crawl
เว็บไซต์ข่าวทั้งหมด 20% บล็อกทั้งสองแห่งพร้อมกัน
ตัวอย่างเช่น บทความของ realtor.com ไม่สามารถ archive บน IA ได้เพราะเจอ error 429
- IA จะหยุด archive เมื่อถูกขอ แต่scraper ที่เป็นอันตรายไม่ได้ทำแบบนั้น
  สุดท้ายจึงกลายเป็นว่าฝั่งดีถูกกันออกไป แต่ฝั่งร้ายยังอยู่
- มีคนขอหลักฐานว่า The Guardian บล็อก IA จริงหรือไม่ พอลองตรวจเองกลับใช้งานได้ตามปกติ
- ผมคิดว่าน่าจะดีถ้ามีarchive แบบ crowdsourcing ผ่าน browser extension
  แต่โจทย์คือจะกรองหน้าที่มีข้อมูลส่วนบุคคลอย่างไร
ความรู้สึกแรกของผมคือบริษัทข่าวกำลังใช้ AI เป็นข้ออ้างเพื่อเรื่องลิขสิทธิ์
- ในฐานะคนดูแลเว็บไซต์ ทราฟฟิกกว่า 90% ของผมเป็นบอตกับสแปม
  พอบริษัท AI เริ่มใช้ proxy ผมก็ต้องบล็อกทุกประเทศที่ไม่ใช่กลุ่มเป้าหมาย
  อินเทอร์เน็ตกลายเป็นระบบนิเวศที่ป่วยไข้ไปแล้ว
ผมสงสัยว่าสำนักข่าวจะเปิดกว้างกว่านี้กับarchive แบบไม่เปิดสาธารณะเพื่อการวิจัยเชิงวิชาการและวารสารศาสตร์หรือไม่
ถ้ามีเงื่อนไขว่าจะไม่ให้ใช้เพื่อฝึกโมเดลของบริษัทก็น่าจะพอเป็นไปได้
- ตอนนี้ก็มีการให้archive แบบมีไลเซนส์แบบเสียเงินกับห้องสมุดอยู่แล้ว จึงพอควบคุมการใช้งานในทางที่ผิดได้
- สำนักข่าวส่วนใหญ่มีสัญญา syndication สำหรับเผยแพร่คอนเทนต์อยู่แล้ว
  ปัญหาคือ LLM กำลังดูดกลืน value chain ไปโดยที่ไม่มีมูลค่าถูกส่งกลับคืนมา
- ภายในองค์กรพวกเขาคงมี archive อยู่แล้ว แต่ปัญหาคือเรื่องการเข้าถึงแบบสาธารณะ
ผมนึกถึงไอเดียปลั๊กอินเบราว์เซอร์แบบ crowdsourcingที่ส่งหน้าที่ผู้ใช้ดูไปยัง archive โดยอัตโนมัติ
บันทึกเฉพาะโดเมนที่ผู้ใช้อนุญาต และถ้าเป็นโอเพนซอร์สก็ช่วยลดความกังวลด้านความเป็นส่วนตัวได้
มันไม่ใช่การ crawl อัตโนมัติ แต่เป็นการอัปโหลดเพียงบางส่วนของการดูจากผู้ใช้จริง
- SingleFile ทำการ archive แบบนี้ได้ค่อนข้างดี
  แต่เว็บอาจซ่อนข้อมูลระบุตัวตนของผู้ใช้ไว้ได้ จึงมีความเสี่ยงเรื่องข้อมูลส่วนบุคคลรั่วไหล
- อีกปัญหาหนึ่งคือ ยากที่จะรับประกันได้ว่าข้อมูลที่ผู้ใช้ส่งมาไม่ได้ถูกดัดแปลง
  ถ้าจะใช้เป็นบันทึกทางประวัติศาสตร์ก็ยังยากที่จะสร้างความน่าเชื่อถือ

สื่อข่าวต่าง ๆ จำกัดการเข้าถึง Internet Archive จากความกังวลเรื่องการสแครปข้อมูลโดย AI

การจำกัดการเข้าถึง Internet Archive ของสื่อหลัก

การตอบสนองของ The New York Times และ Financial Times

ความขัดแย้งระหว่าง Reddit กับ Internet Archive

จุดยืนและการตอบสนองของ Internet Archive

การวิเคราะห์ข้อมูล: สถานะการบล็อกของเว็บไซต์ข่าวทั่วโลก

การขยายตัวของการบล็อกครอเลอร์ที่เกี่ยวข้องกับ AI

ปัญหาการสร้างสมดุลระหว่างการเก็บรักษาอินเทอร์เน็ตกับการเข้าถึงข้อมูล

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News