2 คะแนน โดย GN⁺ 2026-02-15 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สื่อรายใหญ่กำลังบล็อกหรือจำกัดการเข้าถึง Internet Archive เพื่อป้องกันการ เก็บข้อมูลไปใช้ฝึก AI
  • The Guardian ตัดหน้าบทความออกจาก API และ Wayback Machine ของ Internet Archive โดยเหลือไว้เพียงบางหน้าโฮมและหน้าหัวข้อ
  • The New York Times ได้เพิ่ม archive.org_bot ใน robots.txt ตั้งแต่ปลายปี 2025 เพื่อ บล็อกการครอลทั้งหมด
  • เว็บไซต์ข่าว 241 แห่ง รวมถึง Gannett (USA Today Co.) บล็อกบอตของ Internet Archive อย่างน้อยหนึ่งตัว และหลายแห่งยังบล็อก Common Crawl, OpenAI และ Google AI พร้อมกันด้วย
  • มาตรการเหล่านี้เป็นทั้ง การตอบโต้ต่อการใช้ข้อมูลโดยไม่ได้รับอนุญาตจากบริษัท AI และสะท้อน ปัญหาการสร้างสมดุลระหว่างการเก็บรักษาบันทึกดิจิทัลกับการเข้าถึงข้อมูล

การจำกัดการเข้าถึง Internet Archive ของสื่อหลัก

  • The Guardian จำกัดการเข้าถึงเพราะกังวลว่า บริษัท AI อาจเก็บเนื้อหาผ่าน Internet Archive
    • ตัดหน้าบทความของตนออกจากอินเทอร์เฟซ URL บทความของ API และ Wayback Machine
    • แต่หน้าโฮมระดับภูมิภาคและหน้าหัวข้อบางส่วนยังคงเข้าถึงได้ผ่าน Wayback Machine
    • Robert Hahn ระบุว่า “บริษัท AI มักชอบฐานข้อมูลที่มีโครงสร้าง และ API ของ Internet Archive อาจกลายเป็นช่องทางนั้นได้”
  • The Guardian ระบุว่า ไม่ได้บล็อกทั้งหมด และยังเคารพภารกิจด้านการทำให้ข้อมูลเข้าถึงได้อย่างเป็นประชาธิปไตยของ Internet Archive
    • อย่างไรก็ตาม กำลังประเมินจุดยืนนี้ใหม่ระหว่างการทบทวนนโยบายการจัดการบอตในอนาคต

การตอบสนองของ The New York Times และ Financial Times

  • The New York Times ได้ เพิ่ม archive.org_bot ลงใน robots.txt และทำ “hard block” กับครอเลอร์ของ Internet Archive
    • โดยอธิบายว่า “Wayback Machine เปิดให้บุคคลที่สามรวมถึงบริษัท AI เข้าถึงเนื้อหาของ Times ได้อย่างไม่จำกัด”
  • Financial Times บล็อกบอตที่เกี่ยวข้องทั้งหมด เช่น OpenAI, Anthropic, Perplexity และ Internet Archive เพื่อ ปกป้องเนื้อหาแบบเสียเงิน
    • เนื่องจากบทความของ FT ส่วนใหญ่เป็นเนื้อหาแบบชำระเงิน จึงเหลือเฉพาะบทความสาธารณะใน Wayback Machine

ความขัดแย้งระหว่าง Reddit กับ Internet Archive

  • Reddit บล็อกการเข้าถึงของ Internet Archive ในเดือนสิงหาคม 2025
    • เหตุผลคือมีกรณีที่บริษัท AI สแครปข้อมูล Reddit ผ่าน Wayback Machine
    • Reddit อธิบายว่าเป็น “มาตรการจำกัดเพื่อป้องกันกิจกรรมของบริษัท AI ที่ละเมิดนโยบายของแพลตฟอร์ม”
  • ก่อนหน้านี้ Reddit เคยทำ ข้อตกลงลิขสิทธิ์ข้อมูลสำหรับการฝึก AI กับ Google

จุดยืนและการตอบสนองของ Internet Archive

  • Brewster Kahle ผู้ก่อตั้งเตือนว่า “หากสำนักพิมพ์จำกัดห้องสมุดอย่าง Internet Archive ก็จะทำให้ การเข้าถึงบันทึกประวัติศาสตร์สาธารณะลดลง
  • Kahle ระบุบน Mastodon ว่า “บางคอลเลกชันไม่อนุญาตให้ดาวน์โหลดจำนวนมาก และกำลังใช้ การจำกัดความเร็ว การกรอง และบริการความปลอดภัยของ Cloudflare
  • ในเดือนพฤษภาคม 2023 เคยมีกรณีที่บริษัท AI แห่งหนึ่งส่งคำขอจำนวนมากจนทำให้เซิร์ฟเวอร์ทำงานหนักเกินไปและ Internet Archive ต้องหยุดให้บริการชั่วคราว
    • หลังจากนั้นบริษัทดังกล่าวได้ขอโทษและบริจาคเงิน

การวิเคราะห์ข้อมูล: สถานะการบล็อกของเว็บไซต์ข่าวทั่วโลก

  • Nieman Lab วิเคราะห์ ฐานข้อมูลเว็บไซต์ข่าว 1,167 แห่งของ Ben Welsh เพื่อตรวจสอบสถานะการบล็อกที่เกี่ยวข้องกับ Internet Archive
    • เว็บไซต์ข่าว 241 แห่งบล็อกบอตของ Internet Archive อย่างน้อยหนึ่งตัว
    • 87% เป็นสื่อในเครือ USA Today Co. (Gannett) ซึ่งได้เพิ่ม archive.org_bot และ ia_archiver-web.archive.org ลงใน robots.txt ในปี 2025
    • เว็บไซต์บางแห่งของ Gannett แสดงข้อความว่า “URL นี้ถูกยกเว้น” บน Wayback Machine
  • Gannett ระบุว่าได้ “นำโปรโตคอลใหม่มาใช้เพื่อป้องกันการเก็บข้อมูลโดยไม่ได้รับอนุญาต” และรายงานว่าในเดือนกันยายน 2025 เพียงเดือนเดียวได้ บล็อกบอต AI ไป 75 ล้านครั้ง โดยในจำนวนนั้น 70 ล้านครั้งมาจาก OpenAI
  • เว็บไซต์ 3 แห่งในเครือ Group Le Monde เช่น Le Monde, Le Huffington Post บล็อกครอเลอร์ของ Internet Archive ทั้งสามตัว

การขยายตัวของการบล็อกครอเลอร์ที่เกี่ยวข้องกับ AI

  • นอกจาก Internet Archive แล้ว ยังมีแนวโน้มบล็อกครอเลอร์ AI รายใหญ่ เช่น Common Crawl, OpenAI และ Google AI ไปพร้อมกันด้วย
    • จาก 241 เว็บไซต์ มี 240 แห่งที่บล็อก Common Crawl และ 231 แห่งที่บล็อกบอตของ OpenAI และ Google AI
  • Common Crawl ถูกมองว่ามี ความเชื่อมโยงสูงกับการพัฒนา LLM เชิงพาณิชย์

ปัญหาการสร้างสมดุลระหว่างการเก็บรักษาอินเทอร์เน็ตกับการเข้าถึงข้อมูล

  • Internet Archive เป็น โครงการเก็บรักษาเว็บที่ครอบคลุมที่สุดในสหรัฐฯ ขณะที่องค์กรข่าวจำนวนมากยังไม่มีศักยภาพในการเก็บรักษาด้วยตนเอง
  • ในเดือนธันวาคม 2025 Poynter และ Internet Archive ได้ประกาศ โครงการฝึกอบรมการเก็บรักษาข่าวท้องถิ่น ร่วมกัน
  • Hahn กล่าวว่า “Internet Archive ดำเนินงานด้วยเจตนาดี แต่ก็เกิด ผลข้างเคียงจากการที่ความตั้งใจดีถูกนำไปใช้ผิดทาง

1 ความคิดเห็น

 
GN⁺ 2026-02-15
ความเห็นจาก Hacker News
  • ถ้าสื่อไหนปฏิเสธการเก็บบันทึกถาวรอย่างเป็นอิสระ ผมก็คิดว่าไม่อาจเชื่อถือข่าวของพวกเขาได้
    จะอนุญาตให้ AI scraping หรือไม่ก็ไม่สำคัญ แต่คอนเทนต์ต้องสามารถถูกเก็บรักษาอย่างอิสระจากภายนอกได้เสมอ
    • ผมก็คิดเหมือนกัน การมีบันทึกอิสระเป็นสิ่งจำเป็น
    • รู้สึกว่าไม่มีแหล่งข่าวไหนที่เชื่อถือได้เลย ส่วนใหญ่ต่างก็ผลักดันวาระที่ตั้งใจไว้ และตอนนี้ก็ไม่ได้ปิดบังกันแล้ว
  • ปัญหานี้มีมิติด้านcompliance (การปฏิบัติตามข้อกำหนด) อยู่ด้วย
    กฎอย่าง SOC 2 หรือ HIPAA กำหนดให้ต้องมีaudit trail และการเก็บรักษาหลักฐาน
    แต่ถ้าเอกสารด้านความปลอดภัยหรือรายงานตอบสนองเหตุการณ์หายไปจากเว็บ หลักฐานสำหรับการตรวจสอบก็ขาดตอน และผมเคยเห็นบริษัทตกการประเมินรับรองเพราะเรื่องนี้
    สุดท้ายการที่เว็บไม่สามารถเก็บรักษาไว้ได้จึงไม่ใช่แค่ความสูญเสียทางวัฒนธรรม แต่กลายเป็นความเสี่ยงด้านการดำเนินงาน
    • ผมลองหาตัวอย่างดู ผลลัพธ์แรกก็เจอ 404 เลย
      หน้า AWS Compliance Reports เป็นตัวอย่างแบบนั้นพอดี
    • ผมเคยผ่านการตรวจ SOC กับบริษัทการเงินขนาดใหญ่มาหลายครั้ง ตอนนิยามว่างานไหนเป็นงานที่“critical”จริง ๆ มีความขัดแย้งระหว่างฝ่ายหนักมาก
      แม้แต่งานจัดระเบียบ log ธรรมดายังมีการถกเถียงเรื่องความสำคัญ
    • สุดท้ายผมว่าเพื่อหลีกเลี่ยงปัญหาแบบนี้ บริษัทประกันอาจเริ่มบังคับให้เก็บสำเนาเอกสารบนกระดาษ
      ถ้าเกิดกรณีความเสียหายใหญ่ ๆ สักไม่กี่ครั้งก็น่าจะกลายเป็นเรื่องจริง
    • มีบริษัทอย่าง Page Vault ที่เกิดขึ้นมาเพื่อแก้ปัญหานี้อยู่แล้ว
    • แต่ก็มีคนสงสัยว่าผู้เขียนคอมเมนต์นี้ดูเหมือนบัญชีเครื่องมือ AI ช่วงหลัง ๆ บน HN มีบัญชีลักษณะนี้เยอะขึ้นจนชวนกังวล
  • แทนที่บริษัท AI จะ scrape Internet Archive ครั้งเดียว พวกเขาน่าจะใช้residential proxyแล้วกลับไป scrape แต่ละเว็บซ้ำ ๆ เองมากกว่า
    สุดท้ายคนที่เสียประโยชน์คือผู้ใช้ทั่วไปที่ไม่มีทรัพยากรจะ scrape เว็บทั้งก้อน
    ผมเคยฝันถึงเว็บที่คอนเทนต์ถูก rehost ใหม่แบบอิง hash — IPFS เคยพยายามทำแบบนั้น แต่เสียดายที่ไม่สำเร็จ
    • ในความเป็นจริงบริษัท AI ก็scrape หน้าเดิมซ้ำ ๆ อยู่แล้ว แม้เว็บส่วนตัวของผมไม่มีอะไรเปลี่ยนก็ยังมี request เข้ามาเรื่อย ๆ
    • IPFS เป็นโปรเจกต์ที่ตั้งเป้าไปที่โครงสร้างแบบนี้
    • ทราฟฟิก proxy จากเวียดนามกับเกาหลีกำลังทำเซิร์ฟเวอร์ของผมพัง 3,500 requests ต่อวินาทีรับไม่ไหวจริง ๆ
    • ตอนนี้บริษัท AI ใช้เครือข่าย proxy ผ่านอุปกรณ์หรือแอปที่ติดมัลแวร์กันอยู่แล้ว
    • ผมว่า proxy พวกนี้อยู่ได้ไม่นาน เดี๋ยวแรงกดดันเชิงพาณิชย์ก็ทำให้ลดลง
      แต่ทั้งที่มี Common Crawl อยู่แล้ว ก็ยังสงสัยว่าทำไมบริษัท AI ถึงยัง crawl เองโดยตรงไม่เลิก
  • ความกังวลของ Brewster เรื่องการเก็บรักษาบันทึกทางประวัติศาสตร์เป็นเรื่องจริง
    ถ้าไม่มีการทำ archive แยกไว้ บทความข่าวของสื่อก็สุดท้ายหนีไม่พ้นการหายไป
    ตัวอย่างเช่น ถ้าบรรณาธิการ Wikipedia หา link บทความของ Times ที่เสถียรไม่ได้ สุดท้ายก็คงเปลี่ยนไปใช้บทความของ WaPo แทน
    นี่แหละคือโศกนาฏกรรมของทรัพยากรส่วนรวม
  • ผมกำลังดูแลโปรเจกต์โอเพนซอร์สชื่อLinkwarden
    เป็นเครื่องมือที่ช่วยให้ทีมต่าง ๆ เก็บรักษา URL ได้อย่างเสถียรโดยไม่ต้องพึ่งบริการภายนอก
    มันบันทึกได้หลายรูปแบบทั้ง HTML snapshot, screenshot, PDF, reader view
    มีทั้งเวอร์ชัน cloud-hosted (linkwarden.app) และเวอร์ชัน self-hosted (GitHub repository)
    • Linkwarden ยอดเยี่ยมมาก ถ้าใช้คู่กับส่วนขยาย SingleFile ก็เก็บหน้าเว็บที่บล็อก scraper ได้ด้วย
      แต่อยากให้มีฟีเจอร์ทำเครื่องหมายว่า“อ่านแล้ว/เก็บถาวรแล้ว”ในแง่ UX
    • ผมสงสัยเรื่องวิธี integration กับ archive.org ว่าแค่ส่ง URL ไป หรือเก็บข้อมูลที่ client ดึงมาแล้วโดยตรงกันแน่
  • ปัญหานี้กระทบถึงวงการวิทยาศาสตร์ด้วย
    ความผิดพลาดของ metadata เพิ่มขึ้น และเสิร์ชเอนจินงานวิชาการอย่าง Google Scholar ก็เริ่มพัง
    ดูเหมือนสำนักพิมพ์วิทยาศาสตร์รายใหญ่บางแห่งก็กำลังบล็อกบอต AI เหมือนกัน
    • แถมคุณภาพการค้นหาของ Google เองก็แย่ลงแล้วด้วย รู้สึกเหมือนมุมมองของข้อมูลกำลังแคบลงเรื่อย ๆ
    • การทำให้ผลวิทยาศาสตร์ที่วิจัยด้วยเงินสาธารณะเข้าถึงไม่ได้เพราะบล็อก AI ถือเป็นการกระทบต่อประโยชน์สาธารณะ
    • แต่ตอนนี้ยังพอประคองได้ด้วย PubMed และsearch operator ที่แม่นยำ
  • สื่ออย่าง The Guardian และ NYT กำลังบล็อก Internet Archive กับ Common Crawl
    เว็บไซต์ข่าวทั้งหมด 20% บล็อกทั้งสองแห่งพร้อมกัน
    ตัวอย่างเช่น บทความของ realtor.com ไม่สามารถ archive บน IA ได้เพราะเจอ error 429
    • IA จะหยุด archive เมื่อถูกขอ แต่scraper ที่เป็นอันตรายไม่ได้ทำแบบนั้น
      สุดท้ายจึงกลายเป็นว่าฝั่งดีถูกกันออกไป แต่ฝั่งร้ายยังอยู่
    • มีคนขอหลักฐานว่า The Guardian บล็อก IA จริงหรือไม่ พอลองตรวจเองกลับใช้งานได้ตามปกติ
    • ผมคิดว่าน่าจะดีถ้ามีarchive แบบ crowdsourcing ผ่าน browser extension
      แต่โจทย์คือจะกรองหน้าที่มีข้อมูลส่วนบุคคลอย่างไร
  • ความรู้สึกแรกของผมคือบริษัทข่าวกำลังใช้ AI เป็นข้ออ้างเพื่อเรื่องลิขสิทธิ์
    • ในฐานะคนดูแลเว็บไซต์ ทราฟฟิกกว่า 90% ของผมเป็นบอตกับสแปม
      พอบริษัท AI เริ่มใช้ proxy ผมก็ต้องบล็อกทุกประเทศที่ไม่ใช่กลุ่มเป้าหมาย
      อินเทอร์เน็ตกลายเป็นระบบนิเวศที่ป่วยไข้ไปแล้ว
  • ผมสงสัยว่าสำนักข่าวจะเปิดกว้างกว่านี้กับarchive แบบไม่เปิดสาธารณะเพื่อการวิจัยเชิงวิชาการและวารสารศาสตร์หรือไม่
    ถ้ามีเงื่อนไขว่าจะไม่ให้ใช้เพื่อฝึกโมเดลของบริษัทก็น่าจะพอเป็นไปได้
    • ตอนนี้ก็มีการให้archive แบบมีไลเซนส์แบบเสียเงินกับห้องสมุดอยู่แล้ว จึงพอควบคุมการใช้งานในทางที่ผิดได้
    • สำนักข่าวส่วนใหญ่มีสัญญา syndication สำหรับเผยแพร่คอนเทนต์อยู่แล้ว
      ปัญหาคือ LLM กำลังดูดกลืน value chain ไปโดยที่ไม่มีมูลค่าถูกส่งกลับคืนมา
    • ภายในองค์กรพวกเขาคงมี archive อยู่แล้ว แต่ปัญหาคือเรื่องการเข้าถึงแบบสาธารณะ
  • ผมนึกถึงไอเดียปลั๊กอินเบราว์เซอร์แบบ crowdsourcingที่ส่งหน้าที่ผู้ใช้ดูไปยัง archive โดยอัตโนมัติ
    บันทึกเฉพาะโดเมนที่ผู้ใช้อนุญาต และถ้าเป็นโอเพนซอร์สก็ช่วยลดความกังวลด้านความเป็นส่วนตัวได้
    มันไม่ใช่การ crawl อัตโนมัติ แต่เป็นการอัปโหลดเพียงบางส่วนของการดูจากผู้ใช้จริง
    • SingleFile ทำการ archive แบบนี้ได้ค่อนข้างดี
      แต่เว็บอาจซ่อนข้อมูลระบุตัวตนของผู้ใช้ไว้ได้ จึงมีความเสี่ยงเรื่องข้อมูลส่วนบุคคลรั่วไหล
    • อีกปัญหาหนึ่งคือ ยากที่จะรับประกันได้ว่าข้อมูลที่ผู้ใช้ส่งมาไม่ได้ถูกดัดแปลง
      ถ้าจะใช้เป็นบันทึกทางประวัติศาสตร์ก็ยังยากที่จะสร้างความน่าเชื่อถือ