6 คะแนน โดย GN⁺ 2026-03-22 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Internet Archive ซึ่งเก็บรักษาเว็บและหนังสือพิมพ์มาตั้งแต่ช่วงกลางทศวรรษ 1990 เป็นห้องสมุดดิจิทัลที่ใหญ่ที่สุดในโลก และจัดเก็บหน้าเว็บมากกว่า 1 ล้านล้านหน้าผ่าน Wayback Machine
  • ในช่วงไม่กี่เดือนที่ผ่านมา สื่อหลักอย่าง The New York Times เริ่มบล็อกการครอว์ลของอาร์ไคฟ์ด้วยความกังวลเรื่องการสแครปคอนเทนต์โดย AI และสำนักข่าวอื่น ๆ อย่าง The Guardian ก็เริ่มมีแนวโน้มทำตาม
  • การบล็อกลักษณะนี้ไม่ใช่แค่ข้อจำกัดทางเทคนิค แต่ก่อให้เกิด การขาดตอนของบันทึกทางประวัติศาสตร์
    • หลายครั้ง Internet Archive เป็น บันทึกเพียงหนึ่งเดียว ที่ใช้ตรวจสอบการเปลี่ยนแปลงก่อนและหลังการแก้ไขหรือลบบทความได้
    • หากสื่อปิดกั้นการเข้าถึง ก็มีความเสี่ยงที่บันทึกเว็บที่สะสมมาหลายสิบปีจะสูญหายไป
  • แม้ข้อพิพาททางกฎหมายเกี่ยวกับการฝึก AI จะยังดำเนินอยู่ แต่ก็มีการชี้ว่า การบล็อกองค์กรอนุรักษ์แบบไม่แสวงหากำไรเป็นการตอบสนองที่ผิดทาง
    • Internet Archive ไม่ได้พัฒนาระบบ AI เชิงพาณิชย์ และทำหน้าที่เพื่อ ประโยชน์สาธารณะด้านการอนุรักษ์ประวัติศาสตร์
    • ในความพยายามควบคุมการเข้าถึงของ AI อาจลงเอยด้วยการ ทำลายบทบาทของห้องสมุดในการเก็บรักษาบันทึก ไปด้วย

การทำอาร์ไคฟ์และการค้นหาเป็นสิ่งที่ชอบด้วยกฎหมาย

  • การทำให้ข้อมูล สามารถค้นหาได้ถือเป็นการใช้งานโดยชอบธรรม (fair use) ที่ได้รับการยอมรับทางกฎหมายมาอย่างยาวนาน
    • ศาลเห็นว่าการคัดลอกต้นฉบับเพื่อสร้างดัชนีสำหรับการค้นหาเป็นสิ่งที่หลีกเลี่ยงไม่ได้
    • ในกรณีที่ Google คัดลอกหนังสือทั้งเล่มเพื่อสร้างฐานข้อมูลสำหรับค้นหา ก็ได้รับการรับรองว่าเป็น วัตถุประสงค์เชิงแปลงรูป (transformative purpose)
  • Internet Archive ก็ทำงานภายใต้หลักการเดียวกัน
    • เช่นเดียวกับที่ห้องสมุดกายภาพเก็บหนังสือพิมพ์ไว้ อาร์ไคฟ์ก็ทำหน้าที่ เก็บรักษาบันทึกประวัติศาสตร์ของเว็บ
    • นักวิจัยและนักข่าวใช้งานสิ่งนี้ทุกวัน และแม้แต่ Wikipedia ก็ลิงก์ข่าว 2.6 ล้านชิ้นใน 249 ภาษา ไปยังอาร์ไคฟ์
    • บล็อกเกอร์ นักวิจัย และนักข่าวจำนวนมากพึ่งพามันในฐานะ แหล่งอ้างอิงที่มั่นคงและเชื่อถือได้
  • หลักกฎหมายที่คุ้มครองเสิร์ชเอนจินควรถูกใช้กับอาร์ไคฟ์และห้องสมุดเช่นกัน

    • ต่อให้ศาลกำหนดข้อจำกัดต่อการฝึก AI ในอนาคต ความชอบด้วยกฎหมายของ การค้นหาและการทำเว็บอาร์ไคฟ์ก็ได้รับการวางหลักไว้แล้ว

วิกฤตของการเก็บรักษาบันทึกทางประวัติศาสตร์

  • Internet Archive รักษาบันทึกประวัติศาสตร์ของเว็บมาเกือบ 30 ปี
  • หากสื่อหลักเริ่มบล็อกบริการนี้มากขึ้น นักวิจัยในอนาคตอาจสูญเสียบันทึกจำนวนมหาศาล
  • ข้อถกเถียงทางกฎหมายเกี่ยวกับการฝึก AI ควรถูกตัดสินในศาล แต่ก็มีคำเตือนว่า การสละบันทึกสาธารณะไปเป็นเรื่องผิดพลาดร้ายแรงและอาจไม่สามารถย้อนคืนได้

1 ความคิดเห็น

 
GN⁺ 2026-03-22
ความเห็นจาก Hacker News
  • ในฐานะผู้ดูแลเว็บไซต์ ฉันกำลังต่อสู้กับ AI crawler ที่ดุดัน อยู่
    เลยกังวลว่ากฎบล็อกของฉันอาจเผลอบล็อก Internet Archive ไปด้วยหรือเปล่า
    Facebook ไม่สนใจ robots.txt และกระจายคำขอผ่านหลาย IP เพื่อหลบ crawl delay
    เพราะงั้นจึงตั้งกฎเฉพาะสำหรับ Facebook แยกไว้ใน nginx
    จนถึงตอนนี้ การบล็อก JA3 hash มีประสิทธิภาพที่สุด
    แต่ก็อยากได้ wrapper ที่ครอบ hugin-net เข้ากับ nginx เพื่อทำ TCP fingerprinting
    ฉันไม่รู้ Rust เลยก็เลยกลัวแม้แต่จะขอให้ LLM ช่วย
    แต่ถึงอย่างนั้นวิธีนี้ก็มีปัญหา race condition อยู่ เพราะในการเชื่อมต่อครั้งแรกจะยังไม่มี JA4 hash และ AI crawler ก็ขอแค่ครั้งเดียวต่อ IP เลยไม่มีโอกาสบล็อกตอนคำขอที่สอง

    • Internet Archive เองก็ไม่ทำตาม robots.txt
      ในบล็อกอย่างเป็นทางการ พวกเขาระบุว่า “อนาคตของการเก็บถาวรเว็บจะพึ่งพา robots.txt น้อยลง”
      อีกองค์กรหนึ่งคือ Archiveteam ก็ถูกบอกว่าไม่สนใจ robots.txt เช่นกัน
      ทุกวันนี้องค์กรเก็บถาวรรายใหญ่ดูแทบไม่คำนึงถึงมุมมองของผู้ดูแลเว็บไซต์เลย
    • เทคนิคหลบเลี่ยงอย่างการ สุ่มหรือปลอมตัว JA3 ทำให้การตรวจจับถูกหลบได้ง่าย
    • สงสัยว่าจะทำ กลไกข้ามการบล็อกบอต ที่ยอมให้ผ่านเฉพาะคำขอที่ลงนามด้วย whitelist key ได้ไหม
      ถ้าเป็นแบบนั้นก็น่าจะอนุญาตเฉพาะ crawler ของ Internet Archive ได้
  • อยากรู้ว่าคนที่ยอมรับแล้วว่าเราไม่สามารถหยุด AI scraper ได้อย่างสมบูรณ์คิดกันอย่างไร
    วันที่เส้นแบ่งระหว่างเบราว์เซอร์ของมนุษย์กับเอเจนต์ LLM หายไปคงอยู่ไม่ไกล
    พวกมันสามารถเปิด GUI session จริง ใช้เบราว์เซอร์นำทางไปตามหน้าเว็บ และถ่าย snapshot ระดับ OS เพื่อกู้คืนคอนเทนต์ได้
    ท้ายที่สุดแล้ว แนวคิดเรื่องการปิดกั้นการเข้าถึงบนเว็บสาธารณะเองก็ดูจะล้าสมัย
    ถ้าอย่างนั้นจะมีวิธีไหนลดภาระของโฮสต์แต่ละรายได้บ้าง?
    จะมีสถาบันเก็บถาวรส่วนกลางที่น่าเชื่อถือเกิดขึ้น หรือจะออกมาในรูปแบบการลงโทษ ‘พฤติกรรมแย่’ ของ LLM?

    • เราน่าจะเรียนรู้กันไปแล้วว่ากฎหมายอินเทอร์เน็ตแทบไม่มี อำนาจบังคับใช้จริง
    • สามารถแจก content hash แล้วให้ดึงข้อมูลจริงจากที่อย่าง IPFS หรือ BitTorrent เพื่อลดภาระของเว็บไซต์ได้
      ถ้าเบราว์เซอร์รองรับ ก็จะได้ ประสิทธิภาพแบบ CDN โดยไม่ต้องรวมศูนย์
    • ถ้า ไม่เผยแพร่บนเว็บสาธารณะตั้งแต่แรก ก็ไม่ต้องกังวลเรื่องการสแครป
      บางทีโมเดลที่ CDN ขายข้อมูลโดยตรงอาจมีประสิทธิภาพกว่าด้วยซ้ำ
    • ตอนนี้มีบริษัท AI หลายพันรายที่กำลังกวาดทั้งเว็บ แต่พอ ฟองสบู่ AI แตก สุดท้ายก็คงเหลือไม่กี่ราย
      ถึงตอนนั้นความต้องการสแครปอย่างต่อเนื่องก็น่าจะลดลง
    • ปัญหาจริงคือ ภาระทราฟฟิกและต้นทุนแบนด์วิดท์
      เหมือนสามัญสำนึกด้านวิศวกรรมและแนวคิดทางบัญชีพื้นฐานจะถูกลืมไปแล้ว
  • สื่อมวลชน ประเมินผลกระทบของคอนเทนต์ตัวเองที่มีต่อการพัฒนา AI สูงเกินจริง
    ต่อให้พวกเขาไม่มีอยู่ คุณภาพของ LLM ก็คงแทบไม่ต่างกันมาก

    • แค่ Wikipedia, Reddit และงานวิจัยอย่างเดียวก็มีข้อจำกัด
      สุดท้ายก็ยังต้องการ ข้อความที่หลากหลาย อย่างเช่นบทความข่าว
    • ยิ่งเว็บเต็มไปด้วยสิ่งที่ AI สร้างมากเท่าไร คุณค่าของข้อความที่มนุษย์เขียน ก็ยิ่งสูงขึ้น
      การหากลยุทธ์มาป้องกันไม่ให้บริษัท AI ใช้มันโดยไม่ได้รับความยินยอมจึงสมเหตุสมผล
  • ตอนนี้เรากำลัง เผาห้องสมุดเพื่อจะลงโทษคนวางเพลิง
    แต่คนวางเพลิงหนีไปแล้ว

    • แต่ในความเป็นจริง ผู้มาใช้ห้องสมุด 90% อาจเป็นคนวางเพลิง ก็ได้
  • เพราะแบบนี้จึงมี archive.is เกิดขึ้น
    แทนที่จะพยายามตามตัวผู้ก่อตั้งไปลงโทษ เราควรสนับสนุนมันในฐานะโปรเจ็กต์ที่มีประโยชน์หรือไม่?

    • เห็นด้วย ถ้า archive.is หายไป archive.org ก็จะกลายเป็นผู้ผูกขาด
      archive.org รับคำขอลบจากเจ้าของเว็บไซต์ ดังนั้นถ้าซื้อโดเมนเก่ามาก็อาจลบประวัติในอดีตได้
    • แต่ผู้ก่อตั้ง archive.is เคยมีประวัติ โจมตี DDoS ใส่นักข่าว มาก่อน
      การที่เขาดึงผู้ใช้เข้าไปร่วมในการโจมตีทำให้เขาไม่ใช่คนที่ควรถูกยกย่อง
  • ในฐานะคนที่เคยสร้างระบบป้องกันสแปม ฉันคิดว่าต่อไปแม้แต่การเข้าเว็บไซต์ก็คงมี ระบบยืนยันตัวตนแบบ ‘ใบขับขี่แท็กซี่’
    เช่น ถ้า Internet Archive ส่งคำขอ HTTPS ที่ลงนามมา เว็บไซต์ก็จะตรวจสอบได้ว่ามันเป็นของจริง
    มันขัดกับ จิตวิญญาณของอินเทอร์เน็ตแบบเปิด แต่เราจำเป็นต้องมีวิธีแยก crawler ที่เชื่อถือได้

    • ฉันกำหนดให้ crawler ที่ดูไม่เหมือนมนุษย์ต้องมีสิ่งต่อไปนี้
      • ต้องมี reverse DNS และโดเมนนั้นต้องมี หน้าเพจนโยบายพฤติกรรม
      • ต้องมี TXT record แบบอิง IP ที่ระบุว่าใครเข้าถึง เมื่อไร และบ่อยแค่ไหน
        ฉันใช้ข้อมูลพวกนี้ตัดสินใจบล็อกอัตโนมัติ
        และได้เขียนนโยบาย บล็อกคำขอจาก Amazon โดยค่าเริ่มต้น ไว้ในบล็อกแล้ว
  • ฉันคิดว่า New York Times แย่มาก เพราะงั้นยิ่งต้อง เก็บรักษาไว้ เพื่ออนาคต

    • บทความแสดงความคิดเห็น ของสื่อทุกเจ้าสุดท้ายก็เป็นงานโฆษณาชวนเชื่อ
      แต่ละสื่อจะลงเฉพาะบทความที่สอดคล้องกับอุดมการณ์ของตัวเอง
    • อยากรู้ว่าทำไมถึงคิดว่ามันแย่ขนาดนั้น ฉันไม่ได้อ่านมัน
  • EFF มีท่าทีอ่อนกับ AI
    ทั้งที่ AI กำลังทำลายอินเทอร์เน็ตและงาน แต่กลับไม่แสดงจุดยืนที่แข็งกร้าว
    ดูจากรายชื่อผู้สนับสนุน ก็มีผู้สนับสนุนฝั่งองค์กรจำนวนมาก ทำให้ ความน่าเชื่อถือในฐานะองค์กรเสรีภาพ ลดลง
    องค์กรอย่าง OSI หรือ EFF นั้นถูก ภาคธุรกิจครอบงำ ไปแล้วจนถึงขั้นเป็นโทษ

  • ถ้า Internet Archive มี โครงการ crawler แบบ IP ที่อยู่อาศัยแบบกระจายศูนย์ ฉันก็ยินดีเข้าร่วม
    แต่ต้องมีกลไกป้องกันการบิดเบือนด้วย

    • Internet Archive ไม่มี แต่มี Archive Team Warrior
    • IA จัดการทุกอย่างแบบ เปิดเผยต่อสาธารณะ และถึงขั้นให้ความเคารพต่อคำขอ DMCA ที่ไม่เป็นธรรมด้วย
    • ถ้าพวกเขา terminate TLS ฝั่งนั้นเองก็ง่ายเลย สุดท้ายมันก็จะทำงานเป็น พร็อกซีที่อยู่อาศัย
  • ถ้าขายปุ๋ยกับดีเซลควบคู่กัน ก็สมเหตุสมผลที่จะเดาว่าเป็นซัพพลายเออร์ด้านการเกษตร
    แต่ถ้า ขายเป็นคันรถบรรทุกให้คนที่ไม่ใช่ชาวนา ก็เป็นเรื่องธรรมดาที่จะต้องสงสัย