- Internet Archive ซึ่งเก็บรักษาเว็บและหนังสือพิมพ์มาตั้งแต่ช่วงกลางทศวรรษ 1990 เป็นห้องสมุดดิจิทัลที่ใหญ่ที่สุดในโลก และจัดเก็บหน้าเว็บมากกว่า 1 ล้านล้านหน้าผ่าน Wayback Machine
- ในช่วงไม่กี่เดือนที่ผ่านมา สื่อหลักอย่าง The New York Times เริ่มบล็อกการครอว์ลของอาร์ไคฟ์ด้วยความกังวลเรื่องการสแครปคอนเทนต์โดย AI และสำนักข่าวอื่น ๆ อย่าง The Guardian ก็เริ่มมีแนวโน้มทำตาม
- การบล็อกลักษณะนี้ไม่ใช่แค่ข้อจำกัดทางเทคนิค แต่ก่อให้เกิด การขาดตอนของบันทึกทางประวัติศาสตร์
- หลายครั้ง Internet Archive เป็น บันทึกเพียงหนึ่งเดียว ที่ใช้ตรวจสอบการเปลี่ยนแปลงก่อนและหลังการแก้ไขหรือลบบทความได้
- หากสื่อปิดกั้นการเข้าถึง ก็มีความเสี่ยงที่บันทึกเว็บที่สะสมมาหลายสิบปีจะสูญหายไป
- แม้ข้อพิพาททางกฎหมายเกี่ยวกับการฝึก AI จะยังดำเนินอยู่ แต่ก็มีการชี้ว่า การบล็อกองค์กรอนุรักษ์แบบไม่แสวงหากำไรเป็นการตอบสนองที่ผิดทาง
- Internet Archive ไม่ได้พัฒนาระบบ AI เชิงพาณิชย์ และทำหน้าที่เพื่อ ประโยชน์สาธารณะด้านการอนุรักษ์ประวัติศาสตร์
- ในความพยายามควบคุมการเข้าถึงของ AI อาจลงเอยด้วยการ ทำลายบทบาทของห้องสมุดในการเก็บรักษาบันทึก ไปด้วย
การทำอาร์ไคฟ์และการค้นหาเป็นสิ่งที่ชอบด้วยกฎหมาย
- การทำให้ข้อมูล สามารถค้นหาได้ถือเป็นการใช้งานโดยชอบธรรม (fair use) ที่ได้รับการยอมรับทางกฎหมายมาอย่างยาวนาน
- ศาลเห็นว่าการคัดลอกต้นฉบับเพื่อสร้างดัชนีสำหรับการค้นหาเป็นสิ่งที่หลีกเลี่ยงไม่ได้
- ในกรณีที่ Google คัดลอกหนังสือทั้งเล่มเพื่อสร้างฐานข้อมูลสำหรับค้นหา ก็ได้รับการรับรองว่าเป็น วัตถุประสงค์เชิงแปลงรูป (transformative purpose)
- Internet Archive ก็ทำงานภายใต้หลักการเดียวกัน
- เช่นเดียวกับที่ห้องสมุดกายภาพเก็บหนังสือพิมพ์ไว้ อาร์ไคฟ์ก็ทำหน้าที่ เก็บรักษาบันทึกประวัติศาสตร์ของเว็บ
- นักวิจัยและนักข่าวใช้งานสิ่งนี้ทุกวัน และแม้แต่ Wikipedia ก็ลิงก์ข่าว 2.6 ล้านชิ้นใน 249 ภาษา ไปยังอาร์ไคฟ์
- บล็อกเกอร์ นักวิจัย และนักข่าวจำนวนมากพึ่งพามันในฐานะ แหล่งอ้างอิงที่มั่นคงและเชื่อถือได้
-
หลักกฎหมายที่คุ้มครองเสิร์ชเอนจินควรถูกใช้กับอาร์ไคฟ์และห้องสมุดเช่นกัน
- ต่อให้ศาลกำหนดข้อจำกัดต่อการฝึก AI ในอนาคต ความชอบด้วยกฎหมายของ การค้นหาและการทำเว็บอาร์ไคฟ์ก็ได้รับการวางหลักไว้แล้ว
วิกฤตของการเก็บรักษาบันทึกทางประวัติศาสตร์
- Internet Archive รักษาบันทึกประวัติศาสตร์ของเว็บมาเกือบ 30 ปี
- หากสื่อหลักเริ่มบล็อกบริการนี้มากขึ้น นักวิจัยในอนาคตอาจสูญเสียบันทึกจำนวนมหาศาล
- ข้อถกเถียงทางกฎหมายเกี่ยวกับการฝึก AI ควรถูกตัดสินในศาล แต่ก็มีคำเตือนว่า การสละบันทึกสาธารณะไปเป็นเรื่องผิดพลาดร้ายแรงและอาจไม่สามารถย้อนคืนได้
1 ความคิดเห็น
ความเห็นจาก Hacker News
ในฐานะผู้ดูแลเว็บไซต์ ฉันกำลังต่อสู้กับ AI crawler ที่ดุดัน อยู่
เลยกังวลว่ากฎบล็อกของฉันอาจเผลอบล็อก Internet Archive ไปด้วยหรือเปล่า
Facebook ไม่สนใจ robots.txt และกระจายคำขอผ่านหลาย IP เพื่อหลบ crawl delay
เพราะงั้นจึงตั้งกฎเฉพาะสำหรับ Facebook แยกไว้ใน nginx
จนถึงตอนนี้ การบล็อก JA3 hash มีประสิทธิภาพที่สุด
แต่ก็อยากได้ wrapper ที่ครอบ hugin-net เข้ากับ nginx เพื่อทำ TCP fingerprinting
ฉันไม่รู้ Rust เลยก็เลยกลัวแม้แต่จะขอให้ LLM ช่วย
แต่ถึงอย่างนั้นวิธีนี้ก็มีปัญหา race condition อยู่ เพราะในการเชื่อมต่อครั้งแรกจะยังไม่มี JA4 hash และ AI crawler ก็ขอแค่ครั้งเดียวต่อ IP เลยไม่มีโอกาสบล็อกตอนคำขอที่สอง
ในบล็อกอย่างเป็นทางการ พวกเขาระบุว่า “อนาคตของการเก็บถาวรเว็บจะพึ่งพา robots.txt น้อยลง”
อีกองค์กรหนึ่งคือ Archiveteam ก็ถูกบอกว่าไม่สนใจ robots.txt เช่นกัน
ทุกวันนี้องค์กรเก็บถาวรรายใหญ่ดูแทบไม่คำนึงถึงมุมมองของผู้ดูแลเว็บไซต์เลย
ถ้าเป็นแบบนั้นก็น่าจะอนุญาตเฉพาะ crawler ของ Internet Archive ได้
อยากรู้ว่าคนที่ยอมรับแล้วว่าเราไม่สามารถหยุด AI scraper ได้อย่างสมบูรณ์คิดกันอย่างไร
วันที่เส้นแบ่งระหว่างเบราว์เซอร์ของมนุษย์กับเอเจนต์ LLM หายไปคงอยู่ไม่ไกล
พวกมันสามารถเปิด GUI session จริง ใช้เบราว์เซอร์นำทางไปตามหน้าเว็บ และถ่าย snapshot ระดับ OS เพื่อกู้คืนคอนเทนต์ได้
ท้ายที่สุดแล้ว แนวคิดเรื่องการปิดกั้นการเข้าถึงบนเว็บสาธารณะเองก็ดูจะล้าสมัย
ถ้าอย่างนั้นจะมีวิธีไหนลดภาระของโฮสต์แต่ละรายได้บ้าง?
จะมีสถาบันเก็บถาวรส่วนกลางที่น่าเชื่อถือเกิดขึ้น หรือจะออกมาในรูปแบบการลงโทษ ‘พฤติกรรมแย่’ ของ LLM?
ถ้าเบราว์เซอร์รองรับ ก็จะได้ ประสิทธิภาพแบบ CDN โดยไม่ต้องรวมศูนย์
บางทีโมเดลที่ CDN ขายข้อมูลโดยตรงอาจมีประสิทธิภาพกว่าด้วยซ้ำ
ถึงตอนนั้นความต้องการสแครปอย่างต่อเนื่องก็น่าจะลดลง
เหมือนสามัญสำนึกด้านวิศวกรรมและแนวคิดทางบัญชีพื้นฐานจะถูกลืมไปแล้ว
สื่อมวลชน ประเมินผลกระทบของคอนเทนต์ตัวเองที่มีต่อการพัฒนา AI สูงเกินจริง
ต่อให้พวกเขาไม่มีอยู่ คุณภาพของ LLM ก็คงแทบไม่ต่างกันมาก
สุดท้ายก็ยังต้องการ ข้อความที่หลากหลาย อย่างเช่นบทความข่าว
การหากลยุทธ์มาป้องกันไม่ให้บริษัท AI ใช้มันโดยไม่ได้รับความยินยอมจึงสมเหตุสมผล
ตอนนี้เรากำลัง เผาห้องสมุดเพื่อจะลงโทษคนวางเพลิง
แต่คนวางเพลิงหนีไปแล้ว
เพราะแบบนี้จึงมี archive.is เกิดขึ้น
แทนที่จะพยายามตามตัวผู้ก่อตั้งไปลงโทษ เราควรสนับสนุนมันในฐานะโปรเจ็กต์ที่มีประโยชน์หรือไม่?
archive.org รับคำขอลบจากเจ้าของเว็บไซต์ ดังนั้นถ้าซื้อโดเมนเก่ามาก็อาจลบประวัติในอดีตได้
การที่เขาดึงผู้ใช้เข้าไปร่วมในการโจมตีทำให้เขาไม่ใช่คนที่ควรถูกยกย่อง
ในฐานะคนที่เคยสร้างระบบป้องกันสแปม ฉันคิดว่าต่อไปแม้แต่การเข้าเว็บไซต์ก็คงมี ระบบยืนยันตัวตนแบบ ‘ใบขับขี่แท็กซี่’
เช่น ถ้า Internet Archive ส่งคำขอ HTTPS ที่ลงนามมา เว็บไซต์ก็จะตรวจสอบได้ว่ามันเป็นของจริง
มันขัดกับ จิตวิญญาณของอินเทอร์เน็ตแบบเปิด แต่เราจำเป็นต้องมีวิธีแยก crawler ที่เชื่อถือได้
ฉันใช้ข้อมูลพวกนี้ตัดสินใจบล็อกอัตโนมัติ
และได้เขียนนโยบาย บล็อกคำขอจาก Amazon โดยค่าเริ่มต้น ไว้ในบล็อกแล้ว
ฉันคิดว่า New York Times แย่มาก เพราะงั้นยิ่งต้อง เก็บรักษาไว้ เพื่ออนาคต
แต่ละสื่อจะลงเฉพาะบทความที่สอดคล้องกับอุดมการณ์ของตัวเอง
EFF มีท่าทีอ่อนกับ AI
ทั้งที่ AI กำลังทำลายอินเทอร์เน็ตและงาน แต่กลับไม่แสดงจุดยืนที่แข็งกร้าว
ดูจากรายชื่อผู้สนับสนุน ก็มีผู้สนับสนุนฝั่งองค์กรจำนวนมาก ทำให้ ความน่าเชื่อถือในฐานะองค์กรเสรีภาพ ลดลง
องค์กรอย่าง OSI หรือ EFF นั้นถูก ภาคธุรกิจครอบงำ ไปแล้วจนถึงขั้นเป็นโทษ
ถ้า Internet Archive มี โครงการ crawler แบบ IP ที่อยู่อาศัยแบบกระจายศูนย์ ฉันก็ยินดีเข้าร่วม
แต่ต้องมีกลไกป้องกันการบิดเบือนด้วย
ถ้าขายปุ๋ยกับดีเซลควบคู่กัน ก็สมเหตุสมผลที่จะเดาว่าเป็นซัพพลายเออร์ด้านการเกษตร
แต่ถ้า ขายเป็นคันรถบรรทุกให้คนที่ไม่ใช่ชาวนา ก็เป็นเรื่องธรรมดาที่จะต้องสงสัย