- Anna’s Archive เป็น เมตาเสิร์ชเอนจินของ shadow library สำหรับค้นหาอีบุ๊กและเอกสารละเมิดลิขสิทธิ์ โดยเปิดให้บริการในช่วงฤดูใบไม้ร่วงปี 2022
- ตลอด 3 ปีที่ผ่านมา จาก คำร้องเรียนลิขสิทธิ์ของสำนักพิมพ์และผู้เขียน ทำให้ Google ลบ URL ของเว็บไซต์นี้ออกจากผลการค้นหาจำนวน 749 ล้านรายการ
- ตัวเลขนี้คิดเป็น 5% ของ URL ที่เกี่ยวข้องกับลิขสิทธิ์ทั้งหมด ที่ Google เคยดำเนินการ และมีขนาด มากกว่า The Pirate Bay อย่างมาก
- ผู้ทรงสิทธิ์มากกว่า 1,000 ราย เช่น Penguin Random House และ John Wiley & Sons ได้ยื่นคำขอ DMCA และมี URL ใหม่ราว 10 ล้านรายการต่อสัปดาห์ ที่ถูกรายงาน
- แม้จะถูกลบในวงกว้าง แต่ โดเมนหลักของ Anna’s Archive ยังเข้าถึงได้ และยังค้นหาเจอได้ง่ายบน Google หากค้นหาด้วยชื่อเว็บไซต์
ภาพรวมของ Anna’s Archive
- Anna’s Archive เป็น เมตาเสิร์ชเอนจิน ที่รวมการค้นหาจาก shadow library หลายแห่ง และใช้สำหรับค้นหาหนังสือและเอกสารที่ถูกทำสำเนาอย่างผิดกฎหมาย
- เปิดตัวในช่วงฤดูใบไม้ร่วงปี 2022 ไม่นานหลังจากที่ Z-Library ถูกทางการสหรัฐฯ ปราบปราม
- เริ่มต้นจากเป้าหมายที่จะทำให้หนังสือและงานวิชาการแบบ ‘ฟรี’ ยังคงเข้าถึงสาธารณะได้ต่อไป
- หลังเปิดให้บริการมา 3 ปี เว็บไซต์ถูก บล็อกในหลายประเทศ และยังถูกฟ้องในสหรัฐฯ จากข้อหา รวบรวมข้อมูล WorldCat ขนาด 2.2TB โดยไม่ได้รับอนุญาต
- นอกจากนี้ยังดำเนินกิจกรรมเพื่อ สนับสนุนให้นักวิจัย AI เข้าถึงข้อมูล ด้วย
การลบครั้งใหญ่ของ Google
- Google จะ นำ URL ที่สงสัยว่าละเมิดลิขสิทธิ์ออกจากผลการค้นหา ตามคำร้องขอของผู้ทรงสิทธิ์
- สำหรับ Anna’s Archive มี URL ที่ถูกรายงานทั้งหมด 784 ล้านรายการ และในจำนวนนี้ 749 ล้านรายการถูกลบจริง
- ลิงก์บางส่วนไม่อยู่ในดัชนีของ Google จึงไม่เข้าข่ายต้องลบ
- สำหรับการเปรียบเทียบ The Pirate Bay ถูกลบ 4.2 ล้าน URL ทำให้เห็นว่าขนาดของ Anna’s Archive ใหญ่มากกว่าอย่างชัดเจน
- เว็บไซต์มีการใช้ซับโดเมนแยกตามประเทศหลายแห่งและมีหน้าจำนวนมหาศาล จึงทำให้ จำนวน URL ที่เข้าข่ายถูกลบมีมาก
คิดเป็น 5% ของการลบลิขสิทธิ์ทั้งหมดของ Google
- ตามรายงานความโปร่งใสของ Google นับตั้งแต่ปี 2012 มีการรายงาน URL ละเมิดลิขสิทธิ์รวม 15.1 พันล้านรายการ
- ในจำนวนนั้น URL ที่เกี่ยวข้องกับ Anna’s Archive คิดเป็น 5% ของทั้งหมด
- Penguin Random House และ John Wiley & Sons เป็นผู้รายงานหลัก และมี สำนักพิมพ์กับผู้เขียนมากกว่า 1,000 ราย ที่ยื่นคำขอ DMCA
- ปัจจุบันยังมี URL ใหม่ราว 10 ล้านรายการต่อสัปดาห์ ถูกเพิ่มเข้ามาในการรายงาน
การมองเห็นในผลการค้นหา
- การลบครั้งใหญ่ทำให้ การแสดงผลของเว็บไซต์ลดลงสำหรับคำค้นที่เกี่ยวกับหนังสือ
- หลาย URL ถูกซ่อนจากการแสดงผลหรือมีอันดับค้นหาตกลง
- อย่างไรก็ตาม หากค้นหาคำว่า ‘Anna’s Archive’ โดยตรง โดเมนหลักก็ยังคงแสดงอยู่ในอันดับต้น ๆ
- แม้ Google จะดำเนินมาตรการดังกล่าว แต่ ตัวเว็บไซต์เองยังไม่ได้ถูกบล็อกการเข้าถึง
การตอบสนองของอุตสาหกรรมสำนักพิมพ์และข้อจำกัด
- สำนักพิมพ์บล็อกเว็บไซต์นี้โดยตรงได้ยาก จึงยังคง ยื่นคำขอให้แพลตฟอร์มบุคคลที่สามอย่าง Google ลบผลการค้นหาออกอย่างต่อเนื่อง
- แม้จะมีแรงกดดันทางกฎหมาย แต่โดเมนหลักอย่าง annas-archive.org, .li, .se ก็ยังคงเปิดให้บริการ
- ในต้นฉบับไม่มีการกล่าวถึงมาตรการในอนาคตหรือการเปลี่ยนแปลงเชิงนโยบายเพิ่มเติม
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ฟังดูอาจแปลก แต่ผมพบว่า Yandex เป็นเสิร์ชเอนจินที่ค่อนข้างยอดเยี่ยมเวลาหาคอนเทนต์ที่ถูกถอดออกเพราะคำขอ DMCA
ตัวอย่างเช่น ถ้าอยากดูหนังผ่านเว็บสตรีมมิงที่ไม่มีใน Netflix ผลการค้นหาจะดีกว่ามาก
ให้ความรู้สึกเหมือนได้กลับไปใช้ Google ในปี 2005 อีกครั้ง
เพราะ Google, Bing, DuckDuckGo ไม่ให้ผลลัพธ์ที่ใช้การได้อีกต่อไป
ทุกวันนี้พวกมันมักแสดงแค่การตรงกันบางส่วนสั้นๆ จากที่อย่าง blockchain explorer ซึ่งไม่รู้ว่าเป็นความตั้งใจหรือเป็นผลจากการพยายามทำ fuzzy matching
ไม่ว่าอย่างไรก็ล้มเหลวโดยสิ้นเชิงสำหรับงานแบบนี้
Google ปรับแต่งเฉพาะบุคคลมากเกินไป
เอนจินที่ดีจะแสดงเว็บละเมิดลิขสิทธิ์ และเอนจินที่ยอดเยี่ยมจะจัดให้มัน อยู่เหนือผลลัพธ์ปลอม
แต่ยิ่งเอนจินดีมากเท่าไร สุดท้ายก็จะโดนจับตาและถูกบังคับให้ลบผลลัพธ์เหล่านั้น
พอถึงจุดนั้นก็ถึงเวลาต้องไปหาที่อื่น
แต่ใน Yandex มันขึ้นมา ติด 3 อันดับแรก ทันที
อ้อ แล้วตอนนี้ DDG ก็แทบจะเหมือน Google ไปแล้ว แถมมี ผลลัพธ์สปอนเซอร์ ด้วย
Anna’s Archive คงได้ให้ข้อมูลทั้งหมดที่ Google ต้องการสำหรับฝึก Gemini ไปเรียบร้อยแล้ว เลยทำเหมือนว่ามันไม่มีอยู่แล้วตอนนี้
เลยยากจะเข้าใจว่าทำไมคอมมูนิตี้ออนไลน์ถึงสร้าง ทฤษฎีสมคบคิดในแง่ร้าย เกี่ยวกับเรื่องนี้
ตอนนี้ Google กลับมาทำ search แล้วเหรอ?
ช่วงนี้ แบรนด์แชตบอต ที่ผมใช้ช่วยหลบเว็บสแปม SEO เป็นร้อยเว็บแล้วหาข้อมูลเดียวกันให้ผมได้ ผมไม่รู้จริงๆ ว่าจะเอาอะไรไปสู้ความสะดวกแบบนั้น
(ชื่อผู้ใช้อย่างเท่)
สุดท้ายมันก็แปลว่าคุณยอมทิ้ง วิจารณญาณ ในการตรวจสอบแหล่งที่มาของข้อมูลโดยตรง
ไม่อย่างนั้นมันก็แค่ทำหน้าที่ค้น Google แทนคุณอยู่ดี
ถ้าเป็น AGI ระดับมนุษย์จริงก็น่าจะตรวจจับความพยายามแบบนี้ได้ แต่แชตบอตปัจจุบันยังทำไม่ได้
บทความที่เกี่ยวข้อง: NYTimes - AI Chatbot Prompts and Manipulation
ผมไม่ได้ค้นหาอะไรที่ Google จะรู้สึกไม่สบายใจเลย
พวก หมายเลขซีเรียล, เบอร์โทรบริษัท, งานวิจัย, หนังสือ ผมหาทั้งหมดด้วย Yandex หรือ Brave
Google จะทำอะไรก็ไม่สำคัญ เพราะผมไม่ได้ใช้อยู่แล้ว
ผมกำลังคิดว่าควรโหลด z-archive torrent มาให้หมดก่อนที่ Anna’s Archive จะหายไป
ถ้าตัด PDF ไฟล์ใหญ่ๆ กับหนังสือที่ไม่ใช่ภาษาอังกฤษออก น่าจะบีบใส่ ไดรฟ์ 32TB สองลูก ได้
https://annas-archive.org/torrents
หลายครั้ง PDF ใหญ่เพราะ ปัญหาเรื่องสีหรือความละเอียด ไม่ใช่เพราะเนื้อหา
อีกอย่างยังสามารถระบุฉบับซ้ำของหนังสือเล่มเดียวกันแบบอัตโนมัติ แล้ว เก็บ epub ไว้แค่ไฟล์เดียวและลบที่เหลือ ได้ด้วย
แค่ติดปัญหาเรื่อง HDD กับไฟล์ซิสเต็ม เลยอาจต้องทำอะไรอย่าง torrent splitter ขึ้นมาเอง
https://annas-archive.org
ผมแทบไม่เคยพึ่ง Google เพื่อหาเนื้อหาบนเว็บแบบนี้เลย
ตัวเว็บเองมีการจัดทำดัชนีตาม ชื่อเรื่อง, ผู้เขียน, รูปแบบ, วันที่ ไว้ดีมากอยู่แล้ว เลยค้นหาอิสระได้สบาย
เช่น ต่อให้คุณค้นหา “a a a a ah ah ah ah dance song” มันก็ยังหา “Million Voices” ของ Otto Knows ให้เจอได้
Google เองก็คงไม่ได้จัดทำดัชนีถึงเนื้อหาเต็มของหน้า Anna’s Archive ด้วยเหมือนกัน
หลังจาก Library Genesis ถูกปิดไปเมื่อไม่นานมานี้ ดูเหมือน Anna’s Archive จะเป็นคลังหนังสือแห่งสุดท้ายที่เหลืออยู่
สงสัยว่ายังมีทางเลือกอื่นอีกไหม
การเดินหน้าสู่ ความไร้ความหมาย ของ Google ยังคงดำเนินต่อไป
สภาพแวดล้อมของการค้นหาเว็บเปลี่ยนไปอย่างสิ้นเชิงแล้ว