Google ลบ URL ที่เกี่ยวข้องกับ Anna’s Archive จำนวน 749 ล้านรายการออกจากผลการค้นหา

(torrentfreak.com)

4 คะแนน โดย GN⁺ 2025-11-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Anna’s Archive เป็น เมตาเสิร์ชเอนจินของ shadow library สำหรับค้นหาอีบุ๊กและเอกสารละเมิดลิขสิทธิ์ โดยเปิดให้บริการในช่วงฤดูใบไม้ร่วงปี 2022
ตลอด 3 ปีที่ผ่านมา จาก คำร้องเรียนลิขสิทธิ์ของสำนักพิมพ์และผู้เขียน ทำให้ Google ลบ URL ของเว็บไซต์นี้ออกจากผลการค้นหาจำนวน 749 ล้านรายการ
ตัวเลขนี้คิดเป็น 5% ของ URL ที่เกี่ยวข้องกับลิขสิทธิ์ทั้งหมด ที่ Google เคยดำเนินการ และมีขนาด มากกว่า The Pirate Bay อย่างมาก
ผู้ทรงสิทธิ์มากกว่า 1,000 ราย เช่น Penguin Random House และ John Wiley & Sons ได้ยื่นคำขอ DMCA และมี URL ใหม่ราว 10 ล้านรายการต่อสัปดาห์ ที่ถูกรายงาน
แม้จะถูกลบในวงกว้าง แต่ โดเมนหลักของ Anna’s Archive ยังเข้าถึงได้ และยังค้นหาเจอได้ง่ายบน Google หากค้นหาด้วยชื่อเว็บไซต์

ภาพรวมของ Anna’s Archive

Anna’s Archive เป็น เมตาเสิร์ชเอนจิน ที่รวมการค้นหาจาก shadow library หลายแห่ง และใช้สำหรับค้นหาหนังสือและเอกสารที่ถูกทำสำเนาอย่างผิดกฎหมาย
- เปิดตัวในช่วงฤดูใบไม้ร่วงปี 2022 ไม่นานหลังจากที่ Z-Library ถูกทางการสหรัฐฯ ปราบปราม
- เริ่มต้นจากเป้าหมายที่จะทำให้หนังสือและงานวิชาการแบบ ‘ฟรี’ ยังคงเข้าถึงสาธารณะได้ต่อไป
หลังเปิดให้บริการมา 3 ปี เว็บไซต์ถูก บล็อกในหลายประเทศ และยังถูกฟ้องในสหรัฐฯ จากข้อหา รวบรวมข้อมูล WorldCat ขนาด 2.2TB โดยไม่ได้รับอนุญาต
นอกจากนี้ยังดำเนินกิจกรรมเพื่อ สนับสนุนให้นักวิจัย AI เข้าถึงข้อมูล ด้วย

การลบครั้งใหญ่ของ Google

Google จะ นำ URL ที่สงสัยว่าละเมิดลิขสิทธิ์ออกจากผลการค้นหา ตามคำร้องขอของผู้ทรงสิทธิ์
สำหรับ Anna’s Archive มี URL ที่ถูกรายงานทั้งหมด 784 ล้านรายการ และในจำนวนนี้ 749 ล้านรายการถูกลบจริง
- ลิงก์บางส่วนไม่อยู่ในดัชนีของ Google จึงไม่เข้าข่ายต้องลบ
สำหรับการเปรียบเทียบ The Pirate Bay ถูกลบ 4.2 ล้าน URL ทำให้เห็นว่าขนาดของ Anna’s Archive ใหญ่มากกว่าอย่างชัดเจน
เว็บไซต์มีการใช้ซับโดเมนแยกตามประเทศหลายแห่งและมีหน้าจำนวนมหาศาล จึงทำให้ จำนวน URL ที่เข้าข่ายถูกลบมีมาก

คิดเป็น 5% ของการลบลิขสิทธิ์ทั้งหมดของ Google

ตามรายงานความโปร่งใสของ Google นับตั้งแต่ปี 2012 มีการรายงาน URL ละเมิดลิขสิทธิ์รวม 15.1 พันล้านรายการ
- ในจำนวนนั้น URL ที่เกี่ยวข้องกับ Anna’s Archive คิดเป็น 5% ของทั้งหมด
Penguin Random House และ John Wiley & Sons เป็นผู้รายงานหลัก และมี สำนักพิมพ์กับผู้เขียนมากกว่า 1,000 ราย ที่ยื่นคำขอ DMCA
ปัจจุบันยังมี URL ใหม่ราว 10 ล้านรายการต่อสัปดาห์ ถูกเพิ่มเข้ามาในการรายงาน

การมองเห็นในผลการค้นหา

การลบครั้งใหญ่ทำให้ การแสดงผลของเว็บไซต์ลดลงสำหรับคำค้นที่เกี่ยวกับหนังสือ
- หลาย URL ถูกซ่อนจากการแสดงผลหรือมีอันดับค้นหาตกลง
อย่างไรก็ตาม หากค้นหาคำว่า ‘Anna’s Archive’ โดยตรง โดเมนหลักก็ยังคงแสดงอยู่ในอันดับต้น ๆ
แม้ Google จะดำเนินมาตรการดังกล่าว แต่ ตัวเว็บไซต์เองยังไม่ได้ถูกบล็อกการเข้าถึง

การตอบสนองของอุตสาหกรรมสำนักพิมพ์และข้อจำกัด

สำนักพิมพ์บล็อกเว็บไซต์นี้โดยตรงได้ยาก จึงยังคง ยื่นคำขอให้แพลตฟอร์มบุคคลที่สามอย่าง Google ลบผลการค้นหาออกอย่างต่อเนื่อง
แม้จะมีแรงกดดันทางกฎหมาย แต่โดเมนหลักอย่าง annas-archive.org, .li, .se ก็ยังคงเปิดให้บริการ
ในต้นฉบับไม่มีการกล่าวถึงมาตรการในอนาคตหรือการเปลี่ยนแปลงเชิงนโยบายเพิ่มเติม

1 ความคิดเห็น

GN⁺ 2025-11-06

ความคิดเห็นบน Hacker News

ฟังดูอาจแปลก แต่ผมพบว่า Yandex เป็นเสิร์ชเอนจินที่ค่อนข้างยอดเยี่ยมเวลาหาคอนเทนต์ที่ถูกถอดออกเพราะคำขอ DMCA
ตัวอย่างเช่น ถ้าอยากดูหนังผ่านเว็บสตรีมมิงที่ไม่มีใน Netflix ผลการค้นหาจะดีกว่ามาก
ให้ความรู้สึกเหมือนได้กลับไปใช้ Google ในปี 2005 อีกครั้ง
- ผมเริ่มใช้ Yandex หา bittorrent infohash มาหลายปีแล้ว
  เพราะ Google, Bing, DuckDuckGo ไม่ให้ผลลัพธ์ที่ใช้การได้อีกต่อไป
  ทุกวันนี้พวกมันมักแสดงแค่การตรงกันบางส่วนสั้นๆ จากที่อย่าง blockchain explorer ซึ่งไม่รู้ว่าเป็นความตั้งใจหรือเป็นผลจากการพยายามทำ fuzzy matching
  ไม่ว่าอย่างไรก็ล้มเหลวโดยสิ้นเชิงสำหรับงานแบบนี้
- ผมลองใช้เสิร์ชเอนจินหลายตัว ทั้ง Kagi, Startpage, Ecosia, DDG และทุกตัวให้ ผลลัพธ์ที่เกี่ยวข้องกว่า Google
  Google ปรับแต่งเฉพาะบุคคลมากเกินไป
- ในฐานะชาวยูเครน ผมโกรธที่ Yandex กลายเป็น เครื่องมือโฆษณาชวนเชื่อ แต่ในฐานะวิศวกร ผมก็ยังเคารพ มรดกงานวิจัยหลายสิบปี และเทคโนโลยีการค้นหาที่ยอดเยี่ยมของพวกเขา
- ผมทดสอบคุณภาพเสิร์ชเอนจินแบบนี้มานานแล้ว
  เอนจินที่ดีจะแสดงเว็บละเมิดลิขสิทธิ์ และเอนจินที่ยอดเยี่ยมจะจัดให้มัน อยู่เหนือผลลัพธ์ปลอม
  แต่ยิ่งเอนจินดีมากเท่าไร สุดท้ายก็จะโดนจับตาและถูกบังคับให้ลบผลลัพธ์เหล่านั้น
  พอถึงจุดนั้นก็ถึงเวลาต้องไปหาที่อื่น
- ตลกดีที่ไม่กี่วันก่อน ภรรยาผมเล่าเรื่องประวัติศาสตร์ของประเทศเธอแล้วแนะนำหนังที่เกี่ยวข้อง แต่หาไม่เจอทั้งใน Google, DDG, Bing, Brave
  แต่ใน Yandex มันขึ้นมา ติด 3 อันดับแรก ทันที
  อ้อ แล้วตอนนี้ DDG ก็แทบจะเหมือน Google ไปแล้ว แถมมี ผลลัพธ์สปอนเซอร์ ด้วย
Anna’s Archive คงได้ให้ข้อมูลทั้งหมดที่ Google ต้องการสำหรับฝึก Gemini ไปเรียบร้อยแล้ว เลยทำเหมือนว่ามันไม่มีอยู่แล้วตอนนี้
- สงสัยว่า Anna’s Archive เคยจัดระเบียบข้อมูลของโลกและทำให้ เข้าถึงได้อย่างทั่วถึง หรือเปล่า
- Google ดำเนินการ transparency log โดยสมัครใจอยู่แล้ว และการปฏิบัติตาม DMCA ก็เป็นเพียงเรื่องของการตีความกฎหมาย
  เลยยากจะเข้าใจว่าทำไมคอมมูนิตี้ออนไลน์ถึงสร้าง ทฤษฎีสมคบคิดในแง่ร้าย เกี่ยวกับเรื่องนี้
ตอนนี้ Google กลับมาทำ search แล้วเหรอ?
ช่วงนี้ แบรนด์แชตบอต ที่ผมใช้ช่วยหลบเว็บสแปม SEO เป็นร้อยเว็บแล้วหาข้อมูลเดียวกันให้ผมได้ ผมไม่รู้จริงๆ ว่าจะเอาอะไรไปสู้ความสะดวกแบบนั้น
- ผมได้ยินมาว่าแชตบอต ได้รับผลกระทบจากสแปมน้อยกว่า Google ไม่รู้ว่าจริงไหม
- ผมจำได้ลางๆ ว่าเคยมีสมัยที่ Google ทำ search จริงๆ
  (ชื่อผู้ใช้อย่างเท่)
- แชตบอตไม่ได้มี ดัชนีระดับอินเทอร์เน็ตทั้งระบบ เป็นของตัวเอง
  สุดท้ายมันก็แปลว่าคุณยอมทิ้ง วิจารณญาณ ในการตรวจสอบแหล่งที่มาของข้อมูลโดยตรง
- ลิงก์ที่แชตบอตให้มา 25~90% เป็นภาพหลอน (hallucination)
  ไม่อย่างนั้นมันก็แค่ทำหน้าที่ค้น Google แทนคุณอยู่ดี
- AI แบบ LLM มีความเปราะบางต่อ การโจมตีด้วยการบิดเบือนข้อมูล โดยเนื้อแท้
  ถ้าเป็น AGI ระดับมนุษย์จริงก็น่าจะตรวจจับความพยายามแบบนี้ได้ แต่แชตบอตปัจจุบันยังทำไม่ได้
  บทความที่เกี่ยวข้อง: NYTimes - AI Chatbot Prompts and Manipulation
ผมไม่ได้ค้นหาอะไรที่ Google จะรู้สึกไม่สบายใจเลย
พวก หมายเลขซีเรียล, เบอร์โทรบริษัท, งานวิจัย, หนังสือ ผมหาทั้งหมดด้วย Yandex หรือ Brave
Google จะทำอะไรก็ไม่สำคัญ เพราะผมไม่ได้ใช้อยู่แล้ว
ผมกำลังคิดว่าควรโหลด z-archive torrent มาให้หมดก่อนที่ Anna’s Archive จะหายไป
ถ้าตัด PDF ไฟล์ใหญ่ๆ กับหนังสือที่ไม่ใช่ภาษาอังกฤษออก น่าจะบีบใส่ ไดรฟ์ 32TB สองลูก ได้
https://annas-archive.org/torrents
- การเอา PDF ขนาดใหญ่ออกดูเป็นเกณฑ์ที่สุ่มเกินไปหรือเปล่า
  หลายครั้ง PDF ใหญ่เพราะ ปัญหาเรื่องสีหรือความละเอียด ไม่ใช่เพราะเนื้อหา
- เมื่อก่อนผมเคยลดขนาดด้วยการลด DPI และความลึกของสี แล้วรวมกลับเป็น PDF ใหม่
  อีกอย่างยังสามารถระบุฉบับซ้ำของหนังสือเล่มเดียวกันแบบอัตโนมัติ แล้ว เก็บ epub ไว้แค่ไฟล์เดียวและลบที่เหลือ ได้ด้วย
- ผมเองก็อยากทำแบ็กอัปเวอร์ชันภาษาอังกฤษ/เยอรมัน/ฝรั่งเศส
  แค่ติดปัญหาเรื่อง HDD กับไฟล์ซิสเต็ม เลยอาจต้องทำอะไรอย่าง torrent splitter ขึ้นมาเอง
- ผมจัดการโดยกลับลำดับลิสต์แล้ว เติมจากไฟล์เล็กก่อน
https://annas-archive.org
ผมแทบไม่เคยพึ่ง Google เพื่อหาเนื้อหาบนเว็บแบบนี้เลย
ตัวเว็บเองมีการจัดทำดัชนีตาม ชื่อเรื่อง, ผู้เขียน, รูปแบบ, วันที่ ไว้ดีมากอยู่แล้ว เลยค้นหาอิสระได้สบาย
- เว็บเสิร์ชแบบ Google เด่นเรื่อง การค้นหาด้วยคำใกล้เคียง
  เช่น ต่อให้คุณค้นหา “a a a a ah ah ah ah dance song” มันก็ยังหา “Million Voices” ของ Otto Knows ให้เจอได้
- แต่ผมสงสัยว่าเว็บแบบนี้มีฟังก์ชัน full-text search หรือเปล่า
  Google เองก็คงไม่ได้จัดทำดัชนีถึงเนื้อหาเต็มของหน้า Anna’s Archive ด้วยเหมือนกัน
หลังจาก Library Genesis ถูกปิดไปเมื่อไม่นานมานี้ ดูเหมือน Anna’s Archive จะเป็นคลังหนังสือแห่งสุดท้ายที่เหลืออยู่
สงสัยว่ายังมีทางเลือกอื่นอีกไหม
- มี Open-Slum.org ที่ลิงก์มาจาก Anna’s Archive
- หนังสือแนะนำ WeLib.org ส่วนหนังสือเสียงแนะนำ AudiobookBay
การเดินหน้าสู่ ความไร้ความหมาย ของ Google ยังคงดำเนินต่อไป
- ถึงอย่างนั้น Google ก็ยังครอง 97% ของคำค้นหาทั่วโลกอยู่ดี
สภาพแวดล้อมของการค้นหาเว็บเปลี่ยนไปอย่างสิ้นเชิงแล้ว
- มี แพลตฟอร์มปิด (walled garden) มากขึ้น ทำให้มีพื้นที่มากมายที่เสิร์ชเอนจินเข้าไม่ถึง
- ยังมีข้อมูลอีกมากที่เข้าถึงไม่ได้เพราะ ข้อจำกัดทางกฎหมาย
- ตอนนี้ต้องใช้ทั้ง Google, Yandex, Kagi, ChatGPT ไปพร้อมกัน
- ผมยังใช้ดัชนีที่ทำเองอย่าง Internet Places Database ควบคู่กันด้วย

Google ลบ URL ที่เกี่ยวข้องกับ Anna’s Archive จำนวน 749 ล้านรายการออกจากผลการค้นหา

ภาพรวมของ Anna’s Archive

การลบครั้งใหญ่ของ Google

คิดเป็น 5% ของการลบลิขสิทธิ์ทั้งหมดของ Google

การมองเห็นในผลการค้นหา

การตอบสนองของอุตสาหกรรมสำนักพิมพ์และข้อจำกัด

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News