4 คะแนน โดย GN⁺ 2025-11-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anna’s Archive เป็น เมตาเสิร์ชเอนจินของ shadow library สำหรับค้นหาอีบุ๊กและเอกสารละเมิดลิขสิทธิ์ โดยเปิดให้บริการในช่วงฤดูใบไม้ร่วงปี 2022
  • ตลอด 3 ปีที่ผ่านมา จาก คำร้องเรียนลิขสิทธิ์ของสำนักพิมพ์และผู้เขียน ทำให้ Google ลบ URL ของเว็บไซต์นี้ออกจากผลการค้นหาจำนวน 749 ล้านรายการ
  • ตัวเลขนี้คิดเป็น 5% ของ URL ที่เกี่ยวข้องกับลิขสิทธิ์ทั้งหมด ที่ Google เคยดำเนินการ และมีขนาด มากกว่า The Pirate Bay อย่างมาก
  • ผู้ทรงสิทธิ์มากกว่า 1,000 ราย เช่น Penguin Random House และ John Wiley & Sons ได้ยื่นคำขอ DMCA และมี URL ใหม่ราว 10 ล้านรายการต่อสัปดาห์ ที่ถูกรายงาน
  • แม้จะถูกลบในวงกว้าง แต่ โดเมนหลักของ Anna’s Archive ยังเข้าถึงได้ และยังค้นหาเจอได้ง่ายบน Google หากค้นหาด้วยชื่อเว็บไซต์

ภาพรวมของ Anna’s Archive

  • Anna’s Archive เป็น เมตาเสิร์ชเอนจิน ที่รวมการค้นหาจาก shadow library หลายแห่ง และใช้สำหรับค้นหาหนังสือและเอกสารที่ถูกทำสำเนาอย่างผิดกฎหมาย
    • เปิดตัวในช่วงฤดูใบไม้ร่วงปี 2022 ไม่นานหลังจากที่ Z-Library ถูกทางการสหรัฐฯ ปราบปราม
    • เริ่มต้นจากเป้าหมายที่จะทำให้หนังสือและงานวิชาการแบบ ‘ฟรี’ ยังคงเข้าถึงสาธารณะได้ต่อไป
  • หลังเปิดให้บริการมา 3 ปี เว็บไซต์ถูก บล็อกในหลายประเทศ และยังถูกฟ้องในสหรัฐฯ จากข้อหา รวบรวมข้อมูล WorldCat ขนาด 2.2TB โดยไม่ได้รับอนุญาต
  • นอกจากนี้ยังดำเนินกิจกรรมเพื่อ สนับสนุนให้นักวิจัย AI เข้าถึงข้อมูล ด้วย

การลบครั้งใหญ่ของ Google

  • Google จะ นำ URL ที่สงสัยว่าละเมิดลิขสิทธิ์ออกจากผลการค้นหา ตามคำร้องขอของผู้ทรงสิทธิ์
  • สำหรับ Anna’s Archive มี URL ที่ถูกรายงานทั้งหมด 784 ล้านรายการ และในจำนวนนี้ 749 ล้านรายการถูกลบจริง
    • ลิงก์บางส่วนไม่อยู่ในดัชนีของ Google จึงไม่เข้าข่ายต้องลบ
  • สำหรับการเปรียบเทียบ The Pirate Bay ถูกลบ 4.2 ล้าน URL ทำให้เห็นว่าขนาดของ Anna’s Archive ใหญ่มากกว่าอย่างชัดเจน
  • เว็บไซต์มีการใช้ซับโดเมนแยกตามประเทศหลายแห่งและมีหน้าจำนวนมหาศาล จึงทำให้ จำนวน URL ที่เข้าข่ายถูกลบมีมาก

คิดเป็น 5% ของการลบลิขสิทธิ์ทั้งหมดของ Google

  • ตามรายงานความโปร่งใสของ Google นับตั้งแต่ปี 2012 มีการรายงาน URL ละเมิดลิขสิทธิ์รวม 15.1 พันล้านรายการ
    • ในจำนวนนั้น URL ที่เกี่ยวข้องกับ Anna’s Archive คิดเป็น 5% ของทั้งหมด
  • Penguin Random House และ John Wiley & Sons เป็นผู้รายงานหลัก และมี สำนักพิมพ์กับผู้เขียนมากกว่า 1,000 ราย ที่ยื่นคำขอ DMCA
  • ปัจจุบันยังมี URL ใหม่ราว 10 ล้านรายการต่อสัปดาห์ ถูกเพิ่มเข้ามาในการรายงาน

การมองเห็นในผลการค้นหา

  • การลบครั้งใหญ่ทำให้ การแสดงผลของเว็บไซต์ลดลงสำหรับคำค้นที่เกี่ยวกับหนังสือ
    • หลาย URL ถูกซ่อนจากการแสดงผลหรือมีอันดับค้นหาตกลง
  • อย่างไรก็ตาม หากค้นหาคำว่า ‘Anna’s Archive’ โดยตรง โดเมนหลักก็ยังคงแสดงอยู่ในอันดับต้น ๆ
  • แม้ Google จะดำเนินมาตรการดังกล่าว แต่ ตัวเว็บไซต์เองยังไม่ได้ถูกบล็อกการเข้าถึง

การตอบสนองของอุตสาหกรรมสำนักพิมพ์และข้อจำกัด

  • สำนักพิมพ์บล็อกเว็บไซต์นี้โดยตรงได้ยาก จึงยังคง ยื่นคำขอให้แพลตฟอร์มบุคคลที่สามอย่าง Google ลบผลการค้นหาออกอย่างต่อเนื่อง
  • แม้จะมีแรงกดดันทางกฎหมาย แต่โดเมนหลักอย่าง annas-archive.org, .li, .se ก็ยังคงเปิดให้บริการ
  • ในต้นฉบับไม่มีการกล่าวถึงมาตรการในอนาคตหรือการเปลี่ยนแปลงเชิงนโยบายเพิ่มเติม

1 ความคิดเห็น

 
GN⁺ 2025-11-06
ความคิดเห็นบน Hacker News
  • ฟังดูอาจแปลก แต่ผมพบว่า Yandex เป็นเสิร์ชเอนจินที่ค่อนข้างยอดเยี่ยมเวลาหาคอนเทนต์ที่ถูกถอดออกเพราะคำขอ DMCA
    ตัวอย่างเช่น ถ้าอยากดูหนังผ่านเว็บสตรีมมิงที่ไม่มีใน Netflix ผลการค้นหาจะดีกว่ามาก
    ให้ความรู้สึกเหมือนได้กลับไปใช้ Google ในปี 2005 อีกครั้ง

    • ผมเริ่มใช้ Yandex หา bittorrent infohash มาหลายปีแล้ว
      เพราะ Google, Bing, DuckDuckGo ไม่ให้ผลลัพธ์ที่ใช้การได้อีกต่อไป
      ทุกวันนี้พวกมันมักแสดงแค่การตรงกันบางส่วนสั้นๆ จากที่อย่าง blockchain explorer ซึ่งไม่รู้ว่าเป็นความตั้งใจหรือเป็นผลจากการพยายามทำ fuzzy matching
      ไม่ว่าอย่างไรก็ล้มเหลวโดยสิ้นเชิงสำหรับงานแบบนี้
    • ผมลองใช้เสิร์ชเอนจินหลายตัว ทั้ง Kagi, Startpage, Ecosia, DDG และทุกตัวให้ ผลลัพธ์ที่เกี่ยวข้องกว่า Google
      Google ปรับแต่งเฉพาะบุคคลมากเกินไป
    • ในฐานะชาวยูเครน ผมโกรธที่ Yandex กลายเป็น เครื่องมือโฆษณาชวนเชื่อ แต่ในฐานะวิศวกร ผมก็ยังเคารพ มรดกงานวิจัยหลายสิบปี และเทคโนโลยีการค้นหาที่ยอดเยี่ยมของพวกเขา
    • ผมทดสอบคุณภาพเสิร์ชเอนจินแบบนี้มานานแล้ว
      เอนจินที่ดีจะแสดงเว็บละเมิดลิขสิทธิ์ และเอนจินที่ยอดเยี่ยมจะจัดให้มัน อยู่เหนือผลลัพธ์ปลอม
      แต่ยิ่งเอนจินดีมากเท่าไร สุดท้ายก็จะโดนจับตาและถูกบังคับให้ลบผลลัพธ์เหล่านั้น
      พอถึงจุดนั้นก็ถึงเวลาต้องไปหาที่อื่น
    • ตลกดีที่ไม่กี่วันก่อน ภรรยาผมเล่าเรื่องประวัติศาสตร์ของประเทศเธอแล้วแนะนำหนังที่เกี่ยวข้อง แต่หาไม่เจอทั้งใน Google, DDG, Bing, Brave
      แต่ใน Yandex มันขึ้นมา ติด 3 อันดับแรก ทันที
      อ้อ แล้วตอนนี้ DDG ก็แทบจะเหมือน Google ไปแล้ว แถมมี ผลลัพธ์สปอนเซอร์ ด้วย
  • Anna’s Archive คงได้ให้ข้อมูลทั้งหมดที่ Google ต้องการสำหรับฝึก Gemini ไปเรียบร้อยแล้ว เลยทำเหมือนว่ามันไม่มีอยู่แล้วตอนนี้

    • สงสัยว่า Anna’s Archive เคยจัดระเบียบข้อมูลของโลกและทำให้ เข้าถึงได้อย่างทั่วถึง หรือเปล่า
    • Google ดำเนินการ transparency log โดยสมัครใจอยู่แล้ว และการปฏิบัติตาม DMCA ก็เป็นเพียงเรื่องของการตีความกฎหมาย
      เลยยากจะเข้าใจว่าทำไมคอมมูนิตี้ออนไลน์ถึงสร้าง ทฤษฎีสมคบคิดในแง่ร้าย เกี่ยวกับเรื่องนี้
  • ตอนนี้ Google กลับมาทำ search แล้วเหรอ?
    ช่วงนี้ แบรนด์แชตบอต ที่ผมใช้ช่วยหลบเว็บสแปม SEO เป็นร้อยเว็บแล้วหาข้อมูลเดียวกันให้ผมได้ ผมไม่รู้จริงๆ ว่าจะเอาอะไรไปสู้ความสะดวกแบบนั้น

    • ผมได้ยินมาว่าแชตบอต ได้รับผลกระทบจากสแปมน้อยกว่า Google ไม่รู้ว่าจริงไหม
    • ผมจำได้ลางๆ ว่าเคยมีสมัยที่ Google ทำ search จริงๆ
      (ชื่อผู้ใช้อย่างเท่)
    • แชตบอตไม่ได้มี ดัชนีระดับอินเทอร์เน็ตทั้งระบบ เป็นของตัวเอง
      สุดท้ายมันก็แปลว่าคุณยอมทิ้ง วิจารณญาณ ในการตรวจสอบแหล่งที่มาของข้อมูลโดยตรง
    • ลิงก์ที่แชตบอตให้มา 25~90% เป็นภาพหลอน (hallucination)
      ไม่อย่างนั้นมันก็แค่ทำหน้าที่ค้น Google แทนคุณอยู่ดี
    • AI แบบ LLM มีความเปราะบางต่อ การโจมตีด้วยการบิดเบือนข้อมูล โดยเนื้อแท้
      ถ้าเป็น AGI ระดับมนุษย์จริงก็น่าจะตรวจจับความพยายามแบบนี้ได้ แต่แชตบอตปัจจุบันยังทำไม่ได้
      บทความที่เกี่ยวข้อง: NYTimes - AI Chatbot Prompts and Manipulation
  • ผมไม่ได้ค้นหาอะไรที่ Google จะรู้สึกไม่สบายใจเลย
    พวก หมายเลขซีเรียล, เบอร์โทรบริษัท, งานวิจัย, หนังสือ ผมหาทั้งหมดด้วย Yandex หรือ Brave
    Google จะทำอะไรก็ไม่สำคัญ เพราะผมไม่ได้ใช้อยู่แล้ว

  • ผมกำลังคิดว่าควรโหลด z-archive torrent มาให้หมดก่อนที่ Anna’s Archive จะหายไป
    ถ้าตัด PDF ไฟล์ใหญ่ๆ กับหนังสือที่ไม่ใช่ภาษาอังกฤษออก น่าจะบีบใส่ ไดรฟ์ 32TB สองลูก ได้
    https://annas-archive.org/torrents

    • การเอา PDF ขนาดใหญ่ออกดูเป็นเกณฑ์ที่สุ่มเกินไปหรือเปล่า
      หลายครั้ง PDF ใหญ่เพราะ ปัญหาเรื่องสีหรือความละเอียด ไม่ใช่เพราะเนื้อหา
    • เมื่อก่อนผมเคยลดขนาดด้วยการลด DPI และความลึกของสี แล้วรวมกลับเป็น PDF ใหม่
      อีกอย่างยังสามารถระบุฉบับซ้ำของหนังสือเล่มเดียวกันแบบอัตโนมัติ แล้ว เก็บ epub ไว้แค่ไฟล์เดียวและลบที่เหลือ ได้ด้วย
    • ผมเองก็อยากทำแบ็กอัปเวอร์ชันภาษาอังกฤษ/เยอรมัน/ฝรั่งเศส
      แค่ติดปัญหาเรื่อง HDD กับไฟล์ซิสเต็ม เลยอาจต้องทำอะไรอย่าง torrent splitter ขึ้นมาเอง
    • ผมจัดการโดยกลับลำดับลิสต์แล้ว เติมจากไฟล์เล็กก่อน
  • https://annas-archive.org

  • ผมแทบไม่เคยพึ่ง Google เพื่อหาเนื้อหาบนเว็บแบบนี้เลย
    ตัวเว็บเองมีการจัดทำดัชนีตาม ชื่อเรื่อง, ผู้เขียน, รูปแบบ, วันที่ ไว้ดีมากอยู่แล้ว เลยค้นหาอิสระได้สบาย

    • เว็บเสิร์ชแบบ Google เด่นเรื่อง การค้นหาด้วยคำใกล้เคียง
      เช่น ต่อให้คุณค้นหา “a a a a ah ah ah ah dance song” มันก็ยังหา “Million Voices” ของ Otto Knows ให้เจอได้
    • แต่ผมสงสัยว่าเว็บแบบนี้มีฟังก์ชัน full-text search หรือเปล่า
      Google เองก็คงไม่ได้จัดทำดัชนีถึงเนื้อหาเต็มของหน้า Anna’s Archive ด้วยเหมือนกัน
  • หลังจาก Library Genesis ถูกปิดไปเมื่อไม่นานมานี้ ดูเหมือน Anna’s Archive จะเป็นคลังหนังสือแห่งสุดท้ายที่เหลืออยู่
    สงสัยว่ายังมีทางเลือกอื่นอีกไหม

    • มี Open-Slum.org ที่ลิงก์มาจาก Anna’s Archive
    • หนังสือแนะนำ WeLib.org ส่วนหนังสือเสียงแนะนำ AudiobookBay
  • การเดินหน้าสู่ ความไร้ความหมาย ของ Google ยังคงดำเนินต่อไป

    • ถึงอย่างนั้น Google ก็ยังครอง 97% ของคำค้นหาทั่วโลกอยู่ดี
  • สภาพแวดล้อมของการค้นหาเว็บเปลี่ยนไปอย่างสิ้นเชิงแล้ว

    • มี แพลตฟอร์มปิด (walled garden) มากขึ้น ทำให้มีพื้นที่มากมายที่เสิร์ชเอนจินเข้าไม่ถึง
    • ยังมีข้อมูลอีกมากที่เข้าถึงไม่ได้เพราะ ข้อจำกัดทางกฎหมาย
    • ตอนนี้ต้องใช้ทั้ง Google, Yandex, Kagi, ChatGPT ไปพร้อมกัน
    • ผมยังใช้ดัชนีที่ทำเองอย่าง Internet Places Database ควบคู่กันด้วย