1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anna’s Archive ตั้ง เงินรางวัล 200,000 ดอลลาร์ สำหรับการได้มาซึ่ง สแกนหนังสือทั้งเล่มของ Google Books หรือคอลเลกชันขนาดใกล้เคียง
  • ปัจจุบันการเข้าถึง Google Books เน้นที่ snippet ขนาดเล็ก รอบผลการค้นหา ดังนั้นการได้สแกนฉบับเต็มจึงถูกมองเป็นภารกิจสำคัญในมุมของการเก็บถาวร
  • หากพบวิธีที่ขยายผลได้ แนะนำให้ติดต่อมาตั้งแต่ขั้น ต้นแบบ โดยไม่ต้องรอให้เสร็จสมบูรณ์
  • ผู้ที่มีสิทธิ์เข้าถึงภายใน Google ก็อยู่ในข่ายเช่นกัน และแม้จะได้มาเพียง ข้อความ OCR โดยไม่มีภาพ ก็อาจได้รับเงินรางวัลครึ่งหนึ่ง
  • เป้าหมายไม่ได้จำกัดแค่ Google Books แต่ยังครอบคลุมคอลเลกชันขนาดใหญ่ที่มี หนังสือหายาก ซึ่งบริษัท AI และอื่น ๆ รวบรวมไว้ด้วย

เป้าหมายของเงินรางวัลและเงื่อนไขการเข้าร่วม

  • Anna’s Archive เสนอ เงินรางวัล $200,000 สำหรับการได้มาซึ่งสแกนหนังสือทั้งเล่มจาก Google Books หรือแหล่งใกล้เคียง
  • ก่อนเริ่มดำเนินการ ต้องอ่าน คำแนะนำเรื่อง bounties ของ Anna’s Archive อย่างละเอียด
  • Google Books มีหนังสือสแกนจำนวนมาก แต่เมื่อเข้าถึงผ่านการค้นหา จะเห็นเพียง snippet ขนาดเล็ก รอบผลลัพธ์เท่านั้น
  • หากพบวิธีที่มีความเป็นไปได้ในการขยายผล แนะนำให้ติดต่อแต่เนิ่น ๆ ด้วย ต้นแบบ โดยไม่ต้องรอจนได้งานสมบูรณ์
    • Anna’s Archive สามารถช่วยงานขยายผลในภายหลังได้
  • ผู้ที่ทำงานที่ Google และสามารถเข้าถึงข้อมูลดังกล่าวก็รวมอยู่ในผู้มีสิทธิ์รับรางวัลด้วย
    • ระบุว่า $200,000 อาจไม่ใช่เงินก้อนใหญ่ แต่หากสามารถนำข้อมูลออกมาได้ ก็จะถูกเรียกว่า “นักเก็บถาวรระดับตำนาน”
  • เงินรางวัลนี้ยังใช้กับคอลเลกชันขนาดใกล้เคียงนอกเหนือจาก Google Books ด้วย
    • ยกตัวอย่างคอลเลกชันที่บริษัท AI รวบรวมไว้
    • โดยเฉพาะหากเป็นคอลเลกชันที่มี หนังสือหายาก อยู่เป็นจำนวนมาก ก็เข้าข่าย

ขนาดและวิธีส่งมอบที่สรุปจากความคิดเห็น

  • ความคิดเห็นหนึ่งเขียนว่าอาร์ไคฟ์ทั้งหมดมีขนาดประมาณ 7PB รวมเนื้อหาที่มีลิขสิทธิ์ แต่ภายหลังแก้ไขว่าอยู่ที่ ประมาณ 1.5PB และเป็นตัวเลขที่รวมสำเนาจากไซต์ IUPUI
  • เนื้อหา public domain และเนื้อหาที่ผู้เขียนเปิดเผยเองถูกกล่าวถึงว่ามีขนาดประมาณ 300TB
  • Anna’s Archive ตอบว่าหากยังไม่มีการ scrape เนื้อหา public domain และเนื้อหาที่ผู้เขียนเปิดเผยเอง ก็ยินดีพิจารณาเพิ่มเงินรางวัลแยกต่างหาก
  • แม้ในกรณีที่นำออกมาเฉพาะ ข้อความ OCR ไม่ใช่ภาพทั้งหมด ก็อาจจ่ายเงินรางวัลครึ่งหนึ่งตามวัตถุประสงค์ของเงินรางวัลนี้
  • วิธีส่งมอบเมื่อได้ข้อมูลปริมาณมาก มีการกล่าวถึง SFTP หรือวิธีที่คล้ายกัน
  • ชื่อ issue ถูกเปลี่ยนเมื่อวันที่ 7 มิถุนายน 2025 เป็น Google Books (or similar) all book scans — $200,000 bounty

1 ความคิดเห็น

 
GN⁺ 4 시간 전
ความคิดเห็นบน Hacker News
  • ผมอยู่ในประเทศที่หาหนังสือภาษาอังกฤษได้ยาก การสั่งซื้อออนไลน์จากต่างประเทศมีขั้นตอนราชการและข้อจำกัดมากเกินไป
    ถ้าไม่มี Anna's Archive และ Z-Library ผมคงไม่ได้อ่านหนังสือที่หล่อหลอมผมให้เป็นผมในวันนี้ และคงยากที่จะรักษาความกระตือรือร้นในการเรียนรู้ไว้ได้
    ผมยังขอบคุณผู้เขียนที่ผมได้รับความรู้จากพวกเขา ทั้งที่ยังไม่ได้ตอบแทนเป็นค่าหนังสือ

    • พูดแบบกึ่งล้อเล่นกึ่งจริงจัง อาจบอกได้ว่างั้นชีวิตทั้งหมดในตอนนี้ของคุณก็มาจากผลประโยชน์ของอาชญากรรมหรือเปล่า แต่ ความรู้ควรเป็นอิสระ
      ความรู้ไม่ได้ถูกสร้างขึ้นในสุญญากาศ และเป็นของทุกคน
    • ผมเข้าใจจุดยืนนั้น แต่ถ้าผู้เขียนไม่สามารถหารายได้ได้ หนังสือจำนวนมากในนั้นก็อาจไม่เคยมีอยู่ตั้งแต่แรก
      เมื่อก่อนบน Reddit เคยมีผู้เขียนคนหนึ่งโพสต์สถิติว่าหลังจากหนังสือของเขาถูกนำไปลงในเว็บแชร์ผิดกฎหมาย ยอดขายจริงก็พังลง
      ดังนั้นโดยเฉพาะ หนังสือโปรแกรมมิง ผมพยายามซื้อให้มากที่สุด และใช้ PDF เหมือนเป็นตัวอย่างให้อ่านก่อน กลับกัน มันทำให้ผมซื้อหนังสือมากกว่าเมื่อก่อนมาก
      แน่นอนว่าถ้าคุณอยู่ในพื้นที่ที่ซื้อไม่ได้เลย เรื่องก็เป็นอีกแบบ แต่เวลาชื่นชมเว็บแบบนี้ มักจะมองเห็นแต่ด้านบวก
    • ดีที่ชื่อผู้ใช้มีตำแหน่งที่ตั้งเขียนไว้ ทุกวันนี้สิ่งที่น่ารำคาญที่สุดบนออนไลน์คือคนพูดว่า “ในประเทศของเรา” แล้วไม่ยอมบอกจนจบว่าประเทศไหน
    • https://send.djazz.se/
      เป็นเครื่องมือสำคัญในการส่ง EPUB ไปยัง Kobo
  • https://SourceLibrary.org มี ฉบับแปลของหนังสือหายากประมาณ 16,000 เล่ม และส่วนใหญ่เป็นการแปลครั้งแรก
    หนังสือที่เก็บรักษาไว้มี 50,000 เล่ม และถ้ามีเงินทุนก็จะนำมาแปล จำนวนโทเคนมากกว่า Wikipedia ภาษาอังกฤษ และขนาดรวมราว 0.75PB
    ไม่รู้ว่าจะเข้าข่ายได้รับรางวัลหรือไม่ แต่อยากแชร์ไว้ และกำลังมองหาผู้สนับสนุนทั้งรายย่อยและรายใหญ่เพื่อช่วยแปลเอกสารยุคเรอเนซองส์

    • ผลลัพธ์สวยงาม คำตอบก็เหมาะสมและมีพลังสะท้อนใจ การหาเงินทุนอาจทำได้ในรูปแบบอย่าง API วิจัยแบบเสียเงิน
    • ดูน่าสนใจ
      ยังดูได้ไม่ชัดทันทีว่าเก็บอะไรไว้ทั้งหมดบ้าง แต่ในบรรดาเพื่อนนักประวัติศาสตร์สายวิชาการของผม มีบางคนที่น่าจะสนใจบางสาขา และอาจช่วยตรวจสอบภาษายาก ๆ บางส่วนได้ด้วย
      สงสัยว่าสามารถ ค้นหาตามภูมิภาคหรือภาษา ได้ไหม
      และสงสัยว่าเคยติดต่อฝั่งนักประวัติศาสตร์เกี่ยวกับโปรเจกต์นี้หรือยัง ดูเหมือนนักศึกษาปริญญาเอกอาจหาโจทย์วิจัยจากที่นี่ได้
      ตอนดูไทม์ไลน์ https://sourcelibrary.org/timeline เจอข้อผิดพลาด
    • สงสัยว่าใช้งบเท่าไรถึงมาถึงจุดนี้ได้ จำนวนโทเคน มหาศาลมาก และน่าจะใช้ Gemini Flash
  • เมื่อวาน Anna's Archive ช่วยได้จริง ๆ
    ผมหาไฟล์ ZIP ในซีดีที่แถมมากับหนังสือโปรแกรมมิงช่วงต้นยุค 2000 อยู่หลายวัน ของมือสองทุกเจ้าเขียนว่าไม่มีซีดี ค้นหาก็ไม่เจอ และ LLM ก็หาไม่เจอ
    ChatGPT เอาแต่บอกว่ามีอยู่ใน archive แต่จริง ๆ แล้วไม่มี พอลองเข้า AA เผื่อไว้ ก็พบไฟล์ ZIP สำหรับทั้งพิมพ์ครั้งที่ 1 และ 2 อยู่ครบ เหมือนผู้ช่วยชีวิตจริง ๆ

  • สงสัยว่าต้องใช้เวลาอีกนานแค่ไหนกว่าจะมีการตั้งรางวัลสำหรับการสแครปอินเทอร์เน็ตด้วย
    เพราะ Cloudflare CAPTCHA ทำให้อินเทอร์เน็ตแทบใช้ไม่ได้สำหรับผมแล้ว และดูเหมือนต่อไปจะยิ่งแย่ลง
    สู้ไปดูสำเนาจากเว็บอย่าง archive.is หรือโหลดผ่านทอร์เรนต์ยังดีกว่า อย่างหลังยังดีกว่ามากในแง่ความเป็นส่วนตัว และยังไงผมก็ใช้ตัวบล็อกโฆษณาอยู่แล้ว

    • มีโอกาสสูงว่ามีใครบางคนในเครือข่ายเดียวกันกำลังเปิดเกมที่ถูกนำไปสร้างรายได้ผ่าน พร็อกซี Bright Data ไม่กี่วันก่อนก็มีเธรดเกี่ยวกับเรื่องนี้
      อาจเป็นสมาร์ตทีวีก็ได้ ถ้าหาสาเหตุแล้วเอาออก ชื่อเสียงของ IP อาจดีขึ้นและเห็น CAPTCHA น้อยลง
    • https://x.com/CloudflareDev/status/2031488099725754821
      มี ผลประโยชน์ทับซ้อน เล็ก ๆ แบบนี้อยู่
  • สงสัยว่าใครอยู่เบื้องหลัง Anna's Archive เห็นมีคนใช้ภาษาอังกฤษเยอะทั้งในทีมและฟอรัม
    อย่างไรก็ตาม ผมคิดว่าไม่มีปัญหาอะไร ตราบใดที่การซื้อไม่ได้เท่ากับการเป็นเจ้าของ

    • ดูเหมือน Anna จะเป็นคนอยู่เบื้องหลัง
      https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
      https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
    • หนังสือจำนวนมากในนั้นน่าจะซื้อได้ในรูปแบบที่ ไม่มี DRM อยู่แล้ว ผู้เขียนจำนวนมากกว่าที่คิดไม่ได้ใส่ใจเรื่อง DRM
      และถ้าซื้อเป็นหนังสือกระดาษ การซื้อก็เป็นการเป็นเจ้าของอย่างแน่นอน ดังนั้นสำหรับหนังสือแล้ว ประโยคนั้นจึงรู้สึกไม่ค่อยเหมาะเท่าไร
    • แหล่งที่มาหลักน่าจะเป็นรัสเซีย หรือไม่ก็อาจเป็น LibGen
      แต่สิ่งที่น่าแปลกใจกว่าคือมีทางเลือกน้อยมาก หลังจาก Facebook และอื่น ๆ ทำสงครามกับ LibGen และ LibGen ล่มไป ก็แทบไม่มีทางเลือกอื่นอย่างน่าประหลาดใจ และ Anna's Archive เป็นหนึ่งในไม่กี่ตัวเลือก
      ยังไม่รู้ว่าเกิดอะไรขึ้นกับ LibGen กันแน่ แต่หลังการโจมตีนั้น มันดูเหมือนหายไปครึ่งหนึ่งโดยพฤตินัย
    • ถ้าคิดว่าไม่มีปัญหาจริง ๆ ก็สงสัยว่าทำไมถึงถามในฟอรัมสาธารณะว่าใครอยู่เบื้องหลัง
  • ในข้อความที่ว่า “ก่อนทำงานรางวัล ให้อ่าน [this] อย่างละเอียด” ลิงก์ [this] ชี้ไปยังที่อยู่ .li ซึ่งพาไปยังที่อันตราย
    ที่อยู่ที่ถูกต้องควรเป็น https://annas-archive.gl/volunteering#bounties

  • ถ้ามีใครที่ Google กำลังกังวลว่าจะถูกเลิกจ้างอยู่ นี่อาจเป็นแผนสำรองก็ได้

    • ถ้าถูกจับได้ว่าดึงข้อมูลออกมา คงโดนฟ้องเป็นเงินจำนวนมากกว่า 200,000 ดอลลาร์ มาก
    • โอกาสที่พนักงานทั่วไปจะเข้าถึงคลังทั้งหมดได้นั้นต่ำ
      แม้แต่ในหมู่คนจำนวนน้อยมากที่มีสิทธิ์เข้าถึง แค่เริ่มดาวน์โหลดเนื้อหาเพียงสัดส่วนเล็กมาก ระบบอัตโนมัติก็น่าจะตรวจจับได้
    • ปัญหาที่ใหญ่กว่าคือเรื่องนี้ทำให้เกิด ความเสียหายทางการเงิน อาจถึงขั้นต้องเตรียมย้ายไปอยู่ประเทศอื่นด้วยซ้ำ
  • งานให้รางวัลที่น่าสนใจอื่น ๆ ที่พวกเขาเสนอ: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
    ซื้อชุดข้อมูล MARC ทั้งหมดของ Library of Congress — เงินรางวัล 3,000 ดอลลาร์
    หน้า Wikipedia ภาษาอังกฤษเกี่ยวกับองค์กรที่เกี่ยวข้อง — สูงสุด 100 ดอลลาร์ต่อหน้าใหม่
    Internet Archive Digital Lending — 5,000 ดอลลาร์ต่อ PDF 1 ล้านไฟล์
    เวอร์ชันข้อความของทั้งห้องสมุด — 20,000 ดอลลาร์ เป็นต้น

    • ที่น่าสนใจคือมีการตั้งรางวัลสูงสุด 500,000 ดอลลาร์สำหรับ ความล้มเหลวด้านความปลอดภัยในการปฏิบัติการ ด้วย ทำให้หวังได้ว่าอาจมีบุคคลมั่งคั่งที่ช่วยสนับสนุนการแบ่งปันหนังสือ หรือมีเงินบริจาคก้อนเล็กจำนวนมาก
      https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
  • สงสัยว่าการละเมิดลิขสิทธิ์กับลิขสิทธิ์จะเป็นอย่างไรต่อไป
    สภาพที่เน้นการเช่าเหมือนตอนนี้ดูไม่น่าจะยั่งยืน คนธรรมดารอบตัวก็เริ่มรู้จักของอย่าง VPN และ NAS กันมากขึ้นแล้ว

    • ถ้าลองค้นดูว่าผู้เขียนและศิลปินที่สร้างผลงานจริง ๆ ได้รับส่วนแบ่งน้อยแค่ไหน ก็ทำให้อยากให้กิโยตินเป็นคำตอบ
    • ตั้งแต่แรกมันไม่ใช่โครงสร้างที่ยั่งยืนอยู่แล้ว แต่เป็นการที่ผู้ถือ ทรัพย์สินทางปัญญา รายใหญ่ครอบงำกฎระเบียบ
      Spotify, Netflix, Amazon ฯลฯ เคยให้คุณค่าที่ดีอยู่ช่วงหนึ่ง แต่ตอนนี้เมื่อบริการเริ่มแย่ลงอย่างจริงจัง ก็ถึงเวลาที่ผู้คนจะหวนกลับไปกันครั้งใหญ่แล้ว
  • Gemini น่าจะถูกฝึกด้วยหนังสือเหล่านั้นไปแล้ว ดังนั้นในทางทฤษฎีอาจคายบางประโยคออกมาแบบตรงตัวได้
    ในคดีที่ NYT เคยฟ้อง OpenAI ก็มีกรณีทำนองนั้นปรากฏออกมา

    • Gemini, GPT, Fable โดยพื้นฐานแล้วคือ ฉบับบีบอัด ที่ดีมากของเนื้อหาบนอินเทอร์เน็ต
      เพียงแต่ไม่ใช่การบีบอัดแบบไม่สูญเสียข้อมูล แต่เป็นการคงส่วนที่สำคัญต่อการทำภารกิจทำนายโทเค็นถัดไปไว้ แล้วหาวิธีเลียนแบบส่วนที่เหลือ