เสนอเงินรางวัล 200,000 ดอลลาร์สำหรับ Google Books หรือการสแกนหนังสือทั้งเล่มในลักษณะใกล้เคียง (2025)

(software.annas-archive.gl)

1 คะแนน โดย GN⁺ 4 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Anna’s Archive ตั้ง เงินรางวัล 200,000 ดอลลาร์ สำหรับการได้มาซึ่ง สแกนหนังสือทั้งเล่มของ Google Books หรือคอลเลกชันขนาดใกล้เคียง
ปัจจุบันการเข้าถึง Google Books เน้นที่ snippet ขนาดเล็ก รอบผลการค้นหา ดังนั้นการได้สแกนฉบับเต็มจึงถูกมองเป็นภารกิจสำคัญในมุมของการเก็บถาวร
หากพบวิธีที่ขยายผลได้ แนะนำให้ติดต่อมาตั้งแต่ขั้น ต้นแบบ โดยไม่ต้องรอให้เสร็จสมบูรณ์
ผู้ที่มีสิทธิ์เข้าถึงภายใน Google ก็อยู่ในข่ายเช่นกัน และแม้จะได้มาเพียง ข้อความ OCR โดยไม่มีภาพ ก็อาจได้รับเงินรางวัลครึ่งหนึ่ง
เป้าหมายไม่ได้จำกัดแค่ Google Books แต่ยังครอบคลุมคอลเลกชันขนาดใหญ่ที่มี หนังสือหายาก ซึ่งบริษัท AI และอื่น ๆ รวบรวมไว้ด้วย

เป้าหมายของเงินรางวัลและเงื่อนไขการเข้าร่วม

Anna’s Archive เสนอ เงินรางวัล $200,000 สำหรับการได้มาซึ่งสแกนหนังสือทั้งเล่มจาก Google Books หรือแหล่งใกล้เคียง
ก่อนเริ่มดำเนินการ ต้องอ่าน คำแนะนำเรื่อง bounties ของ Anna’s Archive อย่างละเอียด
Google Books มีหนังสือสแกนจำนวนมาก แต่เมื่อเข้าถึงผ่านการค้นหา จะเห็นเพียง snippet ขนาดเล็ก รอบผลลัพธ์เท่านั้น
หากพบวิธีที่มีความเป็นไปได้ในการขยายผล แนะนำให้ติดต่อแต่เนิ่น ๆ ด้วย ต้นแบบ โดยไม่ต้องรอจนได้งานสมบูรณ์
- Anna’s Archive สามารถช่วยงานขยายผลในภายหลังได้
ผู้ที่ทำงานที่ Google และสามารถเข้าถึงข้อมูลดังกล่าวก็รวมอยู่ในผู้มีสิทธิ์รับรางวัลด้วย
- ระบุว่า $200,000 อาจไม่ใช่เงินก้อนใหญ่ แต่หากสามารถนำข้อมูลออกมาได้ ก็จะถูกเรียกว่า “นักเก็บถาวรระดับตำนาน”
เงินรางวัลนี้ยังใช้กับคอลเลกชันขนาดใกล้เคียงนอกเหนือจาก Google Books ด้วย
- ยกตัวอย่างคอลเลกชันที่บริษัท AI รวบรวมไว้
- โดยเฉพาะหากเป็นคอลเลกชันที่มี หนังสือหายาก อยู่เป็นจำนวนมาก ก็เข้าข่าย

ขนาดและวิธีส่งมอบที่สรุปจากความคิดเห็น

ความคิดเห็นหนึ่งเขียนว่าอาร์ไคฟ์ทั้งหมดมีขนาดประมาณ 7PB รวมเนื้อหาที่มีลิขสิทธิ์ แต่ภายหลังแก้ไขว่าอยู่ที่ ประมาณ 1.5PB และเป็นตัวเลขที่รวมสำเนาจากไซต์ IUPUI
เนื้อหา public domain และเนื้อหาที่ผู้เขียนเปิดเผยเองถูกกล่าวถึงว่ามีขนาดประมาณ 300TB
Anna’s Archive ตอบว่าหากยังไม่มีการ scrape เนื้อหา public domain และเนื้อหาที่ผู้เขียนเปิดเผยเอง ก็ยินดีพิจารณาเพิ่มเงินรางวัลแยกต่างหาก
แม้ในกรณีที่นำออกมาเฉพาะ ข้อความ OCR ไม่ใช่ภาพทั้งหมด ก็อาจจ่ายเงินรางวัลครึ่งหนึ่งตามวัตถุประสงค์ของเงินรางวัลนี้
วิธีส่งมอบเมื่อได้ข้อมูลปริมาณมาก มีการกล่าวถึง SFTP หรือวิธีที่คล้ายกัน
ชื่อ issue ถูกเปลี่ยนเมื่อวันที่ 7 มิถุนายน 2025 เป็น Google Books (or similar) all book scans — $200,000 bounty

1 ความคิดเห็น

GN⁺ 4 시간 전

ความคิดเห็นบน Hacker News

ผมอยู่ในประเทศที่หาหนังสือภาษาอังกฤษได้ยาก การสั่งซื้อออนไลน์จากต่างประเทศมีขั้นตอนราชการและข้อจำกัดมากเกินไป
ถ้าไม่มี Anna's Archive และ Z-Library ผมคงไม่ได้อ่านหนังสือที่หล่อหลอมผมให้เป็นผมในวันนี้ และคงยากที่จะรักษาความกระตือรือร้นในการเรียนรู้ไว้ได้
ผมยังขอบคุณผู้เขียนที่ผมได้รับความรู้จากพวกเขา ทั้งที่ยังไม่ได้ตอบแทนเป็นค่าหนังสือ
- พูดแบบกึ่งล้อเล่นกึ่งจริงจัง อาจบอกได้ว่างั้นชีวิตทั้งหมดในตอนนี้ของคุณก็มาจากผลประโยชน์ของอาชญากรรมหรือเปล่า แต่ ความรู้ควรเป็นอิสระ
  ความรู้ไม่ได้ถูกสร้างขึ้นในสุญญากาศ และเป็นของทุกคน
- ผมเข้าใจจุดยืนนั้น แต่ถ้าผู้เขียนไม่สามารถหารายได้ได้ หนังสือจำนวนมากในนั้นก็อาจไม่เคยมีอยู่ตั้งแต่แรก
  เมื่อก่อนบน Reddit เคยมีผู้เขียนคนหนึ่งโพสต์สถิติว่าหลังจากหนังสือของเขาถูกนำไปลงในเว็บแชร์ผิดกฎหมาย ยอดขายจริงก็พังลง
  ดังนั้นโดยเฉพาะ หนังสือโปรแกรมมิง ผมพยายามซื้อให้มากที่สุด และใช้ PDF เหมือนเป็นตัวอย่างให้อ่านก่อน กลับกัน มันทำให้ผมซื้อหนังสือมากกว่าเมื่อก่อนมาก
  แน่นอนว่าถ้าคุณอยู่ในพื้นที่ที่ซื้อไม่ได้เลย เรื่องก็เป็นอีกแบบ แต่เวลาชื่นชมเว็บแบบนี้ มักจะมองเห็นแต่ด้านบวก
- ดีที่ชื่อผู้ใช้มีตำแหน่งที่ตั้งเขียนไว้ ทุกวันนี้สิ่งที่น่ารำคาญที่สุดบนออนไลน์คือคนพูดว่า “ในประเทศของเรา” แล้วไม่ยอมบอกจนจบว่าประเทศไหน
- https://send.djazz.se/
  เป็นเครื่องมือสำคัญในการส่ง EPUB ไปยัง Kobo
https://SourceLibrary.org มี ฉบับแปลของหนังสือหายากประมาณ 16,000 เล่ม และส่วนใหญ่เป็นการแปลครั้งแรก
หนังสือที่เก็บรักษาไว้มี 50,000 เล่ม และถ้ามีเงินทุนก็จะนำมาแปล จำนวนโทเคนมากกว่า Wikipedia ภาษาอังกฤษ และขนาดรวมราว 0.75PB
ไม่รู้ว่าจะเข้าข่ายได้รับรางวัลหรือไม่ แต่อยากแชร์ไว้ และกำลังมองหาผู้สนับสนุนทั้งรายย่อยและรายใหญ่เพื่อช่วยแปลเอกสารยุคเรอเนซองส์
- ผลลัพธ์สวยงาม คำตอบก็เหมาะสมและมีพลังสะท้อนใจ การหาเงินทุนอาจทำได้ในรูปแบบอย่าง API วิจัยแบบเสียเงิน
- ดูน่าสนใจ
  ยังดูได้ไม่ชัดทันทีว่าเก็บอะไรไว้ทั้งหมดบ้าง แต่ในบรรดาเพื่อนนักประวัติศาสตร์สายวิชาการของผม มีบางคนที่น่าจะสนใจบางสาขา และอาจช่วยตรวจสอบภาษายาก ๆ บางส่วนได้ด้วย
  สงสัยว่าสามารถ ค้นหาตามภูมิภาคหรือภาษา ได้ไหม
  และสงสัยว่าเคยติดต่อฝั่งนักประวัติศาสตร์เกี่ยวกับโปรเจกต์นี้หรือยัง ดูเหมือนนักศึกษาปริญญาเอกอาจหาโจทย์วิจัยจากที่นี่ได้
  ตอนดูไทม์ไลน์ https://sourcelibrary.org/timeline เจอข้อผิดพลาด
- สงสัยว่าใช้งบเท่าไรถึงมาถึงจุดนี้ได้ จำนวนโทเคน มหาศาลมาก และน่าจะใช้ Gemini Flash
เมื่อวาน Anna's Archive ช่วยได้จริง ๆ
ผมหาไฟล์ ZIP ในซีดีที่แถมมากับหนังสือโปรแกรมมิงช่วงต้นยุค 2000 อยู่หลายวัน ของมือสองทุกเจ้าเขียนว่าไม่มีซีดี ค้นหาก็ไม่เจอ และ LLM ก็หาไม่เจอ
ChatGPT เอาแต่บอกว่ามีอยู่ใน archive แต่จริง ๆ แล้วไม่มี พอลองเข้า AA เผื่อไว้ ก็พบไฟล์ ZIP สำหรับทั้งพิมพ์ครั้งที่ 1 และ 2 อยู่ครบ เหมือนผู้ช่วยชีวิตจริง ๆ
สงสัยว่าต้องใช้เวลาอีกนานแค่ไหนกว่าจะมีการตั้งรางวัลสำหรับการสแครปอินเทอร์เน็ตด้วย
เพราะ Cloudflare CAPTCHA ทำให้อินเทอร์เน็ตแทบใช้ไม่ได้สำหรับผมแล้ว และดูเหมือนต่อไปจะยิ่งแย่ลง
สู้ไปดูสำเนาจากเว็บอย่าง archive.is หรือโหลดผ่านทอร์เรนต์ยังดีกว่า อย่างหลังยังดีกว่ามากในแง่ความเป็นส่วนตัว และยังไงผมก็ใช้ตัวบล็อกโฆษณาอยู่แล้ว
- มีโอกาสสูงว่ามีใครบางคนในเครือข่ายเดียวกันกำลังเปิดเกมที่ถูกนำไปสร้างรายได้ผ่าน พร็อกซี Bright Data ไม่กี่วันก่อนก็มีเธรดเกี่ยวกับเรื่องนี้
  อาจเป็นสมาร์ตทีวีก็ได้ ถ้าหาสาเหตุแล้วเอาออก ชื่อเสียงของ IP อาจดีขึ้นและเห็น CAPTCHA น้อยลง
- https://x.com/CloudflareDev/status/2031488099725754821
  มี ผลประโยชน์ทับซ้อน เล็ก ๆ แบบนี้อยู่
สงสัยว่าใครอยู่เบื้องหลัง Anna's Archive เห็นมีคนใช้ภาษาอังกฤษเยอะทั้งในทีมและฟอรัม
อย่างไรก็ตาม ผมคิดว่าไม่มีปัญหาอะไร ตราบใดที่การซื้อไม่ได้เท่ากับการเป็นเจ้าของ
- ดูเหมือน Anna จะเป็นคนอยู่เบื้องหลัง
  https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
  https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
- หนังสือจำนวนมากในนั้นน่าจะซื้อได้ในรูปแบบที่ ไม่มี DRM อยู่แล้ว ผู้เขียนจำนวนมากกว่าที่คิดไม่ได้ใส่ใจเรื่อง DRM
  และถ้าซื้อเป็นหนังสือกระดาษ การซื้อก็เป็นการเป็นเจ้าของอย่างแน่นอน ดังนั้นสำหรับหนังสือแล้ว ประโยคนั้นจึงรู้สึกไม่ค่อยเหมาะเท่าไร
- แหล่งที่มาหลักน่าจะเป็นรัสเซีย หรือไม่ก็อาจเป็น LibGen
  แต่สิ่งที่น่าแปลกใจกว่าคือมีทางเลือกน้อยมาก หลังจาก Facebook และอื่น ๆ ทำสงครามกับ LibGen และ LibGen ล่มไป ก็แทบไม่มีทางเลือกอื่นอย่างน่าประหลาดใจ และ Anna's Archive เป็นหนึ่งในไม่กี่ตัวเลือก
  ยังไม่รู้ว่าเกิดอะไรขึ้นกับ LibGen กันแน่ แต่หลังการโจมตีนั้น มันดูเหมือนหายไปครึ่งหนึ่งโดยพฤตินัย
- ถ้าคิดว่าไม่มีปัญหาจริง ๆ ก็สงสัยว่าทำไมถึงถามในฟอรัมสาธารณะว่าใครอยู่เบื้องหลัง
ในข้อความที่ว่า “ก่อนทำงานรางวัล ให้อ่าน [this] อย่างละเอียด” ลิงก์ [this] ชี้ไปยังที่อยู่ .li ซึ่งพาไปยังที่อันตราย
ที่อยู่ที่ถูกต้องควรเป็น https://annas-archive.gl/volunteering#bounties
ถ้ามีใครที่ Google กำลังกังวลว่าจะถูกเลิกจ้างอยู่ นี่อาจเป็นแผนสำรองก็ได้
- ถ้าถูกจับได้ว่าดึงข้อมูลออกมา คงโดนฟ้องเป็นเงินจำนวนมากกว่า 200,000 ดอลลาร์ มาก
- โอกาสที่พนักงานทั่วไปจะเข้าถึงคลังทั้งหมดได้นั้นต่ำ
  แม้แต่ในหมู่คนจำนวนน้อยมากที่มีสิทธิ์เข้าถึง แค่เริ่มดาวน์โหลดเนื้อหาเพียงสัดส่วนเล็กมาก ระบบอัตโนมัติก็น่าจะตรวจจับได้
- ปัญหาที่ใหญ่กว่าคือเรื่องนี้ทำให้เกิด ความเสียหายทางการเงิน อาจถึงขั้นต้องเตรียมย้ายไปอยู่ประเทศอื่นด้วยซ้ำ
งานให้รางวัลที่น่าสนใจอื่น ๆ ที่พวกเขาเสนอ: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
ซื้อชุดข้อมูล MARC ทั้งหมดของ Library of Congress — เงินรางวัล 3,000 ดอลลาร์
หน้า Wikipedia ภาษาอังกฤษเกี่ยวกับองค์กรที่เกี่ยวข้อง — สูงสุด 100 ดอลลาร์ต่อหน้าใหม่
Internet Archive Digital Lending — 5,000 ดอลลาร์ต่อ PDF 1 ล้านไฟล์
เวอร์ชันข้อความของทั้งห้องสมุด — 20,000 ดอลลาร์ เป็นต้น
- ที่น่าสนใจคือมีการตั้งรางวัลสูงสุด 500,000 ดอลลาร์สำหรับ ความล้มเหลวด้านความปลอดภัยในการปฏิบัติการ ด้วย ทำให้หวังได้ว่าอาจมีบุคคลมั่งคั่งที่ช่วยสนับสนุนการแบ่งปันหนังสือ หรือมีเงินบริจาคก้อนเล็กจำนวนมาก
  https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
สงสัยว่าการละเมิดลิขสิทธิ์กับลิขสิทธิ์จะเป็นอย่างไรต่อไป
สภาพที่เน้นการเช่าเหมือนตอนนี้ดูไม่น่าจะยั่งยืน คนธรรมดารอบตัวก็เริ่มรู้จักของอย่าง VPN และ NAS กันมากขึ้นแล้ว
- ถ้าลองค้นดูว่าผู้เขียนและศิลปินที่สร้างผลงานจริง ๆ ได้รับส่วนแบ่งน้อยแค่ไหน ก็ทำให้อยากให้กิโยตินเป็นคำตอบ
- ตั้งแต่แรกมันไม่ใช่โครงสร้างที่ยั่งยืนอยู่แล้ว แต่เป็นการที่ผู้ถือ ทรัพย์สินทางปัญญา รายใหญ่ครอบงำกฎระเบียบ
  Spotify, Netflix, Amazon ฯลฯ เคยให้คุณค่าที่ดีอยู่ช่วงหนึ่ง แต่ตอนนี้เมื่อบริการเริ่มแย่ลงอย่างจริงจัง ก็ถึงเวลาที่ผู้คนจะหวนกลับไปกันครั้งใหญ่แล้ว
Gemini น่าจะถูกฝึกด้วยหนังสือเหล่านั้นไปแล้ว ดังนั้นในทางทฤษฎีอาจคายบางประโยคออกมาแบบตรงตัวได้
ในคดีที่ NYT เคยฟ้อง OpenAI ก็มีกรณีทำนองนั้นปรากฏออกมา
- Gemini, GPT, Fable โดยพื้นฐานแล้วคือ ฉบับบีบอัด ที่ดีมากของเนื้อหาบนอินเทอร์เน็ต
  เพียงแต่ไม่ใช่การบีบอัดแบบไม่สูญเสียข้อมูล แต่เป็นการคงส่วนที่สำคัญต่อการทำภารกิจทำนายโทเค็นถัดไปไว้ แล้วหาวิธีเลียนแบบส่วนที่เหลือ

เสนอเงินรางวัล 200,000 ดอลลาร์สำหรับ Google Books หรือการสแกนหนังสือทั้งเล่มในลักษณะใกล้เคียง (2025)

เป้าหมายของเงินรางวัลและเงื่อนไขการเข้าร่วม

ขนาดและวิธีส่งมอบที่สรุปจากความคิดเห็น

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News