เสนอเงินรางวัล 200,000 ดอลลาร์สำหรับ Google Books หรือการสแกนหนังสือทั้งเล่มในลักษณะใกล้เคียง (2025)
(software.annas-archive.gl)- Anna’s Archive ตั้ง เงินรางวัล 200,000 ดอลลาร์ สำหรับการได้มาซึ่ง สแกนหนังสือทั้งเล่มของ Google Books หรือคอลเลกชันขนาดใกล้เคียง
- ปัจจุบันการเข้าถึง Google Books เน้นที่ snippet ขนาดเล็ก รอบผลการค้นหา ดังนั้นการได้สแกนฉบับเต็มจึงถูกมองเป็นภารกิจสำคัญในมุมของการเก็บถาวร
- หากพบวิธีที่ขยายผลได้ แนะนำให้ติดต่อมาตั้งแต่ขั้น ต้นแบบ โดยไม่ต้องรอให้เสร็จสมบูรณ์
- ผู้ที่มีสิทธิ์เข้าถึงภายใน Google ก็อยู่ในข่ายเช่นกัน และแม้จะได้มาเพียง ข้อความ OCR โดยไม่มีภาพ ก็อาจได้รับเงินรางวัลครึ่งหนึ่ง
- เป้าหมายไม่ได้จำกัดแค่ Google Books แต่ยังครอบคลุมคอลเลกชันขนาดใหญ่ที่มี หนังสือหายาก ซึ่งบริษัท AI และอื่น ๆ รวบรวมไว้ด้วย
เป้าหมายของเงินรางวัลและเงื่อนไขการเข้าร่วม
- Anna’s Archive เสนอ เงินรางวัล $200,000 สำหรับการได้มาซึ่งสแกนหนังสือทั้งเล่มจาก Google Books หรือแหล่งใกล้เคียง
- ก่อนเริ่มดำเนินการ ต้องอ่าน คำแนะนำเรื่อง bounties ของ Anna’s Archive อย่างละเอียด
- Google Books มีหนังสือสแกนจำนวนมาก แต่เมื่อเข้าถึงผ่านการค้นหา จะเห็นเพียง snippet ขนาดเล็ก รอบผลลัพธ์เท่านั้น
- หากพบวิธีที่มีความเป็นไปได้ในการขยายผล แนะนำให้ติดต่อแต่เนิ่น ๆ ด้วย ต้นแบบ โดยไม่ต้องรอจนได้งานสมบูรณ์
- Anna’s Archive สามารถช่วยงานขยายผลในภายหลังได้
- ผู้ที่ทำงานที่ Google และสามารถเข้าถึงข้อมูลดังกล่าวก็รวมอยู่ในผู้มีสิทธิ์รับรางวัลด้วย
- ระบุว่า $200,000 อาจไม่ใช่เงินก้อนใหญ่ แต่หากสามารถนำข้อมูลออกมาได้ ก็จะถูกเรียกว่า “นักเก็บถาวรระดับตำนาน”
- เงินรางวัลนี้ยังใช้กับคอลเลกชันขนาดใกล้เคียงนอกเหนือจาก Google Books ด้วย
- ยกตัวอย่างคอลเลกชันที่บริษัท AI รวบรวมไว้
- โดยเฉพาะหากเป็นคอลเลกชันที่มี หนังสือหายาก อยู่เป็นจำนวนมาก ก็เข้าข่าย
ขนาดและวิธีส่งมอบที่สรุปจากความคิดเห็น
- ความคิดเห็นหนึ่งเขียนว่าอาร์ไคฟ์ทั้งหมดมีขนาดประมาณ 7PB รวมเนื้อหาที่มีลิขสิทธิ์ แต่ภายหลังแก้ไขว่าอยู่ที่ ประมาณ 1.5PB และเป็นตัวเลขที่รวมสำเนาจากไซต์ IUPUI
- เนื้อหา public domain และเนื้อหาที่ผู้เขียนเปิดเผยเองถูกกล่าวถึงว่ามีขนาดประมาณ 300TB
- Anna’s Archive ตอบว่าหากยังไม่มีการ scrape เนื้อหา public domain และเนื้อหาที่ผู้เขียนเปิดเผยเอง ก็ยินดีพิจารณาเพิ่มเงินรางวัลแยกต่างหาก
- แม้ในกรณีที่นำออกมาเฉพาะ ข้อความ OCR ไม่ใช่ภาพทั้งหมด ก็อาจจ่ายเงินรางวัลครึ่งหนึ่งตามวัตถุประสงค์ของเงินรางวัลนี้
- วิธีส่งมอบเมื่อได้ข้อมูลปริมาณมาก มีการกล่าวถึง SFTP หรือวิธีที่คล้ายกัน
- ชื่อ issue ถูกเปลี่ยนเมื่อวันที่ 7 มิถุนายน 2025 เป็น
Google Books (or similar) all book scans — $200,000 bounty
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ผมอยู่ในประเทศที่หาหนังสือภาษาอังกฤษได้ยาก การสั่งซื้อออนไลน์จากต่างประเทศมีขั้นตอนราชการและข้อจำกัดมากเกินไป
ถ้าไม่มี Anna's Archive และ Z-Library ผมคงไม่ได้อ่านหนังสือที่หล่อหลอมผมให้เป็นผมในวันนี้ และคงยากที่จะรักษาความกระตือรือร้นในการเรียนรู้ไว้ได้
ผมยังขอบคุณผู้เขียนที่ผมได้รับความรู้จากพวกเขา ทั้งที่ยังไม่ได้ตอบแทนเป็นค่าหนังสือ
ความรู้ไม่ได้ถูกสร้างขึ้นในสุญญากาศ และเป็นของทุกคน
เมื่อก่อนบน Reddit เคยมีผู้เขียนคนหนึ่งโพสต์สถิติว่าหลังจากหนังสือของเขาถูกนำไปลงในเว็บแชร์ผิดกฎหมาย ยอดขายจริงก็พังลง
ดังนั้นโดยเฉพาะ หนังสือโปรแกรมมิง ผมพยายามซื้อให้มากที่สุด และใช้ PDF เหมือนเป็นตัวอย่างให้อ่านก่อน กลับกัน มันทำให้ผมซื้อหนังสือมากกว่าเมื่อก่อนมาก
แน่นอนว่าถ้าคุณอยู่ในพื้นที่ที่ซื้อไม่ได้เลย เรื่องก็เป็นอีกแบบ แต่เวลาชื่นชมเว็บแบบนี้ มักจะมองเห็นแต่ด้านบวก
เป็นเครื่องมือสำคัญในการส่ง EPUB ไปยัง Kobo
https://SourceLibrary.org มี ฉบับแปลของหนังสือหายากประมาณ 16,000 เล่ม และส่วนใหญ่เป็นการแปลครั้งแรก
หนังสือที่เก็บรักษาไว้มี 50,000 เล่ม และถ้ามีเงินทุนก็จะนำมาแปล จำนวนโทเคนมากกว่า Wikipedia ภาษาอังกฤษ และขนาดรวมราว 0.75PB
ไม่รู้ว่าจะเข้าข่ายได้รับรางวัลหรือไม่ แต่อยากแชร์ไว้ และกำลังมองหาผู้สนับสนุนทั้งรายย่อยและรายใหญ่เพื่อช่วยแปลเอกสารยุคเรอเนซองส์
ยังดูได้ไม่ชัดทันทีว่าเก็บอะไรไว้ทั้งหมดบ้าง แต่ในบรรดาเพื่อนนักประวัติศาสตร์สายวิชาการของผม มีบางคนที่น่าจะสนใจบางสาขา และอาจช่วยตรวจสอบภาษายาก ๆ บางส่วนได้ด้วย
สงสัยว่าสามารถ ค้นหาตามภูมิภาคหรือภาษา ได้ไหม
และสงสัยว่าเคยติดต่อฝั่งนักประวัติศาสตร์เกี่ยวกับโปรเจกต์นี้หรือยัง ดูเหมือนนักศึกษาปริญญาเอกอาจหาโจทย์วิจัยจากที่นี่ได้
ตอนดูไทม์ไลน์ https://sourcelibrary.org/timeline เจอข้อผิดพลาด
เมื่อวาน Anna's Archive ช่วยได้จริง ๆ
ผมหาไฟล์ ZIP ในซีดีที่แถมมากับหนังสือโปรแกรมมิงช่วงต้นยุค 2000 อยู่หลายวัน ของมือสองทุกเจ้าเขียนว่าไม่มีซีดี ค้นหาก็ไม่เจอ และ LLM ก็หาไม่เจอ
ChatGPT เอาแต่บอกว่ามีอยู่ใน archive แต่จริง ๆ แล้วไม่มี พอลองเข้า AA เผื่อไว้ ก็พบไฟล์ ZIP สำหรับทั้งพิมพ์ครั้งที่ 1 และ 2 อยู่ครบ เหมือนผู้ช่วยชีวิตจริง ๆ
สงสัยว่าต้องใช้เวลาอีกนานแค่ไหนกว่าจะมีการตั้งรางวัลสำหรับการสแครปอินเทอร์เน็ตด้วย
เพราะ Cloudflare CAPTCHA ทำให้อินเทอร์เน็ตแทบใช้ไม่ได้สำหรับผมแล้ว และดูเหมือนต่อไปจะยิ่งแย่ลง
สู้ไปดูสำเนาจากเว็บอย่าง archive.is หรือโหลดผ่านทอร์เรนต์ยังดีกว่า อย่างหลังยังดีกว่ามากในแง่ความเป็นส่วนตัว และยังไงผมก็ใช้ตัวบล็อกโฆษณาอยู่แล้ว
อาจเป็นสมาร์ตทีวีก็ได้ ถ้าหาสาเหตุแล้วเอาออก ชื่อเสียงของ IP อาจดีขึ้นและเห็น CAPTCHA น้อยลง
มี ผลประโยชน์ทับซ้อน เล็ก ๆ แบบนี้อยู่
สงสัยว่าใครอยู่เบื้องหลัง Anna's Archive เห็นมีคนใช้ภาษาอังกฤษเยอะทั้งในทีมและฟอรัม
อย่างไรก็ตาม ผมคิดว่าไม่มีปัญหาอะไร ตราบใดที่การซื้อไม่ได้เท่ากับการเป็นเจ้าของ
https://redlib.catsarch.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
https://reddit.com/r/Annas_Archive/comments/1f6h74r/im_curious_actually_who_is_anna/
และถ้าซื้อเป็นหนังสือกระดาษ การซื้อก็เป็นการเป็นเจ้าของอย่างแน่นอน ดังนั้นสำหรับหนังสือแล้ว ประโยคนั้นจึงรู้สึกไม่ค่อยเหมาะเท่าไร
แต่สิ่งที่น่าแปลกใจกว่าคือมีทางเลือกน้อยมาก หลังจาก Facebook และอื่น ๆ ทำสงครามกับ LibGen และ LibGen ล่มไป ก็แทบไม่มีทางเลือกอื่นอย่างน่าประหลาดใจ และ Anna's Archive เป็นหนึ่งในไม่กี่ตัวเลือก
ยังไม่รู้ว่าเกิดอะไรขึ้นกับ LibGen กันแน่ แต่หลังการโจมตีนั้น มันดูเหมือนหายไปครึ่งหนึ่งโดยพฤตินัย
ในข้อความที่ว่า “ก่อนทำงานรางวัล ให้อ่าน [this] อย่างละเอียด” ลิงก์ [this] ชี้ไปยังที่อยู่ .li ซึ่งพาไปยังที่อันตราย
ที่อยู่ที่ถูกต้องควรเป็น https://annas-archive.gl/volunteering#bounties
ถ้ามีใครที่ Google กำลังกังวลว่าจะถูกเลิกจ้างอยู่ นี่อาจเป็นแผนสำรองก็ได้
แม้แต่ในหมู่คนจำนวนน้อยมากที่มีสิทธิ์เข้าถึง แค่เริ่มดาวน์โหลดเนื้อหาเพียงสัดส่วนเล็กมาก ระบบอัตโนมัติก็น่าจะตรวจจับได้
งานให้รางวัลที่น่าสนใจอื่น ๆ ที่พวกเขาเสนอ: https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items?label_name%5B%5D=2-Bounty
ซื้อชุดข้อมูล MARC ทั้งหมดของ Library of Congress — เงินรางวัล 3,000 ดอลลาร์
หน้า Wikipedia ภาษาอังกฤษเกี่ยวกับองค์กรที่เกี่ยวข้อง — สูงสุด 100 ดอลลาร์ต่อหน้าใหม่
Internet Archive Digital Lending — 5,000 ดอลลาร์ต่อ PDF 1 ล้านไฟล์
เวอร์ชันข้อความของทั้งห้องสมุด — 20,000 ดอลลาร์ เป็นต้น
https://software.annas-archive.gl/AnnaArchivist/annas-archive/-/work_items/194
สงสัยว่าการละเมิดลิขสิทธิ์กับลิขสิทธิ์จะเป็นอย่างไรต่อไป
สภาพที่เน้นการเช่าเหมือนตอนนี้ดูไม่น่าจะยั่งยืน คนธรรมดารอบตัวก็เริ่มรู้จักของอย่าง VPN และ NAS กันมากขึ้นแล้ว
Spotify, Netflix, Amazon ฯลฯ เคยให้คุณค่าที่ดีอยู่ช่วงหนึ่ง แต่ตอนนี้เมื่อบริการเริ่มแย่ลงอย่างจริงจัง ก็ถึงเวลาที่ผู้คนจะหวนกลับไปกันครั้งใหญ่แล้ว
Gemini น่าจะถูกฝึกด้วยหนังสือเหล่านั้นไปแล้ว ดังนั้นในทางทฤษฎีอาจคายบางประโยคออกมาแบบตรงตัวได้
ในคดีที่ NYT เคยฟ้อง OpenAI ก็มีกรณีทำนองนั้นปรากฏออกมา
เพียงแต่ไม่ใช่การบีบอัดแบบไม่สูญเสียข้อมูล แต่เป็นการคงส่วนที่สำคัญต่อการทำภารกิจทำนายโทเค็นถัดไปไว้ แล้วหาวิธีเลียนแบบส่วนที่เหลือ