- Anna's Archive เป็นเมตาเสิร์ชเอนจินของไลบรารีเงาออนไลน์แบบไม่แสวงหากำไรที่ดำเนินการโดยนักเคลื่อนไหวนิรนาม โดยให้การเข้าถึงทรัพยากรหนังสือหลากหลายประเภท
- พวกเขาได้ครอบครองคอลเลกชันหนังสือสารคดีภาษาจีนจำนวน 7.5 ล้านเล่ม / 350TB (มากกว่า Library Genesis เสียอีก)
- เพื่อแลกกับการจัดทำ OCR คุณภาพสูงและการดึงข้อความจากคอลเลกชันนี้ พวกเขาวางแผนจะมอบสิทธิ์เข้าถึงล่วงหน้าแบบเอกสิทธิ์เป็นเวลา 1 ปีให้กับบริษัท LLM นั้น
- คอลเลกชันนี้ได้มาจาก Duxiu ฐานข้อมูลหนังสือสแกนขนาดใหญ่ที่สร้างโดย SuperStar Digital Library Group และเดิมให้บริการแบบดิจิทัลแก่มหาวิทยาลัยและห้องสมุด
- ขนาดไฟล์รวมของคอลเลกชันในรูปแบบปัจจุบันอยู่ที่ประมาณ 359TB
- ข้อความที่ดึงออกมาจะถูกใช้ในการฝึกโมเดลภาษาขนาดใหญ่ (LLMs) และ Archive เชื่อว่าแม้คอลเลกชันนี้จะเป็นภาษาจีน ก็ยังอาจมีประโยชน์ต่อการฝึก English LLMs
- Archive ต้องการใช้ความร่วมมือนี้เพื่อนำเสนอความสามารถในการค้นหาเฉพาะทางให้กับผู้ใช้
- หากฝ่ายที่ร่วมมือยินดีแบ่งปันโค้ดทั้งหมดของไปป์ไลน์ Archive ก็เปิดกว้างต่อการขยายระยะเวลาการเข้าถึงแบบเอกสิทธิ์
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News