Anna's Archive มอบสิทธิ์เข้าถึงเฉพาะสำหรับบริษัท LLM ต่อคอลเลกชันหนังสือสารคดีภาษาจีนที่ใหญ่ที่สุดในโลก

(annas-blog.org)

2 คะแนน โดย GN⁺ 2023-11-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Anna's Archive เป็นเมตาเสิร์ชเอนจินของไลบรารีเงาออนไลน์แบบไม่แสวงหากำไรที่ดำเนินการโดยนักเคลื่อนไหวนิรนาม โดยให้การเข้าถึงทรัพยากรหนังสือหลากหลายประเภท
พวกเขาได้ครอบครองคอลเลกชันหนังสือสารคดีภาษาจีนจำนวน 7.5 ล้านเล่ม / 350TB (มากกว่า Library Genesis เสียอีก)
เพื่อแลกกับการจัดทำ OCR คุณภาพสูงและการดึงข้อความจากคอลเลกชันนี้ พวกเขาวางแผนจะมอบสิทธิ์เข้าถึงล่วงหน้าแบบเอกสิทธิ์เป็นเวลา 1 ปีให้กับบริษัท LLM นั้น
คอลเลกชันนี้ได้มาจาก Duxiu ฐานข้อมูลหนังสือสแกนขนาดใหญ่ที่สร้างโดย SuperStar Digital Library Group และเดิมให้บริการแบบดิจิทัลแก่มหาวิทยาลัยและห้องสมุด
ขนาดไฟล์รวมของคอลเลกชันในรูปแบบปัจจุบันอยู่ที่ประมาณ 359TB
ข้อความที่ดึงออกมาจะถูกใช้ในการฝึกโมเดลภาษาขนาดใหญ่ (LLMs) และ Archive เชื่อว่าแม้คอลเลกชันนี้จะเป็นภาษาจีน ก็ยังอาจมีประโยชน์ต่อการฝึก English LLMs
Archive ต้องการใช้ความร่วมมือนี้เพื่อนำเสนอความสามารถในการค้นหาเฉพาะทางให้กับผู้ใช้
หากฝ่ายที่ร่วมมือยินดีแบ่งปันโค้ดทั้งหมดของไปป์ไลน์ Archive ก็เปิดกว้างต่อการขยายระยะเวลาการเข้าถึงแบบเอกสิทธิ์

1 ความคิดเห็น

GN⁺ 2023-11-06

ความคิดเห็นจาก Hacker News

คอลเลกชันนี้คาดว่าเริ่มต้นราวปี 2015 และมีหนังสือประมาณ 4 ล้านเล่ม โดยหลายเล่มเป็นรายการซ้ำ
แหล่งที่มาของคอลเลกชันคือบริษัทชื่อ DuXiu ซึ่งได้ร่วมมือกับห้องสมุดต่าง ๆ ในจีนตั้งแต่ช่วงต้นทศวรรษ 2000 เพื่อสแกนคอลเลกชันของพวกเขา
ในคอลเลกชันนี้มีทั้งตำราเรียนตะวันตกฉบับแปล โฆษณาชวนเชื่อทางการเมือง และหนังสือวรรณกรรมกับประวัติศาสตร์ที่ตีพิมพ์ก่อนยุคการเซ็นเซอร์อย่างเข้มข้นปะปนกันอยู่
บริษัทเทคโนโลยีของจีนสามารถเข้าถึงคอลเลกชันนี้ได้ แต่อาจไม่ใช้งานเพราะความเสี่ยงด้านลิขสิทธิ์และการเมือง
ผู้ดำเนินเว็บไซต์ถูกมองว่าฉลาดแต่หุนหันพลันแล่น และมีความกังวลเกี่ยวกับความรับผิดทางกฎหมายที่อาจเกิดขึ้น
DuXiu ได้รับคำชื่นชมอย่างมากในฐานะแหล่งข้อมูล และมีความคาดหวังว่าจะสามารถค้นหาได้ครบถ้วนภายใน 1 ปี
การที่หนังสือทั้งหมดของจีนถูกรวมศูนย์ไว้ถือว่าเป็นประโยชน์ต่อการฝึก AI
คอลเลกชันนี้มีขนาดใหญ่กว่า books3 ถึง 40 เท่า ซึ่งทำให้เกิดคำถามเรื่องลิขสิทธิ์และโอกาสของงานวิชาการนอกโลกภาษาอังกฤษ
มีการคาดเดาเกี่ยวกับประสิทธิภาพของการทำโทเค็นในภาษาจีน ซึ่งมีความหนาแน่นของข้อมูลสูง
มีการตั้งคำถามว่า Language Models (LLMs) สามารถเข้ารหัสความรู้ได้โดยไม่ขึ้นกับภาษาและภาษาที่ใช้ตั้งคำถามหรือไม่
มีความคาดหวังว่าบริษัทจีนรายใหญ่อาจยื่นประมูลเหนือ OpenAI เพื่อแข่งขันแย่งคอลเลกชันนี้
LLMs สามารถทำหน้าที่เป็นอินเทอร์เฟซเพื่อช่วยให้เข้าถึงข้อมูลภาษาจีนได้ง่ายขึ้น
ปฏิกิริยาต่อการคัดลอกในวัฒนธรรมจีนถูกมองว่าแตกต่างออกไป โดยมักมีแนวโน้มมองว่าเป็นรูปแบบหนึ่งของการให้เกียรติ

Anna's Archive มอบสิทธิ์เข้าถึงเฉพาะสำหรับบริษัท LLM ต่อคอลเลกชันหนังสือสารคดีภาษาจีนที่ใหญ่ที่สุดในโลก

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News