2 คะแนน โดย GN⁺ 2023-11-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Anna's Archive เป็นเมตาเสิร์ชเอนจินของไลบรารีเงาออนไลน์แบบไม่แสวงหากำไรที่ดำเนินการโดยนักเคลื่อนไหวนิรนาม โดยให้การเข้าถึงทรัพยากรหนังสือหลากหลายประเภท
  • พวกเขาได้ครอบครองคอลเลกชันหนังสือสารคดีภาษาจีนจำนวน 7.5 ล้านเล่ม / 350TB (มากกว่า Library Genesis เสียอีก)
  • เพื่อแลกกับการจัดทำ OCR คุณภาพสูงและการดึงข้อความจากคอลเลกชันนี้ พวกเขาวางแผนจะมอบสิทธิ์เข้าถึงล่วงหน้าแบบเอกสิทธิ์เป็นเวลา 1 ปีให้กับบริษัท LLM นั้น
  • คอลเลกชันนี้ได้มาจาก Duxiu ฐานข้อมูลหนังสือสแกนขนาดใหญ่ที่สร้างโดย SuperStar Digital Library Group และเดิมให้บริการแบบดิจิทัลแก่มหาวิทยาลัยและห้องสมุด
  • ขนาดไฟล์รวมของคอลเลกชันในรูปแบบปัจจุบันอยู่ที่ประมาณ 359TB
  • ข้อความที่ดึงออกมาจะถูกใช้ในการฝึกโมเดลภาษาขนาดใหญ่ (LLMs) และ Archive เชื่อว่าแม้คอลเลกชันนี้จะเป็นภาษาจีน ก็ยังอาจมีประโยชน์ต่อการฝึก English LLMs
  • Archive ต้องการใช้ความร่วมมือนี้เพื่อนำเสนอความสามารถในการค้นหาเฉพาะทางให้กับผู้ใช้
  • หากฝ่ายที่ร่วมมือยินดีแบ่งปันโค้ดทั้งหมดของไปป์ไลน์ Archive ก็เปิดกว้างต่อการขยายระยะเวลาการเข้าถึงแบบเอกสิทธิ์

1 ความคิดเห็น

 
GN⁺ 2023-11-06
ความคิดเห็นจาก Hacker News
  • คอลเลกชันนี้คาดว่าเริ่มต้นราวปี 2015 และมีหนังสือประมาณ 4 ล้านเล่ม โดยหลายเล่มเป็นรายการซ้ำ
  • แหล่งที่มาของคอลเลกชันคือบริษัทชื่อ DuXiu ซึ่งได้ร่วมมือกับห้องสมุดต่าง ๆ ในจีนตั้งแต่ช่วงต้นทศวรรษ 2000 เพื่อสแกนคอลเลกชันของพวกเขา
  • ในคอลเลกชันนี้มีทั้งตำราเรียนตะวันตกฉบับแปล โฆษณาชวนเชื่อทางการเมือง และหนังสือวรรณกรรมกับประวัติศาสตร์ที่ตีพิมพ์ก่อนยุคการเซ็นเซอร์อย่างเข้มข้นปะปนกันอยู่
  • บริษัทเทคโนโลยีของจีนสามารถเข้าถึงคอลเลกชันนี้ได้ แต่อาจไม่ใช้งานเพราะความเสี่ยงด้านลิขสิทธิ์และการเมือง
  • ผู้ดำเนินเว็บไซต์ถูกมองว่าฉลาดแต่หุนหันพลันแล่น และมีความกังวลเกี่ยวกับความรับผิดทางกฎหมายที่อาจเกิดขึ้น
  • DuXiu ได้รับคำชื่นชมอย่างมากในฐานะแหล่งข้อมูล และมีความคาดหวังว่าจะสามารถค้นหาได้ครบถ้วนภายใน 1 ปี
  • การที่หนังสือทั้งหมดของจีนถูกรวมศูนย์ไว้ถือว่าเป็นประโยชน์ต่อการฝึก AI
  • คอลเลกชันนี้มีขนาดใหญ่กว่า books3 ถึง 40 เท่า ซึ่งทำให้เกิดคำถามเรื่องลิขสิทธิ์และโอกาสของงานวิชาการนอกโลกภาษาอังกฤษ
  • มีการคาดเดาเกี่ยวกับประสิทธิภาพของการทำโทเค็นในภาษาจีน ซึ่งมีความหนาแน่นของข้อมูลสูง
  • มีการตั้งคำถามว่า Language Models (LLMs) สามารถเข้ารหัสความรู้ได้โดยไม่ขึ้นกับภาษาและภาษาที่ใช้ตั้งคำถามหรือไม่
  • มีความคาดหวังว่าบริษัทจีนรายใหญ่อาจยื่นประมูลเหนือ OpenAI เพื่อแข่งขันแย่งคอลเลกชันนี้
  • LLMs สามารถทำหน้าที่เป็นอินเทอร์เฟซเพื่อช่วยให้เข้าถึงข้อมูลภาษาจีนได้ง่ายขึ้น
  • ปฏิกิริยาต่อการคัดลอกในวัฒนธรรมจีนถูกมองว่าแตกต่างออกไป โดยมักมีแนวโน้มมองว่าเป็นรูปแบบหนึ่งของการให้เกียรติ