-
นักวิจัย Carl Malamud เปิดเผยดัชนี n-gram ที่สกัดด้วย SpaCy จากวารสาร 107,233,728 ฉบับ ซึ่งรวมถึงบทความแบบเสียเงินด้วย
-
เป็นดัชนีที่มีเฉพาะสไนเป็ตข้อความยาวตั้งแต่ 1 คำถึงสูงสุด 5 คำ ไม่ใช่ข้อความเต็ม จึงหลีกเลี่ยงข้อจำกัดด้านลิขสิทธิ์ได้
-
เปิดให้ใช้งานฟรีบนเว็บอาร์ไคฟ์ เพื่อให้นำไปใช้ได้กับงานวิจัยหลากหลายสาขา
→ ตัวอย่าง) สารเคมีชนิดหนึ่งถูกใช้ในงานวิจัยกี่ครั้ง
- ประกอบด้วย 3 ตาราง
→ n-gram 3.5 แสนล้านรายการและ journal id
→ คีย์เวิร์ด 1.97 หมื่นล้านรายการและ journal id
→ journal id และเมทาดาทา: ชื่อบทความ, ผู้เขียน, DOI (หมายเลขระบุเอกลักษณ์ของบทความวิจัย)
- แคตตาล็อกเป็นไฟล์บีบอัดขนาด 5TB และเมื่อแตกไฟล์จะมีขนาด 38TB
1 ความคิดเห็น
บทความแนะนำของ Nature
ดูเหมือนว่าจะหลบปัญหาลิขสิทธิ์ได้อย่างมีเอกลักษณ์ด้วยการเผยแพร่เฉพาะดัชนี ไม่ใช่ข้อความเต็มจริง ๆ
อย่างที่มีเขียนไว้ในบทความของ Nature ปัญหาน่าจะอยู่ที่ Carl สร้างดัชนีนี้ขึ้นมาได้อย่างไรและได้ต้นฉบับของเปเปอร์ที่ปกติต้องเสียเงินมาอย่างไรเท่านั้น ส่วนการนำดัชนีนี้ไปใช้ในการวิจัยเองไม่น่าจะมีปัญหา
พอเห็นสิ่งนี้แล้วก็นึกถึง Aaron Swartz ขึ้นมา.. และก็มีระบุไว้ที่ด้านล่างของข้อมูลด้วยนะครับ
ลองดูวิดีโอที่ Carl Malamud พูดในงาน Aaron Swartz Memorial ด้วยครับ