13 คะแนน โดย xguru 2021-10-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • นักวิจัย Carl Malamud เปิดเผยดัชนี n-gram ที่สกัดด้วย SpaCy จากวารสาร 107,233,728 ฉบับ ซึ่งรวมถึงบทความแบบเสียเงินด้วย

  • เป็นดัชนีที่มีเฉพาะสไนเป็ตข้อความยาวตั้งแต่ 1 คำถึงสูงสุด 5 คำ ไม่ใช่ข้อความเต็ม จึงหลีกเลี่ยงข้อจำกัดด้านลิขสิทธิ์ได้

  • เปิดให้ใช้งานฟรีบนเว็บอาร์ไคฟ์ เพื่อให้นำไปใช้ได้กับงานวิจัยหลากหลายสาขา

→ ตัวอย่าง) สารเคมีชนิดหนึ่งถูกใช้ในงานวิจัยกี่ครั้ง

  • ประกอบด้วย 3 ตาราง

→ n-gram 3.5 แสนล้านรายการและ journal id

→ คีย์เวิร์ด 1.97 หมื่นล้านรายการและ journal id

→ journal id และเมทาดาทา: ชื่อบทความ, ผู้เขียน, DOI (หมายเลขระบุเอกลักษณ์ของบทความวิจัย)

  • แคตตาล็อกเป็นไฟล์บีบอัดขนาด 5TB และเมื่อแตกไฟล์จะมีขนาด 38TB

1 ความคิดเห็น

 
xguru 2021-10-28

บทความแนะนำของ Nature

ดูเหมือนว่าจะหลบปัญหาลิขสิทธิ์ได้อย่างมีเอกลักษณ์ด้วยการเผยแพร่เฉพาะดัชนี ไม่ใช่ข้อความเต็มจริง ๆ

อย่างที่มีเขียนไว้ในบทความของ Nature ปัญหาน่าจะอยู่ที่ Carl สร้างดัชนีนี้ขึ้นมาได้อย่างไรและได้ต้นฉบับของเปเปอร์ที่ปกติต้องเสียเงินมาอย่างไรเท่านั้น ส่วนการนำดัชนีนี้ไปใช้ในการวิจัยเองไม่น่าจะมีปัญหา

พอเห็นสิ่งนี้แล้วก็นึกถึง Aaron Swartz ขึ้นมา.. และก็มีระบุไว้ที่ด้านล่างของข้อมูลด้วยนะครับ

ลองดูวิดีโอที่ Carl Malamud พูดในงาน Aaron Swartz Memorial ด้วยครับ