AI2 Dolma: โอเพนคอร์ปัส 3T โทเค็นสำหรับโมเดลภาษา
(blog.allenai.org)- ชุดข้อมูลที่จัดทำโดย Allen Institute for AI
- ผสมผสานระหว่างคอนเทนต์จากเว็บ, สิ่งพิมพ์ทางวิชาการ, โค้ด, หนังสือ และข้อมูลจากสารานุกรม
- มีจำนวน 3 ล้านล้าน (Trillion) โทเค็น เป็นชุดข้อมูลที่มีขนาดใหญ่ที่สุดเท่าที่มีการเปิดเผยต่อสาธารณะจนถึงปัจจุบัน
- ดาวน์โหลดได้จาก HuggingFace Hub
- ใช้ไลเซนส์ AI2 ImpACT (แบ่งเป็น Low/Medium/High ตามความเสี่ยงของ Artifact)
ยังไม่มีความคิดเห็น