ชุดข้อมูลข้อความสำหรับฝึก AI
(the-eye.eu)ข้อมูลที่คล้ายกับชุดที่ OpenAI ใช้กับ GPT-3
-
books3.tar.gz : 37GB, ไฟล์ข้อความที่ดึงออกมาจากหนังสือประมาณ 197,000 เล่ม
-
github.tar.gz : 106G, ชุดรวมหลาย repo จาก GitHub
-
stackexchange_dataset.tar : 34G, ข้อมูลถาม-ตอบจาก Stack Exchange
และยังมีข้อมูลอื่น ๆ อีกมากมาย
2 ความคิดเห็น
ค่อนข้างนอกเรื่องไปหน่อย แต่พอเห็นคลังข้อมูลสำหรับการฝึกแบบนั้นกับบรรดาคลังต่าง ๆ ก็ยิ่งทำให้รู้สึกอีกครั้งว่า ในโลกดิจิทัลเราไม่มีอิสระที่จะถูกลืมได้
โปรดดูเธรดบน Twitter ด้านล่างสำหรับคำอธิบายเกี่ยวกับข้อมูลนี้
https://threadreaderapp.com/thread/1320282149329784833.html