15 คะแนน โดย xguru 2020-10-26 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

ข้อมูลที่คล้ายกับชุดที่ OpenAI ใช้กับ GPT-3

  • books3.tar.gz : 37GB, ไฟล์ข้อความที่ดึงออกมาจากหนังสือประมาณ 197,000 เล่ม

  • github.tar.gz : 106G, ชุดรวมหลาย repo จาก GitHub

  • stackexchange_dataset.tar : 34G, ข้อมูลถาม-ตอบจาก Stack Exchange

และยังมีข้อมูลอื่น ๆ อีกมากมาย

2 ความคิดเห็น

 
ffdd270 2020-10-27

ค่อนข้างนอกเรื่องไปหน่อย แต่พอเห็นคลังข้อมูลสำหรับการฝึกแบบนั้นกับบรรดาคลังต่าง ๆ ก็ยิ่งทำให้รู้สึกอีกครั้งว่า ในโลกดิจิทัลเราไม่มีอิสระที่จะถูกลืมได้

 
xguru 2020-10-26

โปรดดูเธรดบน Twitter ด้านล่างสำหรับคำอธิบายเกี่ยวกับข้อมูลนี้

https://threadreaderapp.com/thread/1320282149329784833.html