5 คะแนน โดย xguru 2023-11-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มีขนาดใหญ่ขึ้นมากเมื่อเทียบกับ RedPajama-1T ที่มี 1 ล้านล้านโทเค็น
  • เอกสารข้อความมากกว่า 100 พันล้านรายการจาก CommonCrawl dump 84 ชุด ซึ่งมีโทเค็นดิบรวมมากกว่า 100 ล้านล้านโทเค็น
  • มี quality annotations ที่มีการใช้งานแพร่หลายมากกว่า 40 รายการซึ่งคำนวณไว้ล่วงหน้า สำหรับชุดย่อยโทเค็น 30 ล้านล้านรายการที่ผ่านการลบข้อมูลซ้ำแล้ว
  • 5 ภาษา: อังกฤษ, ฝรั่งเศส, สเปน, เยอรมัน, อิตาลี
  • สคริปต์ประมวลผลข้อมูลทั้งหมดเป็นโอเพนซอร์สและใช้งานได้บน GitHub และข้อมูลทั้งหมดใช้งานได้บน HuggingFace