- มีขนาดใหญ่ขึ้นมากเมื่อเทียบกับ RedPajama-1T ที่มี 1 ล้านล้านโทเค็น
- เอกสารข้อความมากกว่า 100 พันล้านรายการจาก CommonCrawl dump 84 ชุด ซึ่งมีโทเค็นดิบรวมมากกว่า 100 ล้านล้านโทเค็น
- มี quality annotations ที่มีการใช้งานแพร่หลายมากกว่า 40 รายการซึ่งคำนวณไว้ล่วงหน้า สำหรับชุดย่อยโทเค็น 30 ล้านล้านรายการที่ผ่านการลบข้อมูลซ้ำแล้ว
- 5 ภาษา: อังกฤษ, ฝรั่งเศส, สเปน, เยอรมัน, อิตาลี
- สคริปต์ประมวลผลข้อมูลทั้งหมดเป็นโอเพนซอร์สและใช้งานได้บน GitHub และข้อมูลทั้งหมดใช้งานได้บน HuggingFace
1 ความคิดเห็น
RedPajama - โครงการโอเพนซอร์สสำหรับสร้างชุดข้อมูล LLaMA ขึ้นมาใหม่
เปิดตัวโมเดล RedPajama 3B และ 7B
RedPajama เปิดตัวโมเดล 7B ที่มีประสิทธิภาพเหนือกว่าโมเดล LLM แบบเปิดขนาด 7B อื่น ๆ บนเกณฑ์ทดสอบ HELM