- โครงการสำหรับสร้างโมเดลภาษาที่ทำซ้ำได้และเปิดอย่างสมบูรณ์ ไม่ใช่โมเดลกึ่งเปิดอย่าง LLaMA, Alpaca, Vicuna
- มี 3 องค์ประกอบ
- ข้อมูล Pre-Training ที่มีคุณภาพสูงและครอบคลุมกว้าง
- เบสโมเดลที่ฝึกในสเกลใหญ่จากข้อมูลชุดนี้
- ข้อมูลและโมเดลสำหรับ instruction tuning เพื่อทำให้เบสโมเดลปลอดภัยและพร้อมใช้งาน
- เปิดตัวคอมโพเนนต์แรกคือชุดข้อมูล RedPajama-Data-1T
- ชุดข้อมูลแบบเปิดทั้งหมดที่ประกอบด้วย 1.2 ล้านล้านโทเค็น สร้างตามสูตรที่อธิบายไว้ในงานวิจัย LLaMA
- ดาวน์โหลดได้ผ่าน HuggingFace ขนาดรวม 5TB (บีบอัดเพื่อแจกจ่ายเหลือ 3TB)
- ประกอบด้วยข้อมูล 7 ส่วน: แต่ละส่วนผ่านการ preprocessing และ filtering เพื่อให้มีปริมาณใกล้เคียงกับงานวิจัย LLaMA (วิธี preprocessing และตัวกรองก็เปิดเผยบน GitHub เช่นกัน)
- CommonCrawl (878b) - ข้อมูลเว็บครอว์ล
- C4 (175b) - Common Crawl เวอร์ชันขนาดใหญ่ที่ผ่านการทำความสะอาดแล้ว
- GitHub (59b) - ข้อมูลจาก GitHub ที่กรองตามไลเซนส์และคุณภาพ
- arXiv (28b) - งานวิจัยและบทความทางวิทยาศาสตร์ (ลบ boilerplate ออก)
- Books (26b) - corpus หนังสือสาธารณะที่ลบข้อมูลซ้ำตามความคล้ายคลึงของเนื้อหา
- Wikipedia (24b) - บางหน้าจาก Wikipedia (ลบ boilerplate ออก)
- StackExchange (20b) - บางหน้าจาก StackExchange (ลบ boilerplate ออก)
- ขั้นตอนถัดไปคือการฝึกเบสโมเดลที่ทรงพลัง โดยมีกำหนดเปิดเผยภายในไม่กี่สัปดาห์
- instruction tuning มีแผนจะใช้สิ่งที่提供ผ่าน OpenChatkit
1 ความคิดเห็น
การเปิดตัว OpenChatKit - โครงการโอเพนซอร์สที่สามารถนำไปสร้าง ChatGPT ได้