14 คะแนน โดย xguru 2023-04-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โครงการสำหรับสร้างโมเดลภาษาที่ทำซ้ำได้และเปิดอย่างสมบูรณ์ ไม่ใช่โมเดลกึ่งเปิดอย่าง LLaMA, Alpaca, Vicuna
  • มี 3 องค์ประกอบ
    • ข้อมูล Pre-Training ที่มีคุณภาพสูงและครอบคลุมกว้าง
    • เบสโมเดลที่ฝึกในสเกลใหญ่จากข้อมูลชุดนี้
    • ข้อมูลและโมเดลสำหรับ instruction tuning เพื่อทำให้เบสโมเดลปลอดภัยและพร้อมใช้งาน
  • เปิดตัวคอมโพเนนต์แรกคือชุดข้อมูล RedPajama-Data-1T
    • ชุดข้อมูลแบบเปิดทั้งหมดที่ประกอบด้วย 1.2 ล้านล้านโทเค็น สร้างตามสูตรที่อธิบายไว้ในงานวิจัย LLaMA
    • ดาวน์โหลดได้ผ่าน HuggingFace ขนาดรวม 5TB (บีบอัดเพื่อแจกจ่ายเหลือ 3TB)
    • ประกอบด้วยข้อมูล 7 ส่วน: แต่ละส่วนผ่านการ preprocessing และ filtering เพื่อให้มีปริมาณใกล้เคียงกับงานวิจัย LLaMA (วิธี preprocessing และตัวกรองก็เปิดเผยบน GitHub เช่นกัน)
      • CommonCrawl (878b) - ข้อมูลเว็บครอว์ล
      • C4 (175b) - Common Crawl เวอร์ชันขนาดใหญ่ที่ผ่านการทำความสะอาดแล้ว
      • GitHub (59b) - ข้อมูลจาก GitHub ที่กรองตามไลเซนส์และคุณภาพ
      • arXiv (28b) - งานวิจัยและบทความทางวิทยาศาสตร์ (ลบ boilerplate ออก)
      • Books (26b) - corpus หนังสือสาธารณะที่ลบข้อมูลซ้ำตามความคล้ายคลึงของเนื้อหา
      • Wikipedia (24b) - บางหน้าจาก Wikipedia (ลบ boilerplate ออก)
      • StackExchange (20b) - บางหน้าจาก StackExchange (ลบ boilerplate ออก)
  • ขั้นตอนถัดไปคือการฝึกเบสโมเดลที่ทรงพลัง โดยมีกำหนดเปิดเผยภายในไม่กี่สัปดาห์
  • instruction tuning มีแผนจะใช้สิ่งที่提供ผ่าน OpenChatkit