RedPajama - โครงการโอเพนซอร์สเพื่อสร้างชุดข้อมูล LLaMA ขึ้นใหม่

xguru · 2023-04-19T10:03:01+09:00

โครงการสำหรับสร้างโมเดลภาษาที่ทำซ้ำได้และเปิดอย่างสมบูรณ์ ไม่ใช่โมเดลกึ่งเปิดอย่าง LLaMA, Alpaca, Vicuna มี 3 องค์ประกอบ ข้อมูล Pre-Training ที่มีคุณภาพสูงและครอบคลุมกว้าง เบสโมเดลที่ฝึกในสเกลใหญ่จากข้อมูลชุดนี้ ข้อมูลและโมเดลสำหรับ instruction tuning เพื่อทำให้เบสโมเดลปลอดภัยและพร้อมใช้งาน เปิดตัวคอมโพเนนต์แรกคือชุดข้อมูล RedPajama-Data-1T ชุดข้อมูลแบบเปิดทั้งหมดที่ประกอบด้วย 1.2 ล้านล้านโทเค็น สร้างตามสูตรที่อธิบายไว้ในงานวิจัย LLaMA ดาวน์โหลดได้ผ่าน HuggingFace ขนาดรวม 5TB (บีบอัดเพื่อแจกจ่ายเหลือ 3TB) ประกอบด้วยข้อมูล 7 ส่วน: แต่ละส่วนผ่านการ preprocessing และ filtering เพื่อให้มีปริมาณใกล้เคียงกับงานวิจัย LLaMA (วิธี preprocessing และตัวกรองก็เปิดเผยบน GitHub เช่นกัน) CommonCrawl (878b) - ข้อมูลเว็บครอว์ล C4 (175b) - Common Crawl เวอร์ชันขนาดใหญ่ที่ผ่านการทำความสะอาดแล้ว GitHub (59b) - ข้อมูลจาก GitHub ที่กรองตามไลเซนส์และคุณภาพ arXiv (28b) - งานวิจัยและบทความทางวิทยาศาสตร์ (ลบ boilerplate ออก) Books (26b) - corpus หนังสือสาธารณะที่ลบข้อมูลซ้ำตามความคล้ายคลึงของเนื้อหา Wikipedia (24b) - บางหน้าจาก Wikipedia (ลบ boilerplate ออก) StackExchange (20b) - บางหน้าจาก StackExchange (ลบ boilerplate ออก) ขั้นตอนถัดไปคือการฝึกเบสโมเดลที่ทรงพลัง โดยมีกำหนดเปิดเผยภายในไม่กี่สัปดาห์ instruction tuning มีแผนจะใช้สิ่งที่提供ผ่าน OpenChatkit

(together.xyz)

14 คะแนน โดย xguru 2023-04-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โครงการสำหรับสร้างโมเดลภาษาที่ทำซ้ำได้และเปิดอย่างสมบูรณ์ ไม่ใช่โมเดลกึ่งเปิดอย่าง LLaMA, Alpaca, Vicuna
มี 3 องค์ประกอบ
- ข้อมูล Pre-Training ที่มีคุณภาพสูงและครอบคลุมกว้าง
- เบสโมเดลที่ฝึกในสเกลใหญ่จากข้อมูลชุดนี้
- ข้อมูลและโมเดลสำหรับ instruction tuning เพื่อทำให้เบสโมเดลปลอดภัยและพร้อมใช้งาน
เปิดตัวคอมโพเนนต์แรกคือชุดข้อมูล RedPajama-Data-1T
- ชุดข้อมูลแบบเปิดทั้งหมดที่ประกอบด้วย 1.2 ล้านล้านโทเค็น สร้างตามสูตรที่อธิบายไว้ในงานวิจัย LLaMA
- ดาวน์โหลดได้ผ่าน HuggingFace ขนาดรวม 5TB (บีบอัดเพื่อแจกจ่ายเหลือ 3TB)
- ประกอบด้วยข้อมูล 7 ส่วน: แต่ละส่วนผ่านการ preprocessing และ filtering เพื่อให้มีปริมาณใกล้เคียงกับงานวิจัย LLaMA (วิธี preprocessing และตัวกรองก็เปิดเผยบน GitHub เช่นกัน)
  - CommonCrawl (878b) - ข้อมูลเว็บครอว์ล
  - C4 (175b) - Common Crawl เวอร์ชันขนาดใหญ่ที่ผ่านการทำความสะอาดแล้ว
  - GitHub (59b) - ข้อมูลจาก GitHub ที่กรองตามไลเซนส์และคุณภาพ
  - arXiv (28b) - งานวิจัยและบทความทางวิทยาศาสตร์ (ลบ boilerplate ออก)
  - Books (26b) - corpus หนังสือสาธารณะที่ลบข้อมูลซ้ำตามความคล้ายคลึงของเนื้อหา
  - Wikipedia (24b) - บางหน้าจาก Wikipedia (ลบ boilerplate ออก)
  - StackExchange (20b) - บางหน้าจาก StackExchange (ลบ boilerplate ออก)
ขั้นตอนถัดไปคือการฝึกเบสโมเดลที่ทรงพลัง โดยมีกำหนดเปิดเผยภายในไม่กี่สัปดาห์
instruction tuning มีแผนจะใช้สิ่งที่提供ผ่าน OpenChatkit

1 ความคิดเห็น

xguru 2023-04-19

การเปิดตัว OpenChatKit - โครงการโอเพนซอร์สที่สามารถนำไปสร้าง ChatGPT ได้

RedPajama - โครงการโอเพนซอร์สเพื่อสร้างชุดข้อมูล LLaMA ขึ้นใหม่

บทความที่เกี่ยวข้อง

1 ความคิดเห็น