- โปรเจ็กต์เพื่อสร้างโมเดลภาษาที่เปิดอย่างสมบูรณ์
- เปิดตัวโมเดล RedPajama-INCITE ที่มีพารามิเตอร์ 3B (เสร็จสมบูรณ์) และ 7B (พรีวิว) โดยอิงจากชุดข้อมูล RedPajama-Data-1T ที่เปิดตัวไปเมื่อ 3 สัปดาห์ก่อน
- โมเดล Base
- โมเดล Instruction-Tuned
- โมเดล Chat
- โมเดล 3B ทรงพลังที่สุดในระดับเดียวกัน ขนาดเล็กจึงทำงานได้รวดเร็ว และสามารถรันได้บนอุปกรณ์อย่าง RTX 2070 ที่เปิดตัวเมื่อ 5 ปีก่อน
- โมเดล 7B เวอร์ชันปรับจูนตามคำสั่ง ทำคะแนนบน HELM benchmark สูงกว่า LLaMA 7B อยู่ 3 คะแนน
- โมเดล 7B (ฝึกเสร็จแล้ว 80%) แซงหน้าโมเดล Pythia 7B ไปแล้ว
- หากการฝึก 7B เสร็จสมบูรณ์ภายในไม่กี่สัปดาห์ข้างหน้า ก็น่าจะแซง LLaMA 7B ได้
- โมเดล 3B มีเสถียรภาพแล้วที่ 8 แสนล้านโทเค็น และโมเดล 7B กำลังฝึกให้เสร็จด้วย 1 ล้านล้านโทเค็นพร้อมการปรับปรุงอย่างต่อเนื่อง
2 ความคิดเห็น
แม้จะเป็นเหตุการณ์สำคัญต่อการวิจัยและความก้าวหน้าของ AI,
แต่มีความเป็นไปได้สูงว่าโมเดลลักษณะนี้จะไม่ได้นำเสนอวิธีแก้ไขในประเด็นที่เป็นปัญหาเมื่อใช้งานเชิงพาณิชย์
ในเชิงพาณิชย์ ดูเหมือนว่าการใช้งานโมเดลจะต้องมาพร้อมกับงานอย่างการปรับแต่งหรือการเตรียมฟิลเตอร์เพิ่มเติมอยู่เสมอ
RedPajama - โครงการโอเพนซอร์สที่เขียนชุดข้อมูล LLaMA ขึ้นใหม่