• เปิดเผยมา 4 ขนาดคือ 7B, 13B, 33B, 65B
  • แม้จะมีขนาดเล็กกว่ามาก แต่เป็นโมเดลที่มีประสิทธิภาพและสามารถเทียบกับโมเดลขนาดใหญ่กว่าได้ ด้วยการเสริมการฝึกข้อมูลและการปรับจูนแบบละเอียด
  • 33B/65B ถูกฝึกด้วยโทเคน 1.4 ล้านล้านโทเคน (7B คือ 1 ล้านล้าน)
  • "โมเดล 13B เหนือกว่า GPT-3 ขนาด 175B และ 65B สามารถแข่งขันกับ Chinchilla70B และ PaLM-540B ที่มีขนาดใหญ่กว่ามากได้"
  • สามารถใช้งานได้เฉพาะเพื่อการวิจัยด้านปัญญาประดิษฐ์และวัตถุประสงค์ที่ไม่ใช่เชิงพาณิชย์เท่านั้น (ต้องยื่นขอและได้รับอนุมัติ)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น