• กำลังพัฒนาอิมพลีเมนเทชัน 2 แบบที่สามารถสเกลได้ถึงขนาด GPT-3+

→ GPT-Neo : โค้ดบนพื้นฐาน Tensorflow-mesh (TPU)

→ GPT-Neox : โค้ดบนพื้นฐาน DeepSpeed (GPU)

  • ปัจจุบันฝึกเสร็จแล้วในระดับขนาด GPT-2 และกำลังทบทวนการประเมินโมเดล

  • ทดสอบได้ถึง 2 แสนล้านพารามิเตอร์ด้วยการฝึกแบบขั้นตอนเดียว

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น