- กำลังพัฒนาอิมพลีเมนเทชัน 2 แบบที่สามารถสเกลได้ถึงขนาด GPT-3+
→ GPT-Neo : โค้ดบนพื้นฐาน Tensorflow-mesh (TPU)
→ GPT-Neox : โค้ดบนพื้นฐาน DeepSpeed (GPU)
-
ปัจจุบันฝึกเสร็จแล้วในระดับขนาด GPT-2 และกำลังทบทวนการประเมินโมเดล
-
ทดสอบได้ถึง 2 แสนล้านพารามิเตอร์ด้วยการฝึกแบบขั้นตอนเดียว
ยังไม่มีความคิดเห็น