GPT-Neo: โปรเจกต์ทำโมเดลขนาดระดับ GPT-3 ให้เป็นโอเพนซอร์ส/ใช้ฟรี

xguru · 2021-01-19T09:54:11+09:00

กำลังพัฒนาอิมพลีเมนเทชัน 2 แบบที่สามารถสเกลได้ถึงขนาด GPT-3+ → GPT-Neo : โค้ดบนพื้นฐาน Tensorflow-mesh (TPU) → GPT-Neox : โค้ดบนพื้นฐาน DeepSpeed (GPU) ปัจจุบันฝึกเสร็จแล้วในระดับขนาด GPT-2 และกำลังทบทวนการประเมินโมเดล ทดสอบได้ถึง 2 แสนล้านพารามิเตอร์ด้วยการฝึกแบบขั้นตอนเดียว

(github.com)

7 คะแนน โดย xguru 2021-01-19 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

กำลังพัฒนาอิมพลีเมนเทชัน 2 แบบที่สามารถสเกลได้ถึงขนาด GPT-3+

→ GPT-Neo : โค้ดบนพื้นฐาน Tensorflow-mesh (TPU)

→ GPT-Neox : โค้ดบนพื้นฐาน DeepSpeed (GPU)

ปัจจุบันฝึกเสร็จแล้วในระดับขนาด GPT-2 และกำลังทบทวนการประเมินโมเดล
ทดสอบได้ถึง 2 แสนล้านพารามิเตอร์ด้วยการฝึกแบบขั้นตอนเดียว

GPT-Neo: โปรเจกต์ทำโมเดลขนาดระดับ GPT-3 ให้เป็นโอเพนซอร์ส/ใช้ฟรี

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น