GPT-3 ไม่ได้เป็นผู้เล่นเพียงรายเดียวในตลาดอีกต่อไป
(lastweekin.ai)-
GPT-3 สร้างแรงสั่นสะเทือนครั้งใหญ่ให้กับตลาด AI อย่างไม่ต้องสงสัย: เป็นโมเดล AI ขนาดมหึมาที่แข็งแกร่งด้าน “text-in text-out”
-
เนื่องจากเป็นบริการแบบเสียเงิน หลายองค์กรจึงเริ่มสร้างโมเดลที่คล้าย GPT-3 ในแบบของตัวเอง
→ แต่ก็ไม่ใช่เรื่องง่ายเพราะต้องใช้พลังประมวลผลมหาศาล OpenAI ซึ่งมี 175B พารามิเตอร์ ร่วมมือกับ MS โดยใช้ GPU 10,000 ตัวและข้อมูลข้อความ 45 เทราไบต์
→ หากคำนวณดูแล้ว ค่าใช้จ่ายในการฝึก GPT-3 อยู่ที่ราว 10,000–20,000 ล้านวอน
- มีความพยายามหลากหลายเกิดขึ้น
→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG
- น่าประหลาดที่ความพยายามแรกในการสร้างสิ่งที่คล้าย GPT-3 มาจาก “EleutherAI” ซึ่งเกิดจากผู้มีส่วนร่วมโอเพนซอร์ส
→ เปิดเผย “The Pile” ชุดข้อมูลที่คล้ายกับชุดข้อมูลของ GPT-3
→ หลังจากนั้นได้เปิดตัวตั้งแต่รุ่นเล็กอย่าง GPT-Neo 1.3B, 2.7B ไปจนถึงล่าสุด GPT-J-6B ที่มี 6B พารามิเตอร์
- หกเดือนหลังการประกาศ GPT-3 นักวิจัยจากมหาวิทยาลัยชิงหวาในจีนและ BAAI (Beijing AI Academy) ได้ร่วมกันเปิดตัว CPM (Chinese Pre-trained Language Model)
→ สร้างโมเดล 2.6B พารามิเตอร์จากข้อความภาษาจีน 100GB แม้ยังไม่ถึงระดับ GPT-3 แต่ก็น่าสนใจตรงที่ใช้ข้อความภาษาจีนเป็นหลัก
-
หลังจากนั้นไม่นาน Huawei ก็เปิดตัว PanGu-α ที่มีชุดพารามิเตอร์ 200B (ใช้ข้อความภาษาจีน 1.1TB)
-
Naver เปิดตัว HyperCLOVA ที่มี 204B พารามิเตอร์
-
AI21 Labs จากอิสราเอลเปิดตัว Jurassic-1 ขนาด 178B
-
NVIDIA และ MS เปิดตัว Megatron-Turing NLG โมเดลขนาด 530B พารามิเตอร์
-
โดยแก่นแล้ว โมเดลที่คล้าย GPT-3 และมีขนาดใหญ่ขึ้นเรื่อย ๆ กำลังถูกสร้างขึ้น และมีแนวโน้มจะใหญ่ขึ้นต่อไปอีกหลายปี
-
แนวโน้มที่ต้องใช้เงินลงทุนระดับหลายพันล้านดอลลาร์เพื่อฝึกโมเดลขนาดใหญ่นี้ น่าจะยังคงอยู่ต่อไปอีกระยะ
→ เรื่องที่น่ากังวลคือ มีเพียงบริษัทที่มีเงินทุนหนามากเท่านั้นที่สามารถสร้างโมเดลเหล่านี้ได้
-
ยากจะคาดเดาว่าเทรนด์นี้จะดำเนินต่อไปนานแค่ไหน และจะมีการค้นพบสำคัญที่ก้าวข้าม GPT-3 หรือไม่
-
ตอนนี้เราอยู่ท่ามกลางการเดินทางครั้งนี้ และคงน่าสนใจที่จะเฝ้าดูว่าในอีกไม่กี่ปีข้างหน้าจะเกิดอะไรขึ้น
1 ความคิดเห็น
GPT-Neo: โครงการที่ทำให้โมเดลขนาดระดับ GPT-3 เป็นโอเพนซอร์ส/ใช้ฟรี https://th.news.hada.io/topic?id=3599
MS และ Nvidia ประกาศ MT-NLG 530B โมเดลภาษาที่มีขนาดใหญ่ที่สุดในโลก https://th.news.hada.io/topic?id=5187