16 คะแนน โดย xguru 2021-11-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPT-3 สร้างแรงสั่นสะเทือนครั้งใหญ่ให้กับตลาด AI อย่างไม่ต้องสงสัย: เป็นโมเดล AI ขนาดมหึมาที่แข็งแกร่งด้าน “text-in text-out”

  • เนื่องจากเป็นบริการแบบเสียเงิน หลายองค์กรจึงเริ่มสร้างโมเดลที่คล้าย GPT-3 ในแบบของตัวเอง

→ แต่ก็ไม่ใช่เรื่องง่ายเพราะต้องใช้พลังประมวลผลมหาศาล OpenAI ซึ่งมี 175B พารามิเตอร์ ร่วมมือกับ MS โดยใช้ GPU 10,000 ตัวและข้อมูลข้อความ 45 เทราไบต์

→ หากคำนวณดูแล้ว ค่าใช้จ่ายในการฝึก GPT-3 อยู่ที่ราว 10,000–20,000 ล้านวอน

  • มีความพยายามหลากหลายเกิดขึ้น

→ EleutherAI, CPM, PanGu-α, HyperCLOVA, Jurassic-1, Megatron-Turing NLG

  • น่าประหลาดที่ความพยายามแรกในการสร้างสิ่งที่คล้าย GPT-3 มาจาก “EleutherAI” ซึ่งเกิดจากผู้มีส่วนร่วมโอเพนซอร์ส

→ เปิดเผย “The Pile” ชุดข้อมูลที่คล้ายกับชุดข้อมูลของ GPT-3

→ หลังจากนั้นได้เปิดตัวตั้งแต่รุ่นเล็กอย่าง GPT-Neo 1.3B, 2.7B ไปจนถึงล่าสุด GPT-J-6B ที่มี 6B พารามิเตอร์

  • หกเดือนหลังการประกาศ GPT-3 นักวิจัยจากมหาวิทยาลัยชิงหวาในจีนและ BAAI (Beijing AI Academy) ได้ร่วมกันเปิดตัว CPM (Chinese Pre-trained Language Model)

→ สร้างโมเดล 2.6B พารามิเตอร์จากข้อความภาษาจีน 100GB แม้ยังไม่ถึงระดับ GPT-3 แต่ก็น่าสนใจตรงที่ใช้ข้อความภาษาจีนเป็นหลัก

  • หลังจากนั้นไม่นาน Huawei ก็เปิดตัว PanGu-α ที่มีชุดพารามิเตอร์ 200B (ใช้ข้อความภาษาจีน 1.1TB)

  • Naver เปิดตัว HyperCLOVA ที่มี 204B พารามิเตอร์

  • AI21 Labs จากอิสราเอลเปิดตัว Jurassic-1 ขนาด 178B

  • NVIDIA และ MS เปิดตัว Megatron-Turing NLG โมเดลขนาด 530B พารามิเตอร์

  • โดยแก่นแล้ว โมเดลที่คล้าย GPT-3 และมีขนาดใหญ่ขึ้นเรื่อย ๆ กำลังถูกสร้างขึ้น และมีแนวโน้มจะใหญ่ขึ้นต่อไปอีกหลายปี

  • แนวโน้มที่ต้องใช้เงินลงทุนระดับหลายพันล้านดอลลาร์เพื่อฝึกโมเดลขนาดใหญ่นี้ น่าจะยังคงอยู่ต่อไปอีกระยะ

→ เรื่องที่น่ากังวลคือ มีเพียงบริษัทที่มีเงินทุนหนามากเท่านั้นที่สามารถสร้างโมเดลเหล่านี้ได้

  • ยากจะคาดเดาว่าเทรนด์นี้จะดำเนินต่อไปนานแค่ไหน และจะมีการค้นพบสำคัญที่ก้าวข้าม GPT-3 หรือไม่

  • ตอนนี้เราอยู่ท่ามกลางการเดินทางครั้งนี้ และคงน่าสนใจที่จะเฝ้าดูว่าในอีกไม่กี่ปีข้างหน้าจะเกิดอะไรขึ้น

1 ความคิดเห็น

 
xguru 2021-11-10
  • GPT-Neo: โครงการที่ทำให้โมเดลขนาดระดับ GPT-3 เป็นโอเพนซอร์ส/ใช้ฟรี https://th.news.hada.io/topic?id=3599

  • MS และ Nvidia ประกาศ MT-NLG 530B โมเดลภาษาที่มีขนาดใหญ่ที่สุดในโลก https://th.news.hada.io/topic?id=5187