ChatGPT เป็นโมเดลขนาด 20B
(arxiv.org)ในงานวิจัยของ Microsoft Research ที่ส่งไปยัง EMNLP 2023 เรื่อง "CodeFusion: A Pre-trained Diffusion Model for Code Generation" ได้มีการเปิดเผยว่าจำนวนพารามิเตอร์ของ ChatGPT (gpt-3.5-turbo) อยู่ที่ 20B
- T5 (t5-large): 770M
- CodeT5 (codet5-large): 770M
- GPT3 (text-davinci-003): 175B
- ChatGPT (gpt-turbo-3.5): 20B
5 ความคิดเห็น
ขนาดนี้มันสมเหตุสมผลไหม? ฟังคนที่ทำงานด้าน AI พูดกันแล้วถึงกับตกตะลึงกันเลย...
All you need is 4090
เดิมทีขนาดพารามิเตอร์ของ GPT-3.5 ก็ไม่ได้มีการเปิดเผยอยู่แล้วหรือครับ?
ผมนึกมาตลอดว่าเป็นแค่ GPT-3 175B ที่เอาไปทำ RLHF เท่านั้น ดูเหมือนว่าจะไม่ใช่สินะครับ..
https://arxiv.org/abs/2310.17680v1 ยังดูเวอร์ชัน v1 ได้อยู่
"There are some errors in the paper and we need to retract it" เขาว่าแบบนั้น
ไม่รู้ว่าจุดที่มีข้อผิดพลาดอยู่ตรงไหน แต่ถ้าตัวเลขที่ผิดมีแค่ไม่กี่จุด ก็น่าจะแค่แก้ revision แบบง่าย ๆ ไปแล้ว... งั้นมีความเป็นไปได้สูงว่า 20B จะถูกต้องใช่ไหม?