ข้อมูลเบื้องหลัง
- โมเดล
gpt2-chatbot ที่ LMSYS เพิ่งเปิดเผยล่าสุด แสดงประสิทธิภาพที่เหนือกว่าโมเดล GPT-2 ที่เคยรู้จักกันอย่างมาก
- ข้อมูลเกี่ยวกับโมเดลนี้หาได้ยากทั้งบนเว็บไซต์ LMSYS และที่อื่น ๆ
- แม้แต่ในผลลัพธ์จาก Benchmark API ของ LMSYS ก็มีเพียงโมเดลนี้ที่ถูกตัดออกไปอย่างผิดสังเกต
ลักษณะเด่นของโมเดล GPT2-Chatbot
- อ้างว่าตัวเอง "อิงจาก GPT-4" และเรียกตัวเองว่า "ChatGPT"
- แสดงลักษณะที่แตกต่างจากโมเดลที่ฝึกด้วยชุดข้อมูล OpenAI ซึ่งถูกสร้างโดยองค์กรอื่น
- ดูเหมือนว่าจะใช้ tokenizer ของ OpenAI อย่าง
tiktoken
- พบช่องโหว่ด้าน prompt injection ที่เป็นลักษณะเฉพาะของ OpenAI
- มีลักษณะของผลลัพธ์ที่ต่างจากโมเดลขององค์กรอื่น
ความเห็นเชิงอัตวิสัยต่อ GPT2-Chatbot
- มีความเป็นไปได้สูงว่าแท้จริงแล้วอาจเป็น GPT-4.5 หรือ GPT-5 โดยคุณภาพของผลลัพธ์ดีขึ้นมากพอ ๆ กับการก้าวกระโดดจาก GPT-3.5 ไป GPT-4
- ก็อาจเป็นไปได้ว่า LMSYS ฝึกโมเดลขึ้นเอง หรือใช้แนวทางคล้าย MoE แต่เมื่อพิจารณาความเกี่ยวข้องกับ OpenAI แล้ว ความเป็นไปได้นี้ดูต่ำ
การคาดเดาเกี่ยวกับจุดประสงค์ของการเปิดเผย GPT2-Chatbot
- ดูเหมือนว่า OpenAI อาจใช้ LMSYS เป็นช่องทางในการ benchmark โมเดล GPT รุ่นล่าสุดอย่างลับ ๆ
- เพื่อให้ได้ผลการทดสอบ benchmark ในสภาพแวดล้อมทั่วไป หลีกเลี่ยงการประเมินเชิงลบจากความคาดหวังที่สูงเกินไป และลดการจับตาจากคู่แข่งรายอื่นให้น้อยที่สุด
การพิจารณาความเป็นไปได้อีกด้านหนึ่ง
- ก็อาจมีความเป็นไปได้ว่าแท้จริงแล้วโมเดลนี้อิงกับสถาปัตยกรรม GPT-2 เพราะงานวิจัยล่าสุดชี้ว่า GPT-2 มีผลงานเหนือกว่าโมเดลอื่นในบางด้าน
- การที่มันเรียกตัวเองว่า GPT-4 อาจเป็นเพราะใช้ชุดข้อมูลที่สร้างด้วย GPT-4
- อีกจุดที่น่าสนใจคือ MBZUAI ซึ่งเป็นหนึ่งในผู้สนับสนุนของ LMSYS มีส่วนเกี่ยวข้องกับงานวิจัยดังกล่าว
ความเห็นของ GN⁺
- ข้อคาดเดาเกี่ยวกับตัวตนของ
gpt2-chatbot นั้นน่าสนใจ และเห็นด้วยกับความเห็นที่ว่ามีโอกาสสูงที่จะเป็นโมเดลล่าสุดของ OpenAI
- ในอีกด้านหนึ่ง ก็ยังตัดความเป็นไปได้ที่มันอาจอิงกับสถาปัตยกรรม GPT-2 ออกไปไม่ได้ เมื่อดูจากผลวิจัยล่าสุด ศักยภาพของ GPT-2 ยังดูสูงอยู่มาก
- การคาดเดาว่า OpenAI กำลัง benchmark แบบลับ ๆ ผ่าน LMSYS ก็ดูน่าเชื่อถือ เป็นกลยุทธ์ที่ช่วยให้ได้ทั้งการประเมินที่เป็นกลางและหลีกเลี่ยงการถูกจับตาจากคู่แข่ง
- ต่อจากนี้น่าจะมีการทดลองและงานวิจัยอีกหลากหลายรูปแบบเพื่อเปิดเผยตัวจริงของ
gpt2-chatbot และอาจเป็นโอกาสให้มองเห็นทิศทางการพัฒนาในวงการโมเดลภาษาขนาดใหญ่
- ตั้งแต่แรก ชื่อ "gpt2-chatbot" เองก็อาจถูกตั้งขึ้นเพื่อให้คนรู้สึกว่าเป็น GPT-2 และก็ไม่อาจตัดความเป็นไปได้ที่ OpenAI ตั้งชื่อนี้โดยเจตนา
ยังไม่มีความคิดเห็น