- บทความว่าด้วยความไม่เป็นกำหนดที่สังเกตพบใน GPT-4 ซึ่งเป็นโมเดลภาษาที่พัฒนาโดย OpenAI
- GPT-4/GPT-3.5-turbo มีพฤติกรรมไม่เป็นกำหนดแม้ที่ temp=0 ทั้งที่โมเดลแบบ dense decoder-only ควรหมายถึงความเป็นกำหนดอย่างสมบูรณ์
- ในช่วงแรก ความไม่เป็นกำหนดนี้ถูกคาดว่าอาจเป็นบั๊กที่แฝงอยู่ หรือเกิดจากความไม่เป็นกำหนดของการคำนวณเลขทศนิยมลอยตัวที่ถูกปรับแต่งให้มีประสิทธิภาพ
- สมมติฐานใหม่ของผู้เขียน: ความไม่เป็นกำหนดของ GPT-4 ส่วนใหญ่เกิดจากสถาปัตยกรรม Sparse Mixture of Experts (MoE) ที่ไม่สามารถบังคับความเป็นกำหนดในระดับลำดับได้
- แนวทาง Sparse MoE ทำให้เกิดความไม่เป็นกำหนดในระดับซีเควนซ์ โดยทำการ route โทเคนภายในกลุ่มขนาดคงที่และรักษาสมดุลภายในกลุ่ม
- เพื่อตรวจสอบสมมติฐานนี้ ผู้เขียนได้ขอให้ GPT-4 เขียนสคริปต์ และสังเกตว่ามีผลลัพธ์ที่สมบูรณ์แตกต่างกันจำนวนมากจาก GPT-4 จึงยืนยันได้ว่ามีสาเหตุที่ทำให้ GPT-4 ไม่เป็นกำหนดมากกว่าโมเดลอื่นอย่างมาก
- ผู้เขียนยังคาดว่า GPT-3.5-turbo อาจเป็นโมเดล MoE เช่นกัน เนื่องจากความเร็ว ความไม่เป็นกำหนด และการถอด logprobs ออก
- นัยสำคัญของการค้นพบนี้มีมาก: หากความไม่เป็นกำหนดเป็นคุณลักษณะโดยเนื้อแท้ของการอนุมานแบบแบตช์ร่วมกับ Sparse MoE ข้อเท็จจริงนี้ก็ควรถูกสื่อสารอย่างชัดเจนต่อทุกคนที่ทำงานกับโมเดลประเภทนี้
- ผู้เขียนสรุปว่า แม้โดยทั่วไปความไม่เป็นกำหนดในโมเดล GPT ของ OpenAI จะถูกอธิบายว่าเป็นความคลาดเคลื่อนจากการดำเนินการเลขทศนิยมลอยตัวของ CUDA ที่ไม่เป็นกำหนด แต่สาเหตุรากฐานอาจเป็นการอนุมานแบบแบตช์ในโมเดล Sparse MoE
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News