- สูตร attention ของ AI ยุคปัจจุบันมีข้อผิดพลาดแบบ off-by-one ที่ทำให้เกิดความยากลำบากในการบีบอัดและการปรับใช้โมเดล Transformer
- ข้อผิดพลาดนี้เกี่ยวข้องกับค่าน้ำหนัก outlier ภายในโมเดล และ outlier เหล่านี้มีค่ามากกว่าเพื่อนร่วมกลุ่มอย่างมาก จึงก่อให้เกิดประสิทธิภาพลดลงและทำให้การทำ quantization ยากขึ้น
- บั๊กนี้เกี่ยวข้องกับฟังก์ชัน softmax ที่ใช้ในกลไก attention ซึ่งฟังก์ชันนี้ไม่เหมาะกับงานนี้
- แนวทางแก้ที่เสนอคือการปรับแก้ฟังก์ชัน softmax เล็กน้อย โดยเพิ่ม 1 ในตัวส่วน เพื่อให้ attention head "ไม่พูดอะไรเลย" เมื่อไม่สามารถเพิ่มข้อมูลได้
- การปรับแก้นี้ซึ่งเรียกว่า Softmax Super-Mod หรือ QuietAttention คาดว่าจะช่วยแก้ลูปป้อนกลับของ outlier และปรับปรุงการทำ quantization
- สามารถตรวจสอบประสิทธิผลของแนวทางแก้นี้ได้ผ่านการทดลอง โดยเพิ่มเวกเตอร์ 0 เป็นคำนำหน้าในบริบทอินพุต แล้วสังเกต kurtosis ของน้ำหนักและค่าอินฟินิตี้นอร์มของ activation
- ผู้เขียนเชิญชวนให้ร่วมมือและทำการทดลองเพิ่มเติมเพื่อสำรวจและตรวจสอบแนวทางแก้นี้
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News