บทคัดย่อ
- ชั้นการทำ normalization ในโครงข่ายประสาทสมัยใหม่เคยถูกมองว่าเป็นสิ่งจำเป็น
- งานวิจัยนี้แสดงให้เห็นว่าสามารถบรรลุประสิทธิภาพที่เท่ากันหรือดีกว่าได้แม้ไม่ใช้ normalization
- แนะนำเทคนิคง่าย ๆ ที่ชื่อว่า Dynamic Tanh (DyT) ซึ่งสามารถใช้แทนชั้น normalization ได้
- โดยทั่วไป DyT ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่ทำ normalization แม้แทบไม่ต้องปรับจูนไฮเปอร์พารามิเตอร์
- ได้ตรวจสอบประสิทธิผลของ DyT ในการตั้งค่าที่หลากหลาย ซึ่งชวนให้ต้องทบทวนว่าชั้น normalization จำเป็นจริงหรือไม่
การนำไปใช้
- โมดูล DyT สามารถนำไปใช้ได้ด้วยโค้ด PyTorch เพียงไม่กี่บรรทัด
ข้อค้นพบสำคัญ
- Layer normalization ทำงานคล้ายฟังก์ชัน tanh ที่มีการสเกล
- ในเลเยอร์เริ่มต้นจะมีพฤติกรรมเชิงเส้นเป็นหลัก แต่ในเลเยอร์ลึกจะมีเส้นโค้งรูปตัว S อันเป็นลักษณะเฉพาะของฟังก์ชัน tanh
การประเมินผล
- ประเมินประสิทธิผลและความเป็นสากลของ DyT บนสถาปัตยกรรมและงานที่หลากหลาย
- ในทุกกรณี Transformers ที่ใช้ DyT ให้ประสิทธิภาพใกล้เคียงหรือดีกว่าโมเดลที่ทำ normalization
ข้อมูล
- รายละเอียดเพิ่มเติมของงานวิจัยสามารถดูได้จากการดาวน์โหลดบทความวิจัย
- รายละเอียดการนำไปใช้สามารถดูได้ใน GitHub repository
ยังไม่มีความคิดเห็น