บทคัดย่อ

  • ชั้นการทำ normalization ในโครงข่ายประสาทสมัยใหม่เคยถูกมองว่าเป็นสิ่งจำเป็น
  • งานวิจัยนี้แสดงให้เห็นว่าสามารถบรรลุประสิทธิภาพที่เท่ากันหรือดีกว่าได้แม้ไม่ใช้ normalization
  • แนะนำเทคนิคง่าย ๆ ที่ชื่อว่า Dynamic Tanh (DyT) ซึ่งสามารถใช้แทนชั้น normalization ได้
  • โดยทั่วไป DyT ให้ประสิทธิภาพเทียบเท่าหรือดีกว่าโมเดลที่ทำ normalization แม้แทบไม่ต้องปรับจูนไฮเปอร์พารามิเตอร์
  • ได้ตรวจสอบประสิทธิผลของ DyT ในการตั้งค่าที่หลากหลาย ซึ่งชวนให้ต้องทบทวนว่าชั้น normalization จำเป็นจริงหรือไม่

การนำไปใช้

  • โมดูล DyT สามารถนำไปใช้ได้ด้วยโค้ด PyTorch เพียงไม่กี่บรรทัด

ข้อค้นพบสำคัญ

  • Layer normalization ทำงานคล้ายฟังก์ชัน tanh ที่มีการสเกล
  • ในเลเยอร์เริ่มต้นจะมีพฤติกรรมเชิงเส้นเป็นหลัก แต่ในเลเยอร์ลึกจะมีเส้นโค้งรูปตัว S อันเป็นลักษณะเฉพาะของฟังก์ชัน tanh

การประเมินผล

  • ประเมินประสิทธิผลและความเป็นสากลของ DyT บนสถาปัตยกรรมและงานที่หลากหลาย
  • ในทุกกรณี Transformers ที่ใช้ DyT ให้ประสิทธิภาพใกล้เคียงหรือดีกว่าโมเดลที่ทำ normalization

ข้อมูล

  • รายละเอียดเพิ่มเติมของงานวิจัยสามารถดูได้จากการดาวน์โหลดบทความวิจัย
  • รายละเอียดการนำไปใช้สามารถดูได้ใน GitHub repository

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น