1 คะแนน โดย GN⁺ 2023-07-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สูตร attention ของ AI ยุคปัจจุบันมีข้อผิดพลาดแบบ off-by-one ที่ทำให้เกิดความยากลำบากในการบีบอัดและการปรับใช้โมเดล Transformer
  • ข้อผิดพลาดนี้เกี่ยวข้องกับค่าน้ำหนัก outlier ภายในโมเดล และ outlier เหล่านี้มีค่ามากกว่าเพื่อนร่วมกลุ่มอย่างมาก จึงก่อให้เกิดประสิทธิภาพลดลงและทำให้การทำ quantization ยากขึ้น
  • บั๊กนี้เกี่ยวข้องกับฟังก์ชัน softmax ที่ใช้ในกลไก attention ซึ่งฟังก์ชันนี้ไม่เหมาะกับงานนี้
  • แนวทางแก้ที่เสนอคือการปรับแก้ฟังก์ชัน softmax เล็กน้อย โดยเพิ่ม 1 ในตัวส่วน เพื่อให้ attention head "ไม่พูดอะไรเลย" เมื่อไม่สามารถเพิ่มข้อมูลได้
  • การปรับแก้นี้ซึ่งเรียกว่า Softmax Super-Mod หรือ QuietAttention คาดว่าจะช่วยแก้ลูปป้อนกลับของ outlier และปรับปรุงการทำ quantization
  • สามารถตรวจสอบประสิทธิผลของแนวทางแก้นี้ได้ผ่านการทดลอง โดยเพิ่มเวกเตอร์ 0 เป็นคำนำหน้าในบริบทอินพุต แล้วสังเกต kurtosis ของน้ำหนักและค่าอินฟินิตี้นอร์มของ activation
  • ผู้เขียนเชิญชวนให้ร่วมมือและทำการทดลองเพิ่มเติมเพื่อสำรวจและตรวจสอบแนวทางแก้นี้

1 ความคิดเห็น

 
GN⁺ 2023-07-25
ความคิดเห็นจาก Hacker News
  • ผู้เขียนเสนอให้บวก 1 เข้าไปในตัวส่วนของ softmax
  • การเปลี่ยนแปลงนี้ทำให้เครือข่ายสามารถเลือกที่จะไม่ให้ความเชื่อมั่นสูงกับสิ่งใดสิ่งหนึ่งได้ โดยให้ค่าน้ำหนักที่สูงหรือต่ำ
  • ผู้แสดงความคิดเห็นบางคนสงสัยถึงความสำคัญของการเปลี่ยนแปลงนี้ และชี้ว่าเคยมีการใช้เทคนิคคล้ายกันมาก่อน
  • คนอื่น ๆ ชื่นชมโทนที่ไม่เป็นวิชาการของบทความและความตั้งใจที่จะสำรวจแนวคิดใหม่ ๆ
  • ผู้แสดงความคิดเห็นคนหนึ่งแบ่งปันประสบการณ์ส่วนตัวในการค้นพบข้อผิดพลาดในอัลกอริทึมยอดนิยมที่ตอนแรกถูกคนอื่นมองข้าม
  • ผู้แสดงความคิดเห็นอีกคนชื่นชมที่ผู้เขียนระบุปัญหาจริงได้และเสนอวิธีแก้ที่เรียบง่าย
  • อย่างไรก็ตาม พวกเขาขอให้ผู้เขียนแสดงหลักฐานและคำอธิบายเพิ่มเติมเกี่ยวกับข้ออ้างที่ว่าวิธีแก้นี้จะช่วยแก้ปัญหาวงจรป้อนกลับของค่าผิดปกติ
  • ผู้แสดงความคิดเห็นบางคนเสนอว่าจำเป็นต้องมีการทดลองเพิ่มเติมและการปรับจูนรายละเอียดเพื่อยืนยันวิธีแก้ที่เสนอ
  • ผู้แสดงความคิดเห็นคนหนึ่งอ้างถึงงานวิจัยปี 2020 และเสนอสูตร attention แบบอื่นที่อาจแก้ปัญหาการควอนไทซ์ได้
  • มีการกล่าวถึงว่าวิธีบวก 1 ในตัวส่วนนี้เคยถูกใช้บ่อยก่อนที่การใช้ dummy token จะกลายเป็นเรื่องปกติ
  • ผู้แสดงความคิดเห็นบางคนวิจารณ์น้ำเสียงของผู้เขียน และแสดงความประหลาดใจต่อการขาดการรับรู้เกี่ยวกับเทคนิคนี้ในชุมชนนักวิจัย