Differential Transformer
(arxiv.org)-
Transformer มักมีแนวโน้มที่จะจัดสรรความสนใจมากเกินไปให้กับบริบทที่ไม่เกี่ยวข้อง
-
Diff Transformer เสนอแนวทางใหม่ที่ช่วยขยายความสนใจต่อบริบทที่เกี่ยวข้องและกำจัดสัญญาณรบกวน
-
กลไกความสนใจแบบเชิงแตกต่าง
- คำนวณคะแนนความสนใจผ่านความแตกต่างของแผนที่ความสนใจแบบ softmax สองชุดที่แยกจากกัน
- การหักลบนี้ช่วยกำจัดสัญญาณรบกวนและส่งเสริมการเกิดขึ้นของรูปแบบความสนใจแบบเบาบาง
-
ผลการทดลอง
- ในการทดลองด้าน language modeling นั้น Diff Transformer แสดงประสิทธิภาพเหนือกว่า Transformer ในหลายขนาดโมเดลและการตั้งค่าจำนวนโทเค็นฝึก
- ในการใช้งานจริง มีข้อได้เปรียบที่น่าสนใจในด้านการสร้างแบบจำลองบริบทยาว การดึงข้อมูลสำคัญ การบรรเทาอาการหลอน การเรียนรู้ในบริบท และการลด activation outlier
-
ข้อดีเชิงปฏิบัติ
- ถูกรบกวนจากบริบทที่ไม่เกี่ยวข้องน้อยลง จึงช่วยบรรเทาอาการหลอนในการตอบคำถามและการสรุปข้อความได้
- ไม่เพียงช่วยเพิ่มความแม่นยำของการเรียนรู้ในบริบท แต่ยังเพิ่มความทนทานต่อการสลับลำดับอีกด้วย
-
บทสรุป
- Diff Transformer ถูกวางตำแหน่งให้เป็นสถาปัตยกรรมที่มีประสิทธิภาพสูงและมีอนาคตสดใสสำหรับการพัฒนา large language model
สรุปโดย GN⁺
- Diff Transformer เป็นสถาปัตยกรรมใหม่ที่ถูกเสนอขึ้นเพื่อก้าวข้ามข้อจำกัดของ Transformer โดยมุ่งเน้นการขยายความสนใจต่อบริบทที่เกี่ยวข้องและกำจัดสัญญาณรบกวนที่ไม่จำเป็น
- งานวิจัยนี้เน้นย้ำถึงการยกระดับประสิทธิภาพของ large language model โดยเฉพาะข้อได้เปรียบในการใช้งานจริง เช่น การสร้างแบบจำลองบริบทยาว
- ช่วยลดการถูกรบกวนจากบริบทที่ไม่เกี่ยวข้อง จึงบรรเทาอาการหลอน และช่วยเพิ่มทั้งความแม่นยำและความทนทานของการเรียนรู้ในบริบท
1 ความคิดเห็น
ความเห็นบน Hacker News
กลไก attention แบบ softmax ทั่วไปมีปัญหาในการกำหนดค่าน้ำหนัก attention ที่ใกล้ 0 ให้กับข้อมูลที่ไม่เกี่ยวข้อง วิธีใหม่นี้แก้ปัญหานั้นได้ แต่ก็อาจทำให้เกิดค่าน้ำหนัก attention ติดลบได้เช่นกัน จึงยากที่จะเข้าใจว่าเครือข่ายจัดการเรื่องนี้อย่างไร
งานเชิงรายละเอียดแบบนี้น่าสนใจมาก การเปลี่ยนแปลงมีขนาดเล็กจึงทำให้คนอื่นนำไปใช้ตามได้ง่าย อย่างไรก็ตาม ประโยคสุดท้ายของส่วน "2 Differential Transformer" ไม่ชัดเจนและอาจส่งผลต่อการเปรียบเทียบได้
ในโลกใหม่ของแมชชีนเลิร์นนิง รู้สึกสับสนว่าทำไมวิธีแบบนี้ถึงได้ผล อุปมาเรื่องหูฟังตัดเสียงรบกวนช่วยได้ แต่ในที่นี้เราไม่สามารถแยกสัญญาณกับสัญญาณรบกวนได้อย่างชัดเจน
Differential attention ใช้ความต่างของฟังก์ชัน attention แบบ softmax สองตัวเพื่อลด noise ใน attention สถาปัตยกรรมนี้ใช้หน่วยความจำ attention เป็นสองเท่าเพื่อให้ได้โมเดลคุณภาพสูงกว่า หรือใช้พารามิเตอร์น้อยลงเมื่อคุณภาพใกล้เคียงกัน
ถ้า attention ของทั้งสองกลุ่มเรียนรู้สิ่งเดียวกัน attention mask จะหักล้างกันจน attention กลายเป็น 0 และทำให้ loss สูงขึ้น เพื่อลด loss จึงต้องเรียนรู้คนละอย่าง กลยุทธ์ที่เรียนรู้คือให้กลุ่มหนึ่งโฟกัสที่บริบทที่เกี่ยวข้อง และอีกกลุ่มโฟกัสที่บริบทที่ไม่เกี่ยวข้อง
การตั้งค่า λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) ทำงานได้ดีในเชิงทดลอง จึงสงสัยว่าที่มาของสูตรนี้คืออะไร
สงสัยว่าการกำจัด positional noise มีคุณค่ามากแค่ไหน อยากเห็นตารางเปรียบเทียบระหว่างเวอร์ชัน alibi กับ baseline แบบ alibi ขอแสดงความยินดีกับนักวิจัย
สงสัยว่าสิ่งที่สูญเสียไปในที่นี้คืออะไร และมีผลต่อความคิดสร้างสรรค์หรือความสามารถในการเชื่อมโยงแนวคิดระหว่างกันอย่างไร รู้สึกว่าอาการหลอนกับความคิดสร้างสรรค์มีความเกี่ยวข้องกันมาก
การแก้ปัญหานั้นดี แต่คิดว่าแนวทางนี้ผิดทาง ควรทำความเข้าใจบริบททั้งหมดแบบลำดับชั้น หากคำนวณเวกเตอร์ความต่างจากอินพุตเดียวกับเวกเตอร์ attention ก็จะไม่รู้ว่าจะปรับเวกเตอร์ attention ให้ถูกต้องได้อย่างไร
สงสัยว่า softmax ไม่สามารถกดค่าให้เป็น 0 ได้ แต่การนำแผนที่ softmax สองอันมาลบกันจะทำให้ได้ผลลัพธ์เป็น 0 ได้จริงหรือไม่