1 คะแนน โดย GN⁺ 2024-10-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Transformer มักมีแนวโน้มที่จะจัดสรรความสนใจมากเกินไปให้กับบริบทที่ไม่เกี่ยวข้อง

  • Diff Transformer เสนอแนวทางใหม่ที่ช่วยขยายความสนใจต่อบริบทที่เกี่ยวข้องและกำจัดสัญญาณรบกวน

  • กลไกความสนใจแบบเชิงแตกต่าง

    • คำนวณคะแนนความสนใจผ่านความแตกต่างของแผนที่ความสนใจแบบ softmax สองชุดที่แยกจากกัน
    • การหักลบนี้ช่วยกำจัดสัญญาณรบกวนและส่งเสริมการเกิดขึ้นของรูปแบบความสนใจแบบเบาบาง
  • ผลการทดลอง

    • ในการทดลองด้าน language modeling นั้น Diff Transformer แสดงประสิทธิภาพเหนือกว่า Transformer ในหลายขนาดโมเดลและการตั้งค่าจำนวนโทเค็นฝึก
    • ในการใช้งานจริง มีข้อได้เปรียบที่น่าสนใจในด้านการสร้างแบบจำลองบริบทยาว การดึงข้อมูลสำคัญ การบรรเทาอาการหลอน การเรียนรู้ในบริบท และการลด activation outlier
  • ข้อดีเชิงปฏิบัติ

    • ถูกรบกวนจากบริบทที่ไม่เกี่ยวข้องน้อยลง จึงช่วยบรรเทาอาการหลอนในการตอบคำถามและการสรุปข้อความได้
    • ไม่เพียงช่วยเพิ่มความแม่นยำของการเรียนรู้ในบริบท แต่ยังเพิ่มความทนทานต่อการสลับลำดับอีกด้วย
  • บทสรุป

    • Diff Transformer ถูกวางตำแหน่งให้เป็นสถาปัตยกรรมที่มีประสิทธิภาพสูงและมีอนาคตสดใสสำหรับการพัฒนา large language model

สรุปโดย GN⁺

  • Diff Transformer เป็นสถาปัตยกรรมใหม่ที่ถูกเสนอขึ้นเพื่อก้าวข้ามข้อจำกัดของ Transformer โดยมุ่งเน้นการขยายความสนใจต่อบริบทที่เกี่ยวข้องและกำจัดสัญญาณรบกวนที่ไม่จำเป็น
  • งานวิจัยนี้เน้นย้ำถึงการยกระดับประสิทธิภาพของ large language model โดยเฉพาะข้อได้เปรียบในการใช้งานจริง เช่น การสร้างแบบจำลองบริบทยาว
  • ช่วยลดการถูกรบกวนจากบริบทที่ไม่เกี่ยวข้อง จึงบรรเทาอาการหลอน และช่วยเพิ่มทั้งความแม่นยำและความทนทานของการเรียนรู้ในบริบท

1 ความคิดเห็น

 
GN⁺ 2024-10-09
ความเห็นบน Hacker News
  • กลไก attention แบบ softmax ทั่วไปมีปัญหาในการกำหนดค่าน้ำหนัก attention ที่ใกล้ 0 ให้กับข้อมูลที่ไม่เกี่ยวข้อง วิธีใหม่นี้แก้ปัญหานั้นได้ แต่ก็อาจทำให้เกิดค่าน้ำหนัก attention ติดลบได้เช่นกัน จึงยากที่จะเข้าใจว่าเครือข่ายจัดการเรื่องนี้อย่างไร

  • งานเชิงรายละเอียดแบบนี้น่าสนใจมาก การเปลี่ยนแปลงมีขนาดเล็กจึงทำให้คนอื่นนำไปใช้ตามได้ง่าย อย่างไรก็ตาม ประโยคสุดท้ายของส่วน "2 Differential Transformer" ไม่ชัดเจนและอาจส่งผลต่อการเปรียบเทียบได้

  • ในโลกใหม่ของแมชชีนเลิร์นนิง รู้สึกสับสนว่าทำไมวิธีแบบนี้ถึงได้ผล อุปมาเรื่องหูฟังตัดเสียงรบกวนช่วยได้ แต่ในที่นี้เราไม่สามารถแยกสัญญาณกับสัญญาณรบกวนได้อย่างชัดเจน

  • Differential attention ใช้ความต่างของฟังก์ชัน attention แบบ softmax สองตัวเพื่อลด noise ใน attention สถาปัตยกรรมนี้ใช้หน่วยความจำ attention เป็นสองเท่าเพื่อให้ได้โมเดลคุณภาพสูงกว่า หรือใช้พารามิเตอร์น้อยลงเมื่อคุณภาพใกล้เคียงกัน

    • DIFF Transformer ขนาด 6.8B ทำ validation loss ได้ใกล้เคียงกับ Transformer ขนาด 11B โดยใช้พารามิเตอร์เพียง 62.2%
    • สงสัยว่าถ้าใช้พารามิเตอร์เพียง 60% จะยังคงมี memory profile ใกล้เคียงกับ transformer แบบดั้งเดิมได้หรือไม่
    • สงสัยว่า trade-off นี้เปลี่ยนไปอย่างเห็นได้ชัดระหว่างการฝึกกับการอนุมานหรือไม่
  • ถ้า attention ของทั้งสองกลุ่มเรียนรู้สิ่งเดียวกัน attention mask จะหักล้างกันจน attention กลายเป็น 0 และทำให้ loss สูงขึ้น เพื่อลด loss จึงต้องเรียนรู้คนละอย่าง กลยุทธ์ที่เรียนรู้คือให้กลุ่มหนึ่งโฟกัสที่บริบทที่เกี่ยวข้อง และอีกกลุ่มโฟกัสที่บริบทที่ไม่เกี่ยวข้อง

  • การตั้งค่า λᵢₙᵢₜ = 0.8 − 0.6 × exp(−0.3 · (l − 1)) ทำงานได้ดีในเชิงทดลอง จึงสงสัยว่าที่มาของสูตรนี้คืออะไร

  • สงสัยว่าการกำจัด positional noise มีคุณค่ามากแค่ไหน อยากเห็นตารางเปรียบเทียบระหว่างเวอร์ชัน alibi กับ baseline แบบ alibi ขอแสดงความยินดีกับนักวิจัย

  • สงสัยว่าสิ่งที่สูญเสียไปในที่นี้คืออะไร และมีผลต่อความคิดสร้างสรรค์หรือความสามารถในการเชื่อมโยงแนวคิดระหว่างกันอย่างไร รู้สึกว่าอาการหลอนกับความคิดสร้างสรรค์มีความเกี่ยวข้องกันมาก

  • การแก้ปัญหานั้นดี แต่คิดว่าแนวทางนี้ผิดทาง ควรทำความเข้าใจบริบททั้งหมดแบบลำดับชั้น หากคำนวณเวกเตอร์ความต่างจากอินพุตเดียวกับเวกเตอร์ attention ก็จะไม่รู้ว่าจะปรับเวกเตอร์ attention ให้ถูกต้องได้อย่างไร

  • สงสัยว่า softmax ไม่สามารถกดค่าให้เป็น 0 ได้ แต่การนำแผนที่ softmax สองอันมาลบกันจะทำให้ได้ผลลัพธ์เป็น 0 ได้จริงหรือไม่