LoPE: การเติมข้อความภาษาละตินแบบสุ่มไว้ข้างหน้าช่วยเพิ่มความสามารถการให้เหตุผลของ LLM (บทความ arXiv)

สรุปประเด็นสำคัญ

LoPE คือเทคนิคที่แทรก Lorem ipsum dolor sit amet ... ไว้หน้าพรอมป์ต์ระหว่างการฝึกแบบ RL ซึ่งช่วยแก้ปัญหา "zero-advantage" ที่สัญญาณการเรียนรู้จะกลายเป็น 0 เมื่อทุกตัวอย่างล้มเหลวในโจทย์ยาก

ผลลัพธ์สำคัญ:

  • บน Qwen3-4B คะแนนเฉลี่ยของชุดทดสอบคณิตศาสตร์เพิ่มขึ้น +4.62 คะแนน
  • ใน AMC 2023 ประสิทธิภาพสัมพัทธ์ดีขึ้น 22%
  • เป็นวิธีเดียวที่ผ่านโจทย์ยาก 50 ข้อซึ่งวิธีเดิมทั้งหมดล้มเหลว

จุดที่น่าอ่าน

เหตุผลที่ "ข้อความไร้ความหมายที่ดูเหมือนภาษา" ซึ่งมีฐานจากภาษาละตินจึงได้ผล และกลไกที่มันรบกวนวิถีการให้เหตุผลพื้นฐานของโมเดลเพื่อเพิ่มความหลากหลายในการสำรวจ เป็นประเด็นที่น่าสนใจ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น