LoPE: การเติมข้อความภาษาละตินแบบสุ่มไว้ข้างหน้าช่วยเพิ่มความสามารถการให้เหตุผลของ LLM (บทความ arXiv)
สรุปประเด็นสำคัญ
LoPE คือเทคนิคที่แทรก Lorem ipsum dolor sit amet ... ไว้หน้าพรอมป์ต์ระหว่างการฝึกแบบ RL ซึ่งช่วยแก้ปัญหา "zero-advantage" ที่สัญญาณการเรียนรู้จะกลายเป็น 0 เมื่อทุกตัวอย่างล้มเหลวในโจทย์ยาก
ผลลัพธ์สำคัญ:
- บน Qwen3-4B คะแนนเฉลี่ยของชุดทดสอบคณิตศาสตร์เพิ่มขึ้น +4.62 คะแนน
- ใน AMC 2023 ประสิทธิภาพสัมพัทธ์ดีขึ้น 22%
- เป็นวิธีเดียวที่ผ่านโจทย์ยาก 50 ข้อซึ่งวิธีเดิมทั้งหมดล้มเหลว
จุดที่น่าอ่าน
เหตุผลที่ "ข้อความไร้ความหมายที่ดูเหมือนภาษา" ซึ่งมีฐานจากภาษาละตินจึงได้ผล และกลไกที่มันรบกวนวิถีการให้เหตุผลพื้นฐานของโมเดลเพื่อเพิ่มความหลากหลายในการสำรวจ เป็นประเด็นที่น่าสนใจ
ยังไม่มีความคิดเห็น