• พฤติกรรมเชิงการรู้คิดทำให้ผู้ให้เหตุผลแบบพัฒนาตนเองเป็นไปได้อย่างไร หรือ 4 นิสัยของ STaRs ที่มีประสิทธิภาพสูงมาก

  • การให้เหตุผลขณะทดสอบ: เป็นกรอบแนวคิดที่ทรงพลังซึ่งช่วยให้โมเดลภาษาคิดกับปัญหาที่ซับซ้อนได้ยาวนานและรอบคอบยิ่งขึ้น การเรียนรู้แบบเสริมกำลัง (RL) สามารถส่งเสริมการพัฒนาตนเองของโมเดลภาษาในงานที่ตรวจสอบได้ แต่บางโมเดลให้ผลลัพธ์ที่โดดเด่น ขณะที่บางโมเดลกลับหยุดนิ่งอย่างรวดเร็ว ตัวอย่างเช่น Qwen-2.5-3B ทำผลงานได้เหนือกว่า Llama-3.2-3B อย่างมากภายใต้การฝึก RL แบบเดียวกัน

  • คุณสมบัติภายใน: มีการตั้งคำถามถึงคุณสมบัติภายในที่ทำให้การพัฒนาตนเองอย่างมีประสิทธิภาพเป็นไปได้ เพื่อศึกษาประเด็นนี้ จึงมีการนำเสนอกรอบการวิเคราะห์พฤติกรรมเชิงการรู้คิดหลัก 4 แบบ ได้แก่ การตรวจสอบ การย้อนกลับ การตั้งเป้าหมายย่อย และการเชนย้อนกลับ พฤติกรรมเหล่านี้เป็นสิ่งที่ทั้งผู้แก้ปัญหามนุษย์ระดับผู้เชี่ยวชาญและโมเดลภาษาที่ประสบความสำเร็จใช้งาน

  • ผลการทดลอง: Qwen แสดงพฤติกรรมการให้เหตุผลเหล่านี้โดยธรรมชาติ ขณะที่ Llama ยังขาดอยู่ในช่วงแรก จากการทดลองอย่างเป็นระบบโดยใช้ชุดข้อมูลพฤติกรรมแบบควบคุม พบว่าเมื่อเตรียม Llama ด้วยตัวอย่างที่มีพฤติกรรมการให้เหตุผลเหล่านี้ ก็สามารถพัฒนาได้อย่างมากระหว่าง RL จนมีประสิทธิภาพทัดเทียมหรือเหนือกว่า Qwen

  • ความสำคัญของพฤติกรรมการให้เหตุผล: ปัจจัยสำคัญคือการมีอยู่ของพฤติกรรมการให้เหตุผล มากกว่าความถูกต้องของคำตอบ โมเดลที่เตรียมด้วยวิธีแก้ปัญหาที่ผิดแต่มีรูปแบบการให้เหตุผลที่ถูกต้อง สามารถทำผลงานได้ใกล้เคียงกับโมเดลที่ฝึกด้วยวิธีแก้ปัญหาที่ถูกต้อง

  • การพรีเทรนต่อเนื่อง: การกรองข้อมูล OpenWebMath เพื่อขยายพฤติกรรมการให้เหตุผล ช่วยให้โมเดล Llama สามารถเดินตามเส้นทางการพัฒนาตนเองของ Qwen ได้ งานนี้จึงยืนยันความสัมพันธ์พื้นฐานระหว่างพฤติกรรมการให้เหตุผลตั้งต้นกับความสามารถในการพัฒนา และอธิบายได้ว่าทำไมโมเดลภาษาบางตัวจึงใช้ประโยชน์จากการคำนวณเพิ่มเติมได้อย่างมีประสิทธิภาพ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น