GSM-Symbolic: ทำความเข้าใจข้อจำกัดของการให้เหตุผลทางคณิตศาสตร์ของโมเดลภาษาขนาดใหญ่
- ความก้าวหน้าของโมเดลภาษาขนาดใหญ่ (LLM) ในช่วงหลังได้จุดกระแสความสนใจต่อความสามารถในการให้เหตุผลเชิงรูปแบบในคณิตศาสตร์
- ชุดทดสอบ GSM8K ถูกใช้อย่างแพร่หลายเพื่อประเมินการให้เหตุผลทางคณิตศาสตร์ของโมเดลด้วยคำถามระดับประถมศึกษา
- แม้ประสิทธิภาพของ LLM บน GSM8K จะดีขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมา แต่ก็ยังไม่ชัดเจนว่าความสามารถในการให้เหตุผลทางคณิตศาสตร์ได้พัฒนาขึ้นจริงหรือไม่
- เพื่อแก้ปัญหานี้ จึงมีการศึกษาขนาดใหญ่กับโมเดลสมัยใหม่หลายตัว ทั้งแบบเปิดและแบบปิด
- เพื่อก้าวข้ามข้อจำกัดของการประเมินแบบเดิม งานวิจัยนี้ได้แนะนำ GSM-Symbolic ซึ่งเป็นชุดทดสอบที่ปรับปรุงใหม่ โดยประกอบด้วยเทมเพลตเชิงสัญลักษณ์ที่ช่วยให้สร้างคำถามได้หลากหลาย
- GSM-Symbolic ทำให้การประเมินมีการควบคุมมากขึ้น จึงเป็นตัวชี้วัดที่น่าเชื่อถือกว่าสำหรับการวัดความสามารถในการให้เหตุผล
- ผลการวิจัยพบว่า LLM แสดงความแปรปรวนอย่างชัดเจนเมื่อถูกถามด้วยเวอร์ชันที่ต่างกันของคำถามเดียวกัน
- โดยเฉพาะอย่างยิ่ง ในชุดทดสอบ GSM-Symbolic เพียงแค่เปลี่ยนค่าตัวเลขในคำถามก็ทำให้ประสิทธิภาพของทุกโมเดลลดลง
- นอกจากนี้ ยังมีการตรวจสอบความเปราะบางของการให้เหตุผลทางคณิตศาสตร์ของโมเดลเหล่านี้ และแสดงให้เห็นว่ายิ่งจำนวนอนุประโยคในคำถามเพิ่มขึ้น ประสิทธิภาพก็ยิ่งลดลงอย่างมาก
- งานวิจัยตั้งสมมติฐานว่าเป็นเพราะ LLM ในปัจจุบันยังไม่สามารถให้เหตุผลเชิงตรรกะอย่างแท้จริงได้ และอาศัยการเลียนแบบขั้นตอนการให้เหตุผลจากข้อมูลฝึก
- หากเพิ่มอนุประโยคที่ดูเหมือนเกี่ยวข้องกับคำถามเข้าไปหนึ่งข้อ แม้จะไม่ช่วยต่อห่วงโซ่การให้เหตุผลที่จำเป็นต่อคำตอบสุดท้าย ก็อาจทำให้ประสิทธิภาพของโมเดลสมัยใหม่ทั้งหมดลดลงได้สูงสุดถึง 65%
สรุปโดย GN⁺
- งานวิจัยนี้ช่วยให้เข้าใจความสามารถและข้อจำกัดของการให้เหตุผลทางคณิตศาสตร์ของโมเดลภาษาขนาดใหญ่ได้ละเอียดมากขึ้น
- ชุดทดสอบ GSM-Symbolic มอบเครื่องมือที่ช่วยประเมินความสามารถในการให้เหตุผลของโมเดลได้แม่นยำยิ่งขึ้นผ่านคำถามที่หลากหลาย
- งานวิจัยนี้แสดงให้เห็นว่า LLM มีแนวโน้มจะเลียนแบบขั้นตอนการให้เหตุผลจากข้อมูลฝึกมากกว่าจะให้เหตุผลเชิงตรรกะจริง
- ชุดทดสอบอื่นที่แนะนำสำหรับการประเมินความสามารถในการให้เหตุผลทางคณิตศาสตร์ ได้แก่ MATH และ MATHQA
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News