2 คะแนน โดย GN⁺ 2024-10-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

GSM-Symbolic: ทำความเข้าใจข้อจำกัดของการให้เหตุผลทางคณิตศาสตร์ของโมเดลภาษาขนาดใหญ่

  • ความก้าวหน้าของโมเดลภาษาขนาดใหญ่ (LLM) ในช่วงหลังได้จุดกระแสความสนใจต่อความสามารถในการให้เหตุผลเชิงรูปแบบในคณิตศาสตร์
  • ชุดทดสอบ GSM8K ถูกใช้อย่างแพร่หลายเพื่อประเมินการให้เหตุผลทางคณิตศาสตร์ของโมเดลด้วยคำถามระดับประถมศึกษา
  • แม้ประสิทธิภาพของ LLM บน GSM8K จะดีขึ้นอย่างมากในช่วงไม่กี่ปีที่ผ่านมา แต่ก็ยังไม่ชัดเจนว่าความสามารถในการให้เหตุผลทางคณิตศาสตร์ได้พัฒนาขึ้นจริงหรือไม่
  • เพื่อแก้ปัญหานี้ จึงมีการศึกษาขนาดใหญ่กับโมเดลสมัยใหม่หลายตัว ทั้งแบบเปิดและแบบปิด
  • เพื่อก้าวข้ามข้อจำกัดของการประเมินแบบเดิม งานวิจัยนี้ได้แนะนำ GSM-Symbolic ซึ่งเป็นชุดทดสอบที่ปรับปรุงใหม่ โดยประกอบด้วยเทมเพลตเชิงสัญลักษณ์ที่ช่วยให้สร้างคำถามได้หลากหลาย
  • GSM-Symbolic ทำให้การประเมินมีการควบคุมมากขึ้น จึงเป็นตัวชี้วัดที่น่าเชื่อถือกว่าสำหรับการวัดความสามารถในการให้เหตุผล
  • ผลการวิจัยพบว่า LLM แสดงความแปรปรวนอย่างชัดเจนเมื่อถูกถามด้วยเวอร์ชันที่ต่างกันของคำถามเดียวกัน
  • โดยเฉพาะอย่างยิ่ง ในชุดทดสอบ GSM-Symbolic เพียงแค่เปลี่ยนค่าตัวเลขในคำถามก็ทำให้ประสิทธิภาพของทุกโมเดลลดลง
  • นอกจากนี้ ยังมีการตรวจสอบความเปราะบางของการให้เหตุผลทางคณิตศาสตร์ของโมเดลเหล่านี้ และแสดงให้เห็นว่ายิ่งจำนวนอนุประโยคในคำถามเพิ่มขึ้น ประสิทธิภาพก็ยิ่งลดลงอย่างมาก
  • งานวิจัยตั้งสมมติฐานว่าเป็นเพราะ LLM ในปัจจุบันยังไม่สามารถให้เหตุผลเชิงตรรกะอย่างแท้จริงได้ และอาศัยการเลียนแบบขั้นตอนการให้เหตุผลจากข้อมูลฝึก
  • หากเพิ่มอนุประโยคที่ดูเหมือนเกี่ยวข้องกับคำถามเข้าไปหนึ่งข้อ แม้จะไม่ช่วยต่อห่วงโซ่การให้เหตุผลที่จำเป็นต่อคำตอบสุดท้าย ก็อาจทำให้ประสิทธิภาพของโมเดลสมัยใหม่ทั้งหมดลดลงได้สูงสุดถึง 65%

สรุปโดย GN⁺

  • งานวิจัยนี้ช่วยให้เข้าใจความสามารถและข้อจำกัดของการให้เหตุผลทางคณิตศาสตร์ของโมเดลภาษาขนาดใหญ่ได้ละเอียดมากขึ้น
  • ชุดทดสอบ GSM-Symbolic มอบเครื่องมือที่ช่วยประเมินความสามารถในการให้เหตุผลของโมเดลได้แม่นยำยิ่งขึ้นผ่านคำถามที่หลากหลาย
  • งานวิจัยนี้แสดงให้เห็นว่า LLM มีแนวโน้มจะเลียนแบบขั้นตอนการให้เหตุผลจากข้อมูลฝึกมากกว่าจะให้เหตุผลเชิงตรรกะจริง
  • ชุดทดสอบอื่นที่แนะนำสำหรับการประเมินความสามารถในการให้เหตุผลทางคณิตศาสตร์ ได้แก่ MATH และ MATHQA

1 ความคิดเห็น

 
GN⁺ 2024-10-13
ความคิดเห็นจาก Hacker News
  • ประสิทธิภาพที่ลดลงของ LLM คล้ายกับความสามารถในการแก้ปัญหาของนักศึกษาปีหนึ่งในมหาวิทยาลัย กล่าวคือจัดการปัญหาง่าย ๆ ได้ดี แต่เมื่อเป็นปัญหาที่ต้องเชื่อมหลายขั้นตอนเข้าด้วยกัน ความแม่นยำจะลดลง ซึ่งหมายความว่า LLM อาจมีความคิดเชิงตรรกะในระดับผู้จบมัธยมปลาย
    • ตัวอย่างเช่น เมื่อโจทย์มีข้อมูลที่ไม่จำเป็นรวมอยู่ด้วย ประสิทธิภาพของ LLM จะลดลงอย่างมาก ซึ่งเป็นสถานการณ์ที่มนุษย์เองก็อาจเจอได้เช่นกันเมื่ออ่านโจทย์ที่มีข้อมูลส่วนเกิน
  • ผลการศึกษาจุดอ่อนของการให้เหตุผลทางคณิตศาสตร์พบว่า ยิ่งคำถามมีหลายวลีหรือหลายเงื่อนไขมากขึ้น ประสิทธิภาพก็ยิ่งลดลง ซึ่งอาจเป็นเพราะ LLM ไม่สามารถให้เหตุผลเชิงตรรกะที่แท้จริงได้
    • ในกระบวนการโทเคไนซ์ การคาดเดาคำตอบของโจทย์เลขคณิตง่าย ๆ อาจกลายเป็นสิ่งไร้ความหมาย เรื่องนี้ชี้ให้เห็นถึงความจำเป็นของการใช้เครื่องมือ แต่ก็สะท้อนผลลบต่อการให้เหตุผลเชิงตรรกะที่แท้จริง
  • มีผลลัพธ์คล้ายกับปัญหา "Alice in Wonderland" ซึ่งอาจเป็นปัญหาของโมเดลที่อยู่ในสภาวะกึ่งกลางระหว่างการจับแพตเทิร์นกับการให้เหตุผล
    • สิ่งนี้บ่งชี้ว่าผลลัพธ์ของ LLM benchmark ด้านคณิตศาสตร์และการให้เหตุผลอาจเชื่อถือไม่ได้ เพราะตัวอักษร ตัวเลข และโครงสร้างประโยคของโจทย์ส่งผลต่อผลลัพธ์อย่างมาก
  • ใน GSM-Symbolic benchmark เพียงแค่เปลี่ยนค่าตัวเลข ประสิทธิภาพของทุกโมเดลก็ลดลงแล้ว นี่เป็นหลักฐานของการ overfit และแสดงให้เห็นว่า LLM มีข้อจำกัดพื้นฐานในการเรียนรู้การให้เหตุผลทางคณิตศาสตร์
  • วิธี "คิด" ของ LLM อยู่ในระดับที่สามารถผ่านหลักสูตรของโรงเรียนส่วนใหญ่ได้ อย่างไรก็ตาม หากเจอครูที่ออกข้อสอบโดยไม่พึ่งการจับแพตเทิร์น ก็อาจประสบปัญหาได้
  • ในปริศนาเชิงตรรกะที่เป็นที่รู้จักกันดี LLM จะไม่สามารถแก้ปัญหาได้หากมีการเปลี่ยนองค์ประกอบบางอย่าง ซึ่งแสดงว่า LLM ไม่สามารถให้เหตุผลเชิงรูปแบบได้
  • แม้ LLM จะไม่สามารถให้เหตุผลเชิงรูปแบบได้ แต่ก็สามารถแก้ปัญหาเชิงตรรกะจำนวนมากได้ด้วยการประยุกต์ใช้ "ขั้นตอนการให้เหตุผล" จากข้อมูลฝึกฝน ซึ่งเป็นความย้อนแย้งที่น่าสนใจ
  • งานวิจัยที่แสดงขีดจำกัดของการให้เหตุผลทางคณิตศาสตร์ของมนุษย์และสัตว์ก็น่าจะน่าสนใจเช่นกัน อาจมีแนวคิดบางอย่างที่มนุษย์ไม่สามารถเข้าใจได้ และทำให้น่าคิดต่อว่าเราจะสร้างเครื่องจักรที่ให้เหตุผลในแบบที่มนุษย์ทำไม่ได้หรือไม่