-
แนะนำ benchmark Putnam-AXIOM
- Putnam-AXIOM เป็น benchmark ที่ท้าทายเพื่อประเมินความสามารถในการอนุมานทางคณิตศาสตร์ของโมเดลภาษาใหญ่ (LLM)
- รวมโจทย์คณิตศาสตร์จำนวน 236 ข้อจาก William Lowell Putnam Mathematical Competition พร้อมคำอธิบายแบบเป็นขั้นตอน
- เพื่อป้องกันการปนเปื้อนข้อมูล ได้สร้าง benchmark แปรผัน Putnam-AXIOM Variation โดยการแปลงเชิงหน้าที่ต่อ 52 ข้อ
- โดยการเปลี่ยนแปลงองค์ประกอบของโจทย์ เช่น ตัวแปร ค่าคงที่ ฯลฯ แบบเชิงโปรแกรม จึงสามารถสร้างโจทย์ใหม่ที่ไม่มีอยู่ในออนไลน์ได้อย่างไม่สิ้นสุด
-
ความสำคัญของ benchmark และผลลัพธ์
- โมเดลส่วนใหญ่มีความแม่นยำลดลงอย่างมากบนปัญหาที่ถูกแปลงแล้วเมื่อเทียบกับปัญหาเดิม
- โมเดล O1-preview ของ OpenAI มีความแม่นยำ 41.95% ใน Putnam-AXIOM Original แต่ประสบกับการลดลงของความแม่นยำประมาณ 30% บนชุดข้อมูลที่แปลงแล้ว
-
ข้อคิดเห็นจากรีวิวเออร์
- รีวิวเออร์ 9XA: benchmark นี้ถูกออกแบบเพื่อให้ความรบกวนน้อยที่สุดในด้านการฟอร์แมตโจทย์ การตรวจสอบความเทียบเท่าคำตอบ ฯลฯ อย่างไรก็ตาม ระดับการป้องกันการปนเปื้อนอาจยังไม่เพียงพอ เนื่องจากการแปลงเชิงหน้าที่ถูกใช้กับเพียง 53 ข้อ ซึ่งอาจทำให้ความสามารถในการประเมินลดลง
- รีวิวเออร์ krr4: ชุดข้อมูลประกอบด้วยตัวอย่างจำนวน 236 ข้อ อาจทำให้ benchmark นี้ยังไม่เป็นรูปธรรมมากนัก โดยส่วนใหญ่แล้วโมเดลมีความแม่นยำต่ำ จึงควรเพิ่มความซับซ้อนแบบลำดับชั้นของระดับความยาก
- รีวิวเออร์ Nbvs: เป็นการมีส่วนร่วมที่ดีในการจัดหาชุดปัญหาที่ท้าทายเพื่อประเมินความสามารถในการแก้ปัญหาคณิตศาสตร์ การแปลงปัญหาอาจเป็นกลยุทธ์ที่ดีในการลดการรั่วไหลในระบบการประเมินปัจจุบันที่อาศัยกล่องไว้เป็นหลัก
- รีวิวเออร์ MsMi: เป็น benchmark การอนุมานเชิงวิเคราะห์ที่ยากและใหม่ โดยแม้แต่โมเดลที่ทรงพลังก็ยังทำได้ไม่ดีบน benchmark นี้ แม้ว่าจะมีการกำหนดให้ใช้คำสั่ง
\boxed{}ซึ่งจำกัดความสามารถในการแสดงผลของ benchmark
-
คำถามและข้อเสนอแนะเพิ่มเติม
- คำถามเกี่ยวกับจำนวนปัญหาที่ถูกให้คะแนนผิดพลาดเนื่องจากไม่ได้ใช้คำสั่ง
\boxed{}อย่างถูกต้อง - คำถามเกี่ยวกับวิธีการเชิงอัลกอริทึมในการปรับโจทย์ต่อเนื่อง เพื่อคง dataset ที่ไม่มีโมเดลใดจำได้หมด
- คำถามเกี่ยวกับจำนวนปัญหาที่ถูกให้คะแนนผิดพลาดเนื่องจากไม่ได้ใช้คำสั่ง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
มีความเห็นว่ามีช่วงหนึ่งที่ ChatGPT ตอบคำถามว่า “10 ปอนด์ขนกับ 10 ปอนด์อิฐ อันไหนหนักกว่ากัน?” ได้อย่างถูกต้อง แต่หากมีการเปลี่ยนคำถามเพียงเล็กน้อย ประสิทธิภาพจะลดลง
มีความเห็นว่าอยากเห็นการทดลองที่ฝึกโมเดลด้วยข้อมูลที่ดิจิทัลทั้งหมดก่อนปี 1905 แล้วถามเกี่ยวกับสูตรความเสมอภาคมวล-พลังงาน
มีความเห็นว่าประสิทธิภาพการทำงานจริงของ LLM คล้ายกับการท่องแบบยัดเยียดของนักเรียนเพื่อเตรียมตัวสอบแบบเอเชีย
มีความเห็นว่าเมื่อปรับอินพุตเพียงเล็กน้อย โมเดลอาจกลับไปตอบคำถามที่มันคาดหวังและให้คำตอบผิด
มีความเห็นว่า LLM ยังยังคงเก่งมากในการแก้ปัญหาคณิตศาสตร์และการแข่งขันเขียนโปรแกรมที่ยากมาก
มีคำถามถึงว่าโมเดลถูก hardcode สำหรับเกณฑ์วัดแบบสุ่มในตอนนี้เป็นความลับที่เปิดเผยกันทั่วไปหรือไม่
มีความเห็นว่า การปรับโครงสร้างปัญหาก็สามารถทำให้มนุษย์สับสนได้ด้วย
มีความเห็นว่าแม้การจับคู่แบบรูปแบบจะทำได้อย่างมีประสิทธิภาพมาก แต่เมื่อเปลี่ยนรูปแบบแล้วมันก็ไม่สามารถทำงานได้
มีความเห็นที่ชี้ว่า OpenAI ไม่ได้อ้างว่าคู่แข่งของมันเด่นชัดในชุดข้อมูลเฉพาะ
มีความเห็นว่าสามารถเห็นการปรับปรุงจาก o1-preview เป็น o1 และให้คำตอบที่ถูกต้องกับปัญหาที่ถูกแก้ไขแล้ว