1 คะแนน โดย GN⁺ 2025-01-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แนะนำ benchmark Putnam-AXIOM

    • Putnam-AXIOM เป็น benchmark ที่ท้าทายเพื่อประเมินความสามารถในการอนุมานทางคณิตศาสตร์ของโมเดลภาษาใหญ่ (LLM)
    • รวมโจทย์คณิตศาสตร์จำนวน 236 ข้อจาก William Lowell Putnam Mathematical Competition พร้อมคำอธิบายแบบเป็นขั้นตอน
    • เพื่อป้องกันการปนเปื้อนข้อมูล ได้สร้าง benchmark แปรผัน Putnam-AXIOM Variation โดยการแปลงเชิงหน้าที่ต่อ 52 ข้อ
    • โดยการเปลี่ยนแปลงองค์ประกอบของโจทย์ เช่น ตัวแปร ค่าคงที่ ฯลฯ แบบเชิงโปรแกรม จึงสามารถสร้างโจทย์ใหม่ที่ไม่มีอยู่ในออนไลน์ได้อย่างไม่สิ้นสุด
  • ความสำคัญของ benchmark และผลลัพธ์

    • โมเดลส่วนใหญ่มีความแม่นยำลดลงอย่างมากบนปัญหาที่ถูกแปลงแล้วเมื่อเทียบกับปัญหาเดิม
    • โมเดล O1-preview ของ OpenAI มีความแม่นยำ 41.95% ใน Putnam-AXIOM Original แต่ประสบกับการลดลงของความแม่นยำประมาณ 30% บนชุดข้อมูลที่แปลงแล้ว
  • ข้อคิดเห็นจากรีวิวเออร์

    • รีวิวเออร์ 9XA: benchmark นี้ถูกออกแบบเพื่อให้ความรบกวนน้อยที่สุดในด้านการฟอร์แมตโจทย์ การตรวจสอบความเทียบเท่าคำตอบ ฯลฯ อย่างไรก็ตาม ระดับการป้องกันการปนเปื้อนอาจยังไม่เพียงพอ เนื่องจากการแปลงเชิงหน้าที่ถูกใช้กับเพียง 53 ข้อ ซึ่งอาจทำให้ความสามารถในการประเมินลดลง
    • รีวิวเออร์ krr4: ชุดข้อมูลประกอบด้วยตัวอย่างจำนวน 236 ข้อ อาจทำให้ benchmark นี้ยังไม่เป็นรูปธรรมมากนัก โดยส่วนใหญ่แล้วโมเดลมีความแม่นยำต่ำ จึงควรเพิ่มความซับซ้อนแบบลำดับชั้นของระดับความยาก
    • รีวิวเออร์ Nbvs: เป็นการมีส่วนร่วมที่ดีในการจัดหาชุดปัญหาที่ท้าทายเพื่อประเมินความสามารถในการแก้ปัญหาคณิตศาสตร์ การแปลงปัญหาอาจเป็นกลยุทธ์ที่ดีในการลดการรั่วไหลในระบบการประเมินปัจจุบันที่อาศัยกล่องไว้เป็นหลัก
    • รีวิวเออร์ MsMi: เป็น benchmark การอนุมานเชิงวิเคราะห์ที่ยากและใหม่ โดยแม้แต่โมเดลที่ทรงพลังก็ยังทำได้ไม่ดีบน benchmark นี้ แม้ว่าจะมีการกำหนดให้ใช้คำสั่ง \boxed{} ซึ่งจำกัดความสามารถในการแสดงผลของ benchmark
  • คำถามและข้อเสนอแนะเพิ่มเติม

    • คำถามเกี่ยวกับจำนวนปัญหาที่ถูกให้คะแนนผิดพลาดเนื่องจากไม่ได้ใช้คำสั่ง \boxed{} อย่างถูกต้อง
    • คำถามเกี่ยวกับวิธีการเชิงอัลกอริทึมในการปรับโจทย์ต่อเนื่อง เพื่อคง dataset ที่ไม่มีโมเดลใดจำได้หมด

1 ความคิดเห็น

 
GN⁺ 2025-01-02
ความคิดเห็นจาก Hacker News
  • มีความเห็นว่ามีช่วงหนึ่งที่ ChatGPT ตอบคำถามว่า “10 ปอนด์ขนกับ 10 ปอนด์อิฐ อันไหนหนักกว่ากัน?” ได้อย่างถูกต้อง แต่หากมีการเปลี่ยนคำถามเพียงเล็กน้อย ประสิทธิภาพจะลดลง

    • ตัวอย่างเช่น มันตอบผิดเมื่อถูกถามว่า “อะไรหนักกว่า ระหว่าง 9.99 ปอนด์เหล็กกับ 10.01 ปอนด์ฝ้าย?”
    • หากต้องการวิเคราะห์ความสามารถที่แท้จริงของโมเดล ต้องหลีกเลี่ยงข้อมูลที่อยู่ในการฝึกสอน
  • มีความเห็นว่าอยากเห็นการทดลองที่ฝึกโมเดลด้วยข้อมูลที่ดิจิทัลทั้งหมดก่อนปี 1905 แล้วถามเกี่ยวกับสูตรความเสมอภาคมวล-พลังงาน

    • คาดหวังว่าจะช่วยคลี่คลายข้อโต้แย้งเรื่องว่าการรับรู้รูปแบบคือรูปแบบหนึ่งของสติปัญญาหรือไม่
  • มีความเห็นว่าประสิทธิภาพการทำงานจริงของ LLM คล้ายกับการท่องแบบยัดเยียดของนักเรียนเพื่อเตรียมตัวสอบแบบเอเชีย

    • มันเป็นเพียงความสามารถในการทวนซ้ำได้อย่างสมบูรณ์โดยไม่เข้าใจความหมาย
  • มีความเห็นว่าเมื่อปรับอินพุตเพียงเล็กน้อย โมเดลอาจกลับไปตอบคำถามที่มันคาดหวังและให้คำตอบผิด

    • หากชักชวนให้ประเมินปัญหาจากหลายมุมและสรุปผล อาจได้คำตอบที่ดีขึ้น
  • มีความเห็นว่า LLM ยังยังคงเก่งมากในการแก้ปัญหาคณิตศาสตร์และการแข่งขันเขียนโปรแกรมที่ยากมาก

    • อย่างไรก็ตาม มันจัดการกับปัญหาที่เคยเจอก่อนหน้าได้ดีกว่า
  • มีคำถามถึงว่าโมเดลถูก hardcode สำหรับเกณฑ์วัดแบบสุ่มในตอนนี้เป็นความลับที่เปิดเผยกันทั่วไปหรือไม่

  • มีความเห็นว่า การปรับโครงสร้างปัญหาก็สามารถทำให้มนุษย์สับสนได้ด้วย

    • มีความเห็นอยากเห็นผลของการปรับโครงสร้างปัญหาในฉบับล่าสุด
  • มีความเห็นว่าแม้การจับคู่แบบรูปแบบจะทำได้อย่างมีประสิทธิภาพมาก แต่เมื่อเปลี่ยนรูปแบบแล้วมันก็ไม่สามารถทำงานได้

    • ชี้ว่ามันถูกฝึกแบบดั้งเดิม และไม่ใช้การคำนวณช่วงเทสต์หรือการค้นหา Monte Carlo Tree Search
  • มีความเห็นที่ชี้ว่า OpenAI ไม่ได้อ้างว่าคู่แข่งของมันเด่นชัดในชุดข้อมูลเฉพาะ

    • อาจสรุปได้ว่าประสิทธิภาพดีขึ้นมากกับคำถามที่อยู่ในชุดข้อมูลนั้น
  • มีความเห็นว่าสามารถเห็นการปรับปรุงจาก o1-preview เป็น o1 และให้คำตอบที่ถูกต้องกับปัญหาที่ถูกแก้ไขแล้ว

    • สถานะ SOTA เปลี่ยนแปลงอย่างรวดเร็ว