1 คะแนน โดย GN⁺ 2024-12-24 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • แนะนำ o3 และ FrontierMath

    • o3 คือโมเดลภาษาใหม่ของ OpenAI ที่ทำคะแนนได้ 25% บนชุดข้อมูลลับ FrontierMath
    • FrontierMath เป็นชุดข้อมูลที่ลับที่ประกอบด้วยโจทย์คณิตศาสตร์ยากที่ Epoch AI เผยแพร่
    • ชุดข้อมูลมีโจทย์เช่น "ค้นหาตัวเลขนี้!" และต้องการคำตอบที่ชัดเจนซึ่งสามารถตรวจสอบได้โดยอัตโนมัติ
  • ความท้าทายของชุดข้อมูล FrontierMath

    • โจทย์ใน FrontierMath เป็นเรื่องไม่ธรรมดาสำหรับนักคณิตศาสตร์ผู้ทำวิจัยด้วย และบางข้ออาจต้องการความรู้ระดับปริญญาเอก
    • โจทย์ในชุดข้อมูลนี้ให้ความสำคัญกับการหาตัวเลขมากกว่าการพิสูจน์ทางคณิตศาสตร์
    • เนื่องจากนักคณิตศาสตร์วิจัยต้องใช้เวลาในการหา "การพิสูจน์" หรือ "ความคิด" หลักๆ จึงทำให้ FrontierMath กลายเป็นชุดข้อมูลที่สำคัญสำหรับการวิจัยคณิตศาสตร์ด้วย AI
  • ความสามารถทางคณิตศาสตร์ของ AI

    • AI แก้ปัญหาคณิตศาสตร์ระดับมัธยมปลายได้ดีในปัจจุบัน และคาดว่าจะผ่านการสอบคณิตศาสตร์ระดับมหาวิทยาลัยได้ในเร็ว ๆ นี้
    • อย่างไรก็ตาม การสร้างแนวคิดเชิงนวัตกรรมที่เกินระดับปริญญาตรีขั้นสูงยังคงเป็นเรื่องท้าทาย
    • แม้ o3 จะทำคะแนนได้ 25% ซึ่งถือเป็นความสำเร็จที่น่าทึ่ง แต่ก็มีข้อโต้แย้งว่าบางปัญหาอยู่ระดับนักศึกษาปริญญาตรี
  • บทบาทของ AI ในการวิจัยคณิตศาสตร์

    • เรื่องสำคัญของการวิจัยคณิตศาสตร์คือการแก้ปัญหาที่ถามว่า "จงพิสูจน์ทฤษฎีบทนี้!"
    • AlphaProof ของ DeepMind ได้แก้ปัญหาในการแข่งขันคณิตศาสตร์นานาชาติปี 2024 ได้ 4 ข้อ โดยบางข้อได้รับการตรวจสอบด้วยการพิสูจน์แบบ Lean ฉบับสมบูรณ์
    • หาก AI จะทำหน้าที่ได้มากขึ้นในการวิจัยคณิตศาสตร์ จำเป็นต้องอธิบายการพิสูจน์ในรูปแบบที่มนุษย์เข้าใจได้
  • มุมมองในอนาคต

    • หาก AI จะมีบทบาทมากขึ้นในการวิจัยคณิตศาสตร์ จำเป็นอย่างยิ่งที่ AI ต้องอธิบายการพิสูจน์ได้ในรูปแบบที่มนุษย์เข้าใจได้
    • ความก้าวหน้าของ AI เป็นไปอย่างรวดเร็ว แต่เส้นทางที่เหลือยังยาวไกล
    • ยังไม่แน่ใจว่า AI จะก้าวข้ามระดับปริญญาตรีได้เมื่อไร

1 ความคิดเห็น

 
GN⁺ 2024-12-24
ความคิดเห็นจาก Hacker News
  • ในเธรด Reddit จากระดับความยากสามระดับที่มีอยู่ 25% เป็นระดับ T1 (ง่ายที่สุด) และ 50% เป็นระดับ T2

  • จากห้าคำถามสาธารณะที่ผู้เขียนลองทำ มีสองข้อเป็น T1 และสองข้อเป็น T2

  • Glazer อธิบาย T1 ว่าเป็น “โจทย์ระดับ IMO/ปริญญาตรี” แต่ผู้เขียนบทความไม่เห็นว่าเป็นโจทย์ระดับปริญญาตรี LLM กำลังทำสิ่งที่ผู้เขียนคาดว่าจะทำให้ทึ่งแล้ว

    • Glazer เองแสดงความเสียดายที่เคยเรียก T1 ว่า “IMO/ปริญญาตรี” ซึ่งไม่ใช่เพราะความต่างระหว่าง IMO กับระดับปริญญาตรีทั่วไปเท่านั้น เขากล่าวว่า “การใช้ผลลัพธ์หลักแบบ black-box มักจะทำให้ความยากของปัญหาถูกประเมินสูงเกินจริง ทำให้ต้องลดความยากลงหนึ่งขั้น”
  • ผู้เขียนพยายามใช้ ChatGPT เพื่อทำความเข้าใจพีชคณิตเชิงเส้น แต่ในการคำนวณจริงกลับพบว่ามักทำผิดพลาดโง่ ๆ อยู่เสมอ เช่น ดัชนีเกินมิติของเวกเตอร์ พยายามแยกเมทริกซ์สำหรับสเกลาร์ หรือพยายามคูณเมทริกซ์ที่มีขนาดไม่ตรงกัน

  • O1 ตรวจจับข้อผิดพลาดได้ดีกว่า 4o แต่ยังคงทำข้อผิดพลาดโง่ ๆ ได้อีกหลายครั้ง หากขาดผู้มีความรู้ช่วยชี้แนะ ผลลัพธ์ก็ยากที่จะออกมาอย่างสม่ำเสมอ

  • ในการบรรยายของ Akshay Venkatesh มีการพูดถึงอนาคตของ “อาชีพคณิตศาสตร์” หากการพิสูจน์เชิงทฤษฎีแบบอัตโนมัติกลายกลายเป็นเรื่องทั่ว ๆ ไป และคาดการณ์ว่าความก้าวหน้าของการอนุมานอัตโนมัติจะเปลี่ยนรูปแบบการคิดและการทำงานของการวิจัยคณิตศาสตร์อย่างไร

  • ในฐานะแม่/พ่อที่มีบุตรชายอายุ 18 ปีและอยากเรียนคณิตศาสตร์ ผู้เขียนกังวลว่าการอัตโนมัติจะทำให้อาชีพนี้หายไป แต่ยังตั้งคำถามว่าสามารถให้ LLM เข้ามาแทนที่ได้ทั้งหมดจริงหรือไม่ ผู้เขียนเชื่อว่า LLM ไม่มีเวลา/ทรัพยากรไม่จำกัดสำหรับการแก้ทุกอย่าง และยังจำเป็นต้องมีบทบาทของมนุษย์อยู่ต่อไป

  • ไม่แน่ใจว่า LLM จะสร้างชุดโจทย์ที่สามารถแก้ได้แทบทุกอย่างได้หรือไม่ แต่ไม่คิดว่าจะเป็นผู้แก้ปัญหาทั่วไปที่แทนที่การอนุมานของมนุษย์ได้ ต้องรอให้ AI พัฒนาความสมเหตุสมผลทางสังคมแบบอิสระแบบเดียวกับของมนุษย์ก่อน จึงจะทำการอนุมานได้อย่างแท้จริง

  • ตัวอย่างข้อผิดพลาดพื้นฐานของ ChatGPT เช่น การอนุมานสูตรประสิทธิภาพของ Stop-and-Wait ARQ โดยอธิบายขั้นตอนที่ผิดพลาด อีกตัวอย่างหนึ่งคือตอนขอให้ฝึกซ้อมการอนุมานแบบ syllogism มันให้ตัวอย่างตรรกะสามขั้นที่ไม่สอดคล้องกัน

  • มีการตั้งข้อสังเกตว่าชุดข้อมูล FrontierMath อาจถูกทำลาย หาก OpenAI รู้คำถามล่วงหน้า รุ่นถัดไปอาจทำคะแนนทดสอบ FrontierMath ได้เกิน 80%

  • มีปัญหาคล้ายกับงานวิจัยด้านควอนตัม คือ ต้องทำการคำนวณที่เป็นไปไม่ได้ด้วยคอมพิวเตอร์แบบดั้งเดิมจึงจะแสดงความก้าวหน้าได้ เมื่อ ChatGPT ได้คะแนน 25% ก็เกิดคำถามขึ้นว่า 25% ดังกล่าวใกล้เคียงกับคำถามในชุดฝึกมากน้อยเพียงใด

  • เกิดความกังวลว่ารุ่นภาษาอาจให้ “การพิสูจน์” แก่สมมติฐานรีมันน์ได้ คณิตศาสตร์อาจพยายามตรวจสอบการพิสูจน์เหล่านี้ได้ แต่กระบวนการอาจใช้เวลานาน

  • คาดว่าในการแข่งขัน IMO 2025 จะไม่มีเครื่องจักรเข้าร่วม ไม่เหมือน IMO ซึ่งไม่มีแนวคิดเรื่อง “กรรมการให้คะแนน” และคะแนนถูกตัดสินผ่านการเจรจาระหว่างหัวหน้าทีมแต่ละประเทศกับกรรมการ สงสัยว่าคงไม่มีนักตรวจ AI กว่าสองร้อยคนที่จะต้องยืนนั่งตรวจงานอยู่เป็นเวลานาน