-
แนะนำ o3 และ FrontierMath
- o3 คือโมเดลภาษาใหม่ของ OpenAI ที่ทำคะแนนได้ 25% บนชุดข้อมูลลับ FrontierMath
- FrontierMath เป็นชุดข้อมูลที่ลับที่ประกอบด้วยโจทย์คณิตศาสตร์ยากที่ Epoch AI เผยแพร่
- ชุดข้อมูลมีโจทย์เช่น "ค้นหาตัวเลขนี้!" และต้องการคำตอบที่ชัดเจนซึ่งสามารถตรวจสอบได้โดยอัตโนมัติ
-
ความท้าทายของชุดข้อมูล FrontierMath
- โจทย์ใน FrontierMath เป็นเรื่องไม่ธรรมดาสำหรับนักคณิตศาสตร์ผู้ทำวิจัยด้วย และบางข้ออาจต้องการความรู้ระดับปริญญาเอก
- โจทย์ในชุดข้อมูลนี้ให้ความสำคัญกับการหาตัวเลขมากกว่าการพิสูจน์ทางคณิตศาสตร์
- เนื่องจากนักคณิตศาสตร์วิจัยต้องใช้เวลาในการหา "การพิสูจน์" หรือ "ความคิด" หลักๆ จึงทำให้ FrontierMath กลายเป็นชุดข้อมูลที่สำคัญสำหรับการวิจัยคณิตศาสตร์ด้วย AI
-
ความสามารถทางคณิตศาสตร์ของ AI
- AI แก้ปัญหาคณิตศาสตร์ระดับมัธยมปลายได้ดีในปัจจุบัน และคาดว่าจะผ่านการสอบคณิตศาสตร์ระดับมหาวิทยาลัยได้ในเร็ว ๆ นี้
- อย่างไรก็ตาม การสร้างแนวคิดเชิงนวัตกรรมที่เกินระดับปริญญาตรีขั้นสูงยังคงเป็นเรื่องท้าทาย
- แม้ o3 จะทำคะแนนได้ 25% ซึ่งถือเป็นความสำเร็จที่น่าทึ่ง แต่ก็มีข้อโต้แย้งว่าบางปัญหาอยู่ระดับนักศึกษาปริญญาตรี
-
บทบาทของ AI ในการวิจัยคณิตศาสตร์
- เรื่องสำคัญของการวิจัยคณิตศาสตร์คือการแก้ปัญหาที่ถามว่า "จงพิสูจน์ทฤษฎีบทนี้!"
- AlphaProof ของ DeepMind ได้แก้ปัญหาในการแข่งขันคณิตศาสตร์นานาชาติปี 2024 ได้ 4 ข้อ โดยบางข้อได้รับการตรวจสอบด้วยการพิสูจน์แบบ Lean ฉบับสมบูรณ์
- หาก AI จะทำหน้าที่ได้มากขึ้นในการวิจัยคณิตศาสตร์ จำเป็นต้องอธิบายการพิสูจน์ในรูปแบบที่มนุษย์เข้าใจได้
-
มุมมองในอนาคต
- หาก AI จะมีบทบาทมากขึ้นในการวิจัยคณิตศาสตร์ จำเป็นอย่างยิ่งที่ AI ต้องอธิบายการพิสูจน์ได้ในรูปแบบที่มนุษย์เข้าใจได้
- ความก้าวหน้าของ AI เป็นไปอย่างรวดเร็ว แต่เส้นทางที่เหลือยังยาวไกล
- ยังไม่แน่ใจว่า AI จะก้าวข้ามระดับปริญญาตรีได้เมื่อไร
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ในเธรด Reddit จากระดับความยากสามระดับที่มีอยู่ 25% เป็นระดับ T1 (ง่ายที่สุด) และ 50% เป็นระดับ T2
จากห้าคำถามสาธารณะที่ผู้เขียนลองทำ มีสองข้อเป็น T1 และสองข้อเป็น T2
Glazer อธิบาย T1 ว่าเป็น “โจทย์ระดับ IMO/ปริญญาตรี” แต่ผู้เขียนบทความไม่เห็นว่าเป็นโจทย์ระดับปริญญาตรี LLM กำลังทำสิ่งที่ผู้เขียนคาดว่าจะทำให้ทึ่งแล้ว
ผู้เขียนพยายามใช้ ChatGPT เพื่อทำความเข้าใจพีชคณิตเชิงเส้น แต่ในการคำนวณจริงกลับพบว่ามักทำผิดพลาดโง่ ๆ อยู่เสมอ เช่น ดัชนีเกินมิติของเวกเตอร์ พยายามแยกเมทริกซ์สำหรับสเกลาร์ หรือพยายามคูณเมทริกซ์ที่มีขนาดไม่ตรงกัน
O1 ตรวจจับข้อผิดพลาดได้ดีกว่า 4o แต่ยังคงทำข้อผิดพลาดโง่ ๆ ได้อีกหลายครั้ง หากขาดผู้มีความรู้ช่วยชี้แนะ ผลลัพธ์ก็ยากที่จะออกมาอย่างสม่ำเสมอ
ในการบรรยายของ Akshay Venkatesh มีการพูดถึงอนาคตของ “อาชีพคณิตศาสตร์” หากการพิสูจน์เชิงทฤษฎีแบบอัตโนมัติกลายกลายเป็นเรื่องทั่ว ๆ ไป และคาดการณ์ว่าความก้าวหน้าของการอนุมานอัตโนมัติจะเปลี่ยนรูปแบบการคิดและการทำงานของการวิจัยคณิตศาสตร์อย่างไร
ในฐานะแม่/พ่อที่มีบุตรชายอายุ 18 ปีและอยากเรียนคณิตศาสตร์ ผู้เขียนกังวลว่าการอัตโนมัติจะทำให้อาชีพนี้หายไป แต่ยังตั้งคำถามว่าสามารถให้ LLM เข้ามาแทนที่ได้ทั้งหมดจริงหรือไม่ ผู้เขียนเชื่อว่า LLM ไม่มีเวลา/ทรัพยากรไม่จำกัดสำหรับการแก้ทุกอย่าง และยังจำเป็นต้องมีบทบาทของมนุษย์อยู่ต่อไป
ไม่แน่ใจว่า LLM จะสร้างชุดโจทย์ที่สามารถแก้ได้แทบทุกอย่างได้หรือไม่ แต่ไม่คิดว่าจะเป็นผู้แก้ปัญหาทั่วไปที่แทนที่การอนุมานของมนุษย์ได้ ต้องรอให้ AI พัฒนาความสมเหตุสมผลทางสังคมแบบอิสระแบบเดียวกับของมนุษย์ก่อน จึงจะทำการอนุมานได้อย่างแท้จริง
ตัวอย่างข้อผิดพลาดพื้นฐานของ ChatGPT เช่น การอนุมานสูตรประสิทธิภาพของ Stop-and-Wait ARQ โดยอธิบายขั้นตอนที่ผิดพลาด อีกตัวอย่างหนึ่งคือตอนขอให้ฝึกซ้อมการอนุมานแบบ syllogism มันให้ตัวอย่างตรรกะสามขั้นที่ไม่สอดคล้องกัน
มีการตั้งข้อสังเกตว่าชุดข้อมูล FrontierMath อาจถูกทำลาย หาก OpenAI รู้คำถามล่วงหน้า รุ่นถัดไปอาจทำคะแนนทดสอบ FrontierMath ได้เกิน 80%
มีปัญหาคล้ายกับงานวิจัยด้านควอนตัม คือ ต้องทำการคำนวณที่เป็นไปไม่ได้ด้วยคอมพิวเตอร์แบบดั้งเดิมจึงจะแสดงความก้าวหน้าได้ เมื่อ ChatGPT ได้คะแนน 25% ก็เกิดคำถามขึ้นว่า 25% ดังกล่าวใกล้เคียงกับคำถามในชุดฝึกมากน้อยเพียงใด
เกิดความกังวลว่ารุ่นภาษาอาจให้ “การพิสูจน์” แก่สมมติฐานรีมันน์ได้ คณิตศาสตร์อาจพยายามตรวจสอบการพิสูจน์เหล่านี้ได้ แต่กระบวนการอาจใช้เวลานาน
คาดว่าในการแข่งขัน IMO 2025 จะไม่มีเครื่องจักรเข้าร่วม ไม่เหมือน IMO ซึ่งไม่มีแนวคิดเรื่อง “กรรมการให้คะแนน” และคะแนนถูกตัดสินผ่านการเจรจาระหว่างหัวหน้าทีมแต่ละประเทศกับกรรมการ สงสัยว่าคงไม่มีนักตรวจ AI กว่าสองร้อยคนที่จะต้องยืนนั่งตรวจงานอยู่เป็นเวลานาน