- LLM สำหรับการให้เหตุผลแบบทดลองที่ OpenAI พัฒนา ทำคะแนนได้ในระดับ เหรียญทอง ในการแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ (IMO) ปี 2025
- ภายใต้ กติกา IMO อย่างเป็นทางการ เช่นเดียวกับผู้เข้าแข่งขันจริง ทั้งการแก้โจทย์ การเขียนพิสูจน์ด้วยภาษาธรรมชาติ และการให้คะแนนแบบเอกฉันท์โดยผู้ตรวจ 3 คน ได้ 35 คะแนนจากเต็ม 42 คะแนน (แก้ได้ 5 จาก 6 ข้อ)
- โจทย์ IMO ต้องใช้การคิดสร้างสรรค์ระดับสูงและการพิสูจน์หลายขั้นตอน แสดงให้เห็นว่า LLM สามารถก้าวข้ามข้อจำกัดของวิธี RL แบบเดิม และมีศักยภาพในการสร้าง บทพิสูจน์เชิงตรรกะระดับมนุษย์
- ความสำคัญอยู่ที่การบรรลุผลนี้ด้วย การเสริมกำลังการเรียนรู้แบบทั่วไปและการขยายการคำนวณช่วงทดสอบ ไม่ใช่แนวทางที่มุ่งเฉพาะงานใดงานหนึ่ง
- โมเดลนี้เป็นเวอร์ชันวิจัยที่แยกจาก GPT-5 ซึ่งจะเปิดตัวในเร็ว ๆ นี้ และ การเปิดเผยความสามารถทางคณิตศาสตร์ระดับสูงสุดจะเกิดขึ้นในอีกไม่กี่เดือนข้างหน้า
ภาพรวมผลงานของ OpenAI LLM ใน IMO 2025
- Alexander Wei (@alexwei_) แห่ง OpenAI ประกาศว่าโมเดลภาษาเพื่อการให้เหตุผลแบบทดลองรุ่นล่าสุดทำผลงานได้ในระดับ เกณฑ์เหรียญทองของ IMO 2025
- IMO เป็นการแข่งขันที่มีความยากสูง โดยมีเยาวชนที่มีความสามารถทางคณิตศาสตร์โดดเด่นที่สุดจากทั่วโลกเข้าร่วม และเป็นที่รู้จักจากโจทย์ที่ต้องใช้การให้เหตุผลเชิงตรรกะที่ซับซ้อนและความเข้าใจเชิงแนวคิดอย่างลึกซึ้ง
- วิธีประเมินดำเนินการ เหมือนผู้เข้าแข่งขันมนุษย์ทุกประการ ได้แก่ การสอบ 2 รอบ รอบละ 4.5 ชั่วโมง ใช้ข้อสอบทางการ ไม่ใช้เครื่องมือภายนอก และส่งคำพิสูจน์ด้วยภาษาธรรมชาติ
- แต่ละข้อถูก อดีตผู้ได้รับเหรียญ IMO 3 คน ตรวจให้คะแนนอย่างอิสระ ก่อนสรุปคะแนนด้วยฉันทามติเป็นเอกฉันท์
ความหมายของผลงานและระดับความยากที่พัฒนาไปอีกขั้น
- โจทย์ IMO ต้องการ เวลาคิดที่ยาวนานกว่า ความสร้างสรรค์มากกว่า และการโต้แย้งเชิงพิสูจน์ที่ซับซ้อนกว่า benchmark เดิมอย่าง GSM8K, MATH และ AIME มาก
- โมเดลครั้งนี้ แก้ได้ครบ 5 ข้อ (P1~P5) และไม่ส่งคำตอบข้อ P6 จึงได้ 35/42 คะแนน ซึ่งถึงเกณฑ์เหรียญทองของ IMO จริง
- ความสามารถในการสร้าง บทพิสูจน์เชิงตรรกะยาวหลายหน้า ถือว่าก้าวข้ามข้อจำกัดของ reinforcement learning (RL) แบบเดิม
แนวทางวิจัยและบริบทของพัฒนาการ AI
- โมเดลนี้บรรลุสมรรถนะสูงด้วยแนวทางที่อิง RL แบบทั่วไปและการขยายการคำนวณ ไม่ใช่โมเดลที่สร้างมาเพื่อแก้โจทย์เฉพาะทางเท่านั้น
- ประสบความสำเร็จในการสร้าง ผลลัพธ์เชิงสร้างสรรค์ที่ซับซ้อน แม้ไม่มีระบบรางวัลที่ชัดเจนแบบที่ RL แบบเดิมมักอาศัย
- เป็นโมเดลทดลองที่แยกจาก GPT-5 ซึ่งจะเปิดตัวในเร็ว ๆ นี้ และ ยังไม่มีแผนเปิดให้สาธารณะใช้งานความสามารถทางคณิตศาสตร์ระดับนี้ภายในไม่กี่เดือนนี้
แนวโน้มในอนาคตและการกล่าวถึงจากชุมชน
- ความก้าวหน้าของความสามารถทางคณิตศาสตร์ของ AI เร็วกว่าที่คาดไว้อย่างมาก (เมื่อเทียบกับการคาดการณ์ในปี 2021 ว่า MATH benchmark จะอยู่ที่ 30% ก่อนจะมาถึงระดับเหรียญทอง IMO)
- Alexander กล่าว แสดงความยินดีกับผู้เข้าแข่งขัน IMO 2025 ทุกคน พร้อมเน้นว่าภายในทีมมีอดีตผู้เข้าแข่งขัน IMO อยู่หลายคน
- มีแผนจะเผยแพร่คำตอบของโมเดลสำหรับโจทย์ IMO 2025 เช่นกัน แม้จะเป็นสไตล์การเขียนแบบทดลอง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
Noam Brown: ถ้าทำงานในแล็บวิจัยระดับแนวหน้า ปกติก็มักจะได้เห็นความสามารถใหม่ ๆ ล่วงหน้าก่อนคนอื่นอยู่หลายเดือน แต่ผลลัพธ์ครั้งนี้เป็นความก้าวหน้าใหม่จริง ๆ ที่ใช้เทคนิคซึ่งเพิ่งพัฒนาขึ้นไม่นาน แม้แต่นักวิจัยภายใน OpenAI เองก็ยังประหลาดใจ วันนี้ทุกคนจึงได้เห็นแล้วว่าขอบเขตของแนวหน้าล่าสุดอยู่ตรงไหน
อีกอย่าง ความสำเร็จครั้งนี้ขับเคลื่อนโดยทีมเล็ก ๆ โดย Alex Wei สามารถทำให้ไอเดียวิจัยที่แทบไม่มีใครเชื่อนักกลายเป็นผลลัพธ์จริงได้ งานวิจัยและวิศวกรรมที่สั่งสมมานานของ OpenAI และชุมชน AI ก็มีบทบาทมากเช่นกัน
ลิงก์: https://x.com/polynoamial/status/1946478258968531288
ที่น่าสนใจคือ วิธีทำข้อสอบ IMO ใช้คำศัพท์ค่อนข้างจำกัดจนน่าประทับใจ
ลิงก์: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “ถ้าคำพูดน้อยกว่าสื่อสารได้ดีกว่า ก็ไม่มีเหตุผลต้องพูดให้ยืดยาว”
และอีกจุดที่น่าสังเกตคือ Alex Wei เองก็เป็นเจ้าของเหรียญทอง IOI ด้วย
ใครที่ดูแคลนเพราะคิดว่านี่เป็นแค่ระดับมัธยมปลาย ผมแนะนำให้ลองทำโจทย์ IMO สักข้อ ทุกข้อรวมถึงของปีนี้เปิดเผยต่อสาธารณะหมดแล้ว
ลิงก์: https://www.imo-official.org/problems.aspx
ผมนี่มึนไปเลย
ยกตัวอย่างเช่นโจทย์ x+y=1, xy=1 พอดูเฉลยแล้วกลับใช้แค่พีชคณิตพื้นฐานที่เรารู้กันอยู่แล้ว (การแยกตัวประกอบ สูตรกำลังสอง ฯลฯ) แต่คำอธิบายก็ยังงดงามมาก
มันทำให้รู้สึกว่าถ้าคิดนานพอก็น่าจะหาคำตอบได้ แต่จากประสบการณ์ของผมจริง ๆ แล้วไม่ใช่เลย
ลิงก์: https://www.youtube.com/watch?v=csS4BjQuhCc
ดูเหมือนจะราว ๆ 50 ภาษา ซึ่งพอมีมากขนาดนั้นก็ทำให้นึกถึงว่าการรักษาความปลอดภัย เช่น การป้องกันข้อสอบรั่ว น่าจะยากขึ้นมาก
ที่บอกว่าโจทย์พวกนี้เป็นระดับมัธยมปลาย หมายถึงแค่ในแง่พื้นความรู้ ไม่ได้แปลว่าง่าย เพราะมันยากมาก
แม้แต่นักคณิตศาสตร์มืออาชีพที่ไม่ได้มาจากสาย IMO ก็มักทำผลงานแบบนี้ได้ยาก
ไม่ได้หมายความว่า AI เก่งคณิตศาสตร์เหนือมนุษย์ เพราะนักคณิตศาสตร์มุ่งเน้นการขยายพรมแดนของคณิตศาสตร์
มีการบอกว่าคำตอบไม่ได้อยู่ในข้อมูลฝึก
และยังอ้างว่าโมเดลนี้ไม่ใช่โมเดลที่ปรับมาเฉพาะ IMO
พอคอยปรับแต่งกระบวนการฝึกต่อเนื่อง แล้วประสิทธิภาพบน validation set ดีขึ้น เราก็จะย้อนกลับไปเลือกสถาปัตยกรรมและข้อมูลใหม่ให้เข้ากับมัน
ถึงไม่ได้ตั้งใจ ข้อมูลจาก validation set ก็ค่อย ๆ ซึมเข้าไปในโมเดล
แค่เลือก validation set คนละชุด ก็อาจได้โมเดลที่ต่างกันโดยสิ้นเชิง
แม้แต่วิธีตอบคำถามก็ดูเป็นแบบนั้นชัดเจน
เช่น: https://xcancel.com/alexwei_/status/1946477742855532918
ภาพหน้าจอคำตอบจริง: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
มันดูคล้ายสไตล์ AlphaProof ที่สลับไปมาระหว่างภาษาธรรมชาติกับระบบอย่าง Lean
OpenAI คงไม่แชร์รายละเอียดการติดตั้งใช้งานพวกนี้
ในเธรดมีบอกว่า: “โมเดลแก้ P1~P5 ได้ แต่ตอบ P6 ไม่ได้”
โจทย์ที่ยากที่สุด (P6) นั้นแม้แต่มนุษย์ก็แทบไม่มีใครแก้ได้ แม้แต่ทีมชาติจีนยังได้แค่ 21 จาก 42 คะแนน และประเทศอื่นส่วนใหญ่ก็ไม่มีใครแก้ได้เลย
โดยทั่วไปตั้งใจจัดลำดับความยากเป็น P1, P4, P2, P5, P3, P6 โดย P1 ง่ายสุดและ P6 ยากสุด
แต่ในความเป็นจริงบางปีก็อาจไม่เป็นตามลำดับนี้
ถึงจะเป็นแค่ความบังเอิญเชิงกลก็ตาม มันก็สามารถพ่นคำตอบผิดออกมาได้เหมือนกัน เลยอดสงสัยไม่ได้ว่าพวกเขาเลือกเฉพาะคำตอบที่ถูกหรือเปล่า กล่าวคือคัดมาเฉพาะผลลัพธ์ที่สำเร็จหรือไม่
Google ก็เข้าร่วม IMO ครั้งนี้และได้ระดับเหรียญทองเหมือนกัน
ลิงก์: https://x.com/natolambert/status/1946569475396120653
เมื่อ OAI ประกาศก่อน ก็คงอีกไม่นาน Google จะออกประกาศอย่างเป็นทางการเช่นกัน
ใน Twitter มีคนบอกว่า Google ใช้ Lean ขณะที่ OpenAI ใช้แค่ LLM โดยไม่มีเครื่องมือ
ไม่ว่าจะวิธีไหน ผลลัพธ์สุดท้ายสำคัญกว่าอยู่แล้ว แต่ข้อจำกัดของเทคนิคเฉพาะและเส้นทางพัฒนาก็น่าสนใจในฐานะข้อมูลประกอบ
ความพิเศษของเหรียญทองจาก OpenAI คือดูเหมือนว่าทำได้ด้วย LLM ล้วน
ถ้า Google ออกประกาศอย่างเป็นทางการ ก็น่าจะได้รู้ว่าใช้วิธีแบบไหน
ข้อดีของแนวทาง LLM คือมีโอกาสทำให้ใช้ได้กว้างกับปัญหาการให้เหตุผลหลากหลายแบบ ไม่ใช่แค่การพิสูจน์ทางคณิตศาสตร์
Noam Brown:
นี่ไม่ใช่โมเดลเฉพาะ IMO แต่เป็น reasoning LLM ที่ใส่เทคนิคทั่วไปเชิงทดลองแบบใหม่เข้าไป
กระบวนการคิดมีประสิทธิภาพกว่าของ o1 และ o3 มาก และประสิทธิภาพตอนทดสอบก็ยังมีช่องให้ดันต่อได้อีก
ช่วงนี้ความก้าวหน้าของ AI เร็วมาก และเขาคาดว่าจะยังเดินหน้าต่อไป
โดยเฉพาะมองว่าเราใกล้ถึงจุดที่ AI จะมีส่วนช่วยการค้นพบทางวิทยาศาสตร์อย่างจริงจังแล้ว
ก่อนหน้านี้ผมเองเคยคิดว่าความก้าวหน้ากำลังช้าลง แต่จากคำกล่าวหลายอย่าง (ทั้งเรื่องไม่ใช่โมเดลเฉพาะทางและเรื่องยังเพิ่มประสิทธิภาพได้อีก) ทำให้เห็นชัดว่ามีความก้าวหน้าจริงอย่างมาก
ลิงก์: https://x.com/polynoamial/status/1946478249187377206
เช่น “ถ้าฝ่ายตรงข้ามใช้รูปแบบการตอบสนอง (คงที่) แบบนี้ ก็ไม่มีวันแพ้ เธอจะชนะได้ก็ต่อเมื่อ (ทำให้อีกฝ่ายแพ้) Q_{even-1}>even กล่าวคือมี some a_j> sqrt2 แต่เรามีอยู่แล้วว่า a_j<=c< sqrt2 ดังนั้นจึงไม่มีวันแพ้” อะไรทำนองนี้
มันแสดงท่าทีพยายามบีบคำพูดให้เหลือน้อยที่สุดเพื่อเพิ่มประสิทธิภาพสูงสุด
ลิงก์: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
เป็นผลงานที่น่าประทับใจมากจริง ๆ แต่อยากรู้ว่าทำได้อย่างไร
จากที่ Wei อนุมานเรื่อง “scaling up test-time compute” ดูเหมือนน่าจะทุ่มเงินมหาศาล
ถ้าแค่รันขนานกันหลายพันหรือเป็นหมื่นครั้งแล้วเลือกผลที่ดีที่สุด ก็น่าผิดหวัง
ถ้าเป็นความสำเร็จที่แท้จริง ก็ควรเปิดเผยอย่างโปร่งใสว่าใช้เครื่องมืออะไรและใช้อย่างไร
คงมีหลายเทคนิคสำหรับเพิ่มผลงานในโจทย์ที่ตรวจสอบยากถูกรวมอยู่ในนี้ด้วย
กลับกัน มันแปลว่าสามารถแยกแยะความถูกต้องและความเคร่งครัดของคำตอบได้ ซึ่งก็ไม่ต่างจากเวลามนุษย์บางคนแก้ได้เป็นครั้งคราวนัก
นี่ก็เป็นวิธีที่เคยใช้ตอน benchmark ARC ของ o3 รุ่นแรก
อาจถึงขั้นเป็นการให้หลายเอเจนต์ช่วยกันทำงานด้วยซ้ำ ดังนั้นข้อจำกัดด้านความยาวบริบท (จำนวนโทเค็น) ก็น่าจะหลบเลี่ยงได้
ตอนนี้ AI ก็เหนือมนุษย์ไปแล้ว 99.99% กับโจทย์คณิตศาสตร์ส่วนใหญ่ ดังนั้นจะชนะ 99.999% ก็ไม่ใช่เรื่องน่าตกใจนัก
แต่ถ้า LLM เป็นฝ่ายตรวจสอบและคัดเลือกเอง ก็คล้ายกับที่มนุษย์ลองผิดลองถูกหลายครั้งจนแก้โจทย์ยากสำเร็จ
ต่างกันตรงที่ AI มีทรัพยากรคอมพิวต์มากพอจะทำแบบขนานได้ ส่วนมนุษย์ทำได้แค่แบบลำดับ
การแข่งขันนี้ (IMO) เป็นรายการระดับท็อปมาก จนดูเหมือนแม้แต่ในชุมชนโปรแกรมเมอร์ก็ยังมีหลายคนไม่รู้ชัดว่ามันคืออะไร
ถ้าคิดแบบคร่าว ๆ สำหรับสหรัฐฯ คนที่ถูกคัดเข้าค่าย (ซึ่งมีลุ้นระดับเหรียญทอง) มีราว 20 คน เทียบกับนักเรียนมัธยมปลายในช่วงอายุนั้นทั้งหมดประมาณ 20 ล้านคน ก็เท่ากับเป็นพรสวรรค์ระดับ “หนึ่งในล้าน”
ผมเองก็เรียนโรงเรียนหัวกะทิ แต่ไม่เคยได้ยินเรื่อง IMO มาก่อนเลยจนเข้าเรียนมหาวิทยาลัยและได้เจอคนที่เคยเข้าแข่งขัน
ในความเป็นจริง จำนวนนักเรียนที่รู้จักและเข้าร่วมการแข่งขันมีน้อยกว่าจำนวนนักเรียนทั้งหมดมาก
ต่อให้ยังไม่พูดถึงฝีมือ ก็มีนักเรียนจำนวนมากที่ถ้าได้รับโอกาสและข้อมูลที่เหมาะสมก็น่าจะทำได้ดี
เพิ่งเห็นรายงานประเมิน LLM กับ IMO 2025 มาไม่นานนี้ โดย o3 high ยังไม่ถึงขั้นเหรียญทองแดงด้วยซ้ำ
ลิงก์: https://matharena.ai/imo/
อยากเห็นความเห็นของ Terry Tao เหมือนกัน แต่ผมคิดว่าความก้าวหน้าในด้านนี้แหละคือการใช้ AI ในทางบวก
แทนที่จะเร่งนวัตกรรมแบบไร้ทิศทางทั้งที่เศรษฐกิจยังไม่พร้อม ก็หวังว่าจะช่วยเร่งความก้าวหน้าทางวิทยาศาสตร์มากกว่า
ลิงก์: https://mathstodon.xyz/@tao/114881419368778558