OpenAI ประกาศผลงานระดับเหรียญทองในการแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ (IMO) ปี 2025

(twitter.com/alexwei_)

5 คะแนน โดย GN⁺ 2025-07-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

LLM สำหรับการให้เหตุผลแบบทดลองที่ OpenAI พัฒนา ทำคะแนนได้ในระดับ เหรียญทอง ในการแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ (IMO) ปี 2025
ภายใต้ กติกา IMO อย่างเป็นทางการ เช่นเดียวกับผู้เข้าแข่งขันจริง ทั้งการแก้โจทย์ การเขียนพิสูจน์ด้วยภาษาธรรมชาติ และการให้คะแนนแบบเอกฉันท์โดยผู้ตรวจ 3 คน ได้ 35 คะแนนจากเต็ม 42 คะแนน (แก้ได้ 5 จาก 6 ข้อ)
โจทย์ IMO ต้องใช้การคิดสร้างสรรค์ระดับสูงและการพิสูจน์หลายขั้นตอน แสดงให้เห็นว่า LLM สามารถก้าวข้ามข้อจำกัดของวิธี RL แบบเดิม และมีศักยภาพในการสร้าง บทพิสูจน์เชิงตรรกะระดับมนุษย์
ความสำคัญอยู่ที่การบรรลุผลนี้ด้วย การเสริมกำลังการเรียนรู้แบบทั่วไปและการขยายการคำนวณช่วงทดสอบ ไม่ใช่แนวทางที่มุ่งเฉพาะงานใดงานหนึ่ง
โมเดลนี้เป็นเวอร์ชันวิจัยที่แยกจาก GPT-5 ซึ่งจะเปิดตัวในเร็ว ๆ นี้ และ การเปิดเผยความสามารถทางคณิตศาสตร์ระดับสูงสุดจะเกิดขึ้นในอีกไม่กี่เดือนข้างหน้า

ภาพรวมผลงานของ OpenAI LLM ใน IMO 2025

Alexander Wei (@alexwei_) แห่ง OpenAI ประกาศว่าโมเดลภาษาเพื่อการให้เหตุผลแบบทดลองรุ่นล่าสุดทำผลงานได้ในระดับ เกณฑ์เหรียญทองของ IMO 2025
- IMO เป็นการแข่งขันที่มีความยากสูง โดยมีเยาวชนที่มีความสามารถทางคณิตศาสตร์โดดเด่นที่สุดจากทั่วโลกเข้าร่วม และเป็นที่รู้จักจากโจทย์ที่ต้องใช้การให้เหตุผลเชิงตรรกะที่ซับซ้อนและความเข้าใจเชิงแนวคิดอย่างลึกซึ้ง
วิธีประเมินดำเนินการ เหมือนผู้เข้าแข่งขันมนุษย์ทุกประการ ได้แก่ การสอบ 2 รอบ รอบละ 4.5 ชั่วโมง ใช้ข้อสอบทางการ ไม่ใช้เครื่องมือภายนอก และส่งคำพิสูจน์ด้วยภาษาธรรมชาติ
แต่ละข้อถูก อดีตผู้ได้รับเหรียญ IMO 3 คน ตรวจให้คะแนนอย่างอิสระ ก่อนสรุปคะแนนด้วยฉันทามติเป็นเอกฉันท์

ความหมายของผลงานและระดับความยากที่พัฒนาไปอีกขั้น

โจทย์ IMO ต้องการ เวลาคิดที่ยาวนานกว่า ความสร้างสรรค์มากกว่า และการโต้แย้งเชิงพิสูจน์ที่ซับซ้อนกว่า benchmark เดิมอย่าง GSM8K, MATH และ AIME มาก
โมเดลครั้งนี้ แก้ได้ครบ 5 ข้อ (P1~P5) และไม่ส่งคำตอบข้อ P6 จึงได้ 35/42 คะแนน ซึ่งถึงเกณฑ์เหรียญทองของ IMO จริง
ความสามารถในการสร้าง บทพิสูจน์เชิงตรรกะยาวหลายหน้า ถือว่าก้าวข้ามข้อจำกัดของ reinforcement learning (RL) แบบเดิม

แนวทางวิจัยและบริบทของพัฒนาการ AI

โมเดลนี้บรรลุสมรรถนะสูงด้วยแนวทางที่อิง RL แบบทั่วไปและการขยายการคำนวณ ไม่ใช่โมเดลที่สร้างมาเพื่อแก้โจทย์เฉพาะทางเท่านั้น
ประสบความสำเร็จในการสร้าง ผลลัพธ์เชิงสร้างสรรค์ที่ซับซ้อน แม้ไม่มีระบบรางวัลที่ชัดเจนแบบที่ RL แบบเดิมมักอาศัย
เป็นโมเดลทดลองที่แยกจาก GPT-5 ซึ่งจะเปิดตัวในเร็ว ๆ นี้ และ ยังไม่มีแผนเปิดให้สาธารณะใช้งานความสามารถทางคณิตศาสตร์ระดับนี้ภายในไม่กี่เดือนนี้

แนวโน้มในอนาคตและการกล่าวถึงจากชุมชน

ความก้าวหน้าของความสามารถทางคณิตศาสตร์ของ AI เร็วกว่าที่คาดไว้อย่างมาก (เมื่อเทียบกับการคาดการณ์ในปี 2021 ว่า MATH benchmark จะอยู่ที่ 30% ก่อนจะมาถึงระดับเหรียญทอง IMO)
Alexander กล่าว แสดงความยินดีกับผู้เข้าแข่งขัน IMO 2025 ทุกคน พร้อมเน้นว่าภายในทีมมีอดีตผู้เข้าแข่งขัน IMO อยู่หลายคน
มีแผนจะเผยแพร่คำตอบของโมเดลสำหรับโจทย์ IMO 2025 เช่นกัน แม้จะเป็นสไตล์การเขียนแบบทดลอง

1 ความคิดเห็น

GN⁺ 2025-07-20

ความคิดเห็นจาก Hacker News

Noam Brown: ถ้าทำงานในแล็บวิจัยระดับแนวหน้า ปกติก็มักจะได้เห็นความสามารถใหม่ ๆ ล่วงหน้าก่อนคนอื่นอยู่หลายเดือน แต่ผลลัพธ์ครั้งนี้เป็นความก้าวหน้าใหม่จริง ๆ ที่ใช้เทคนิคซึ่งเพิ่งพัฒนาขึ้นไม่นาน แม้แต่นักวิจัยภายใน OpenAI เองก็ยังประหลาดใจ วันนี้ทุกคนจึงได้เห็นแล้วว่าขอบเขตของแนวหน้าล่าสุดอยู่ตรงไหน
อีกอย่าง ความสำเร็จครั้งนี้ขับเคลื่อนโดยทีมเล็ก ๆ โดย Alex Wei สามารถทำให้ไอเดียวิจัยที่แทบไม่มีใครเชื่อนักกลายเป็นผลลัพธ์จริงได้ งานวิจัยและวิศวกรรมที่สั่งสมมานานของ OpenAI และชุมชน AI ก็มีบทบาทมากเช่นกัน
ลิงก์: https://x.com/polynoamial/status/1946478258968531288
- หวังว่าเทคนิคใหม่นั้นคงไม่ใช่การเทรนด้วยข้อมูลทดสอบนะ /ล้อเล่น
ที่น่าสนใจคือ วิธีทำข้อสอบ IMO ใช้คำศัพท์ค่อนข้างจำกัดจนน่าประทับใจ
ลิงก์: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “ถ้าคำพูดน้อยกว่าสื่อสารได้ดีกว่า ก็ไม่มีเหตุผลต้องพูดให้ยืดยาว”
และอีกจุดที่น่าสังเกตคือ Alex Wei เองก็เป็นเจ้าของเหรียญทอง IOI ด้วย
- มุมหนึ่งก็น่าสนใจที่มันดูคล้ายโน้ตที่ผู้เข้าแข่งขันจริงจดไว้ระหว่างทำข้อสอบ การตัดคำพูดที่ไม่จำเป็นออกช่วยลดสัญญาณรบกวนของข้อมูลและช่วยให้โฟกัสดีขึ้น โดยเฉพาะเมื่อ LLM สร้างทีละโทเค็นและมีข้อจำกัดด้านความยาวบริบท ก็ชวนให้สงสัยว่าถ้าใช้เฉพาะโทเค็นที่มีความหมาย อาจนำไปสู่กระบวนการคิดที่ยาวขึ้นและสอดคล้องกันมากขึ้นได้หรือไม่
- น่าสนใจตรงที่เขาได้เหรียญทอง IOI (โอลิมปิกสารสนเทศ) แต่ที่คุยกันอยู่ตรงนี้คือ IMO (โอลิมปิกคณิตศาสตร์)
- Terence Tao เองก็เพิ่งทำนายในพอดแคสต์ล่าสุดว่า LLM จะได้เหรียญทองในปีนี้
- ในทรานส์ฟอร์เมอร์ ไม่ว่าโทเค็นจะสื่อความหมายมากน้อยแค่ไหน เวลาที่ใช้สร้างแต่ละโทเค็นก็เท่ากัน ถ้าตัดส่วนที่ซ้ำซ้อนหรือไม่จำเป็นในข้อความออก ความเร็วก็จะเพิ่มขึ้นมาก
- พอพูดว่า “see the world” ก็อยากถามว่าแปลว่า “มองโลก” หรือเป็นมุกเสียงพ้องแบบ “seaworld” กันแน่
ใครที่ดูแคลนเพราะคิดว่านี่เป็นแค่ระดับมัธยมปลาย ผมแนะนำให้ลองทำโจทย์ IMO สักข้อ ทุกข้อรวมถึงของปีนี้เปิดเผยต่อสาธารณะหมดแล้ว
ลิงก์: https://www.imo-official.org/problems.aspx
ผมนี่มึนไปเลย
- เกี่ยวกับเรื่องนี้ มีวิดีโอที่แสดงให้เห็นว่าคนเราคิดและค่อย ๆ แก้ปัญหาแบบนี้กันอย่างไรจริง ๆ
  - วิดีโออธิบายโจทย์ยาก IMO Q2 ปี 2011 ของช่อง 3Blue1Brown: https://www.youtube.com/watch?v=M64HUIJFTZM
  - วิดีโออธิบายโจทย์ Putnam ระดับใกล้เคียงกัน: https://www.youtube.com/watch?v=OkmNXy7er84
  - Timothy Gowers เจ้าของเหรียญ Fields Medal และผู้ที่เคยทำคะแนนเต็ม IMO ไลฟ์แก้โจทย์ IMO ปีนี้
    - Q1: https://www.youtube.com/watch?v=1G1nySyVs2w
    - Q4: https://www.youtube.com/watch?v=O-vp4zGzwIs
- ผมชอบดูวิดีโอ YouTube แนวแก้โจทย์แบบนี้ มันดูเหมือนง่ายบนผิวเผินแต่จริง ๆ เหมือนกลลวง
  ยกตัวอย่างเช่นโจทย์ x+y=1, xy=1 พอดูเฉลยแล้วกลับใช้แค่พีชคณิตพื้นฐานที่เรารู้กันอยู่แล้ว (การแยกตัวประกอบ สูตรกำลังสอง ฯลฯ) แต่คำอธิบายก็ยังงดงามมาก
  มันทำให้รู้สึกว่าถ้าคิดนานพอก็น่าจะหาคำตอบได้ แต่จากประสบการณ์ของผมจริง ๆ แล้วไม่ใช่เลย
  ลิงก์: https://www.youtube.com/watch?v=csS4BjQuhCc
- สงสัยว่าโจทย์ IMO แบบนี้ถ้าเทียบกับโจทย์ระดับ hard ของ leetcode จะประมาณไหน
- เพิ่งรู้ตอนนี้เองว่าโจทย์ IMO มีหลายเวอร์ชันภาษา
  ดูเหมือนจะราว ๆ 50 ภาษา ซึ่งพอมีมากขนาดนั้นก็ทำให้นึกถึงว่าการรักษาความปลอดภัย เช่น การป้องกันข้อสอบรั่ว น่าจะยากขึ้นมาก
ที่บอกว่าโจทย์พวกนี้เป็นระดับมัธยมปลาย หมายถึงแค่ในแง่พื้นความรู้ ไม่ได้แปลว่าง่าย เพราะมันยากมาก
แม้แต่นักคณิตศาสตร์มืออาชีพที่ไม่ได้มาจากสาย IMO ก็มักทำผลงานแบบนี้ได้ยาก
ไม่ได้หมายความว่า AI เก่งคณิตศาสตร์เหนือมนุษย์ เพราะนักคณิตศาสตร์มุ่งเน้นการขยายพรมแดนของคณิตศาสตร์
มีการบอกว่าคำตอบไม่ได้อยู่ในข้อมูลฝึก
และยังอ้างว่าโมเดลนี้ไม่ใช่โมเดลที่ปรับมาเฉพาะ IMO
- ทำให้นึกถึงตอนทำ data science ว่าการป้องกัน validation set leakage นั้นยากกว่าที่คิดมาก
  พอคอยปรับแต่งกระบวนการฝึกต่อเนื่อง แล้วประสิทธิภาพบน validation set ดีขึ้น เราก็จะย้อนกลับไปเลือกสถาปัตยกรรมและข้อมูลใหม่ให้เข้ากับมัน
  ถึงไม่ได้ตั้งใจ ข้อมูลจาก validation set ก็ค่อย ๆ ซึมเข้าไปในโมเดล
  แค่เลือก validation set คนละชุด ก็อาจได้โมเดลที่ต่างกันโดยสิ้นเชิง
- ผมยังสงสัยอยู่ดีว่ามันเป็นโมเดลเฉพาะทาง IMO จริงหรือเปล่า ในเธรด Twitter บอกว่าเป็น “การให้เหตุผลทั่วไป” แต่ถ้าไม่ได้ทำ RL (reinforcement learning) กับโจทย์คณิตโอลิมปิกจริง ๆ ก็อยากฟังคำชี้แจงอย่างเป็นทางการจาก OpenAI มาก
- ข้ออ้างที่ว่า “ไม่ใช่โมเดลเฉพาะ IMO” นี่อิงอะไรเป็นหลักฐานนะ
- อยากรู้ว่ามีหลักฐานหรือเหตุผลอะไรสนับสนุนคำพูดว่า “คำตอบไม่ได้อยู่ในข้อมูลฝึก” และ “ไม่ใช่โมเดลเฉพาะ IMO”
- ไม่ว่ามองยังไงก็ดูเกือบแน่นอนว่าเป็นโมเดลที่ปรับมาเพื่อ IMO โดยเฉพาะ
  แม้แต่วิธีตอบคำถามก็ดูเป็นแบบนั้นชัดเจน
  เช่น: https://xcancel.com/alexwei_/status/1946477742855532918
  ภาพหน้าจอคำตอบจริง: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
  มันดูคล้ายสไตล์ AlphaProof ที่สลับไปมาระหว่างภาษาธรรมชาติกับระบบอย่าง Lean
  OpenAI คงไม่แชร์รายละเอียดการติดตั้งใช้งานพวกนี้
ในเธรดมีบอกว่า: “โมเดลแก้ P1~P5 ได้ แต่ตอบ P6 ไม่ได้”
โจทย์ที่ยากที่สุด (P6) นั้นแม้แต่มนุษย์ก็แทบไม่มีใครแก้ได้ แม้แต่ทีมชาติจีนยังได้แค่ 21 จาก 42 คะแนน และประเทศอื่นส่วนใหญ่ก็ไม่มีใครแก้ได้เลย
- ใน IMO วันที่หนึ่งจะเจอ P1, P2, P3 และวันที่สองจะเจอ P4, P5, P6
  โดยทั่วไปตั้งใจจัดลำดับความยากเป็น P1, P4, P2, P5, P3, P6 โดย P1 ง่ายสุดและ P6 ยากสุด
  แต่ในความเป็นจริงบางปีก็อาจไม่เป็นตามลำดับนี้
- เหมือนจะมีใครบางคนในทีมแคนาดาแก้ P6 ได้ แต่โดยรวมแล้วมีน้อยมาก
- การที่เครื่องก็แก้ไม่ได้ในโจทย์ที่มนุษย์ก็รู้สึกว่ายากเหมือนกัน (โดยเฉพาะ P6) ดูเป็นเบาะแสว่ามนุษย์อาจมีส่วนแทรกแซง
  ถึงจะเป็นแค่ความบังเอิญเชิงกลก็ตาม มันก็สามารถพ่นคำตอบผิดออกมาได้เหมือนกัน เลยอดสงสัยไม่ได้ว่าพวกเขาเลือกเฉพาะคำตอบที่ถูกหรือเปล่า กล่าวคือคัดมาเฉพาะผลลัพธ์ที่สำเร็จหรือไม่
Google ก็เข้าร่วม IMO ครั้งนี้และได้ระดับเหรียญทองเหมือนกัน
ลิงก์: https://x.com/natolambert/status/1946569475396120653
เมื่อ OAI ประกาศก่อน ก็คงอีกไม่นาน Google จะออกประกาศอย่างเป็นทางการเช่นกัน
- คำพูดของ Noam Brown ที่ว่า “แม้แต่นักวิจัยภายใน OpenAI ก็ยังแปลกใจกับผลลัพธ์นี้” ทำให้ถ้าหลายแล็บได้ผลแบบเดียวกันในเวลาไล่เลี่ยกัน ก็น่าทึ่งยิ่งกว่าเดิม
  ใน Twitter มีคนบอกว่า Google ใช้ Lean ขณะที่ OpenAI ใช้แค่ LLM โดยไม่มีเครื่องมือ
  ไม่ว่าจะวิธีไหน ผลลัพธ์สุดท้ายสำคัญกว่าอยู่แล้ว แต่ข้อจำกัดของเทคนิคเฉพาะและเส้นทางพัฒนาก็น่าสนใจในฐานะข้อมูลประกอบ
- AlphaProof ของ Google ได้เหรียญเงินเมื่อปีที่แล้วและใช้แนวทาง neural+symbolic
  ความพิเศษของเหรียญทองจาก OpenAI คือดูเหมือนว่าทำได้ด้วย LLM ล้วน
  ถ้า Google ออกประกาศอย่างเป็นทางการ ก็น่าจะได้รู้ว่าใช้วิธีแบบไหน
  ข้อดีของแนวทาง LLM คือมีโอกาสทำให้ใช้ได้กว้างกับปัญหาการให้เหตุผลหลากหลายแบบ ไม่ใช่แค่การพิสูจน์ทางคณิตศาสตร์
Noam Brown:
นี่ไม่ใช่โมเดลเฉพาะ IMO แต่เป็น reasoning LLM ที่ใส่เทคนิคทั่วไปเชิงทดลองแบบใหม่เข้าไป
กระบวนการคิดมีประสิทธิภาพกว่าของ o1 และ o3 มาก และประสิทธิภาพตอนทดสอบก็ยังมีช่องให้ดันต่อได้อีก
ช่วงนี้ความก้าวหน้าของ AI เร็วมาก และเขาคาดว่าจะยังเดินหน้าต่อไป
โดยเฉพาะมองว่าเราใกล้ถึงจุดที่ AI จะมีส่วนช่วยการค้นพบทางวิทยาศาสตร์อย่างจริงจังแล้ว
ก่อนหน้านี้ผมเองเคยคิดว่าความก้าวหน้ากำลังช้าลง แต่จากคำกล่าวหลายอย่าง (ทั้งเรื่องไม่ใช่โมเดลเฉพาะทางและเรื่องยังเพิ่มประสิทธิภาพได้อีก) ทำให้เห็นชัดว่ามีความก้าวหน้าจริงอย่างมาก
ลิงก์: https://x.com/polynoamial/status/1946478249187377206
- ผมคิดว่าระหว่าง “โมเดลที่แก้ข้อสอบได้” กับ “AI ที่ช่วยการค้นพบทางวิทยาศาสตร์” ยังมีช่องว่างใหญ่มาก
- ฟังดูเหมือนฝัน แต่เหมือนกับที่มีการ fine-tune เพื่อสอบเฉพาะทางอย่างเนติบัณฑิต โมเดลพวกนี้ก็มักถูกฝึกกับข้อสอบปีก่อน ๆ มาอยู่แล้ว
- สงสัยว่าในกระบวนการ fine-tune มีการใช้เครื่องมือร่วมด้วยไหม (เช่น automated theorem prover)
- ตรงที่บอกว่า “คิดได้มีประสิทธิภาพกว่า o1, o3”
  เช่น “ถ้าฝ่ายตรงข้ามใช้รูปแบบการตอบสนอง (คงที่) แบบนี้ ก็ไม่มีวันแพ้ เธอจะชนะได้ก็ต่อเมื่อ (ทำให้อีกฝ่ายแพ้) Q_{even-1}>even กล่าวคือมี some a_j> sqrt2 แต่เรามีอยู่แล้วว่า a_j<=c< sqrt2 ดังนั้นจึงไม่มีวันแพ้” อะไรทำนองนี้
  มันแสดงท่าทีพยายามบีบคำพูดให้เหลือน้อยที่สุดเพื่อเพิ่มประสิทธิภาพสูงสุด
  ลิงก์: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
- ตอนนี้ที่ดูเหมือนเราเข้าสู่ภาวะ “peak data” แล้ว ก็เลยเริ่มสงสัยว่าเส้นทางความก้าวหน้าที่ชัดเจนของการเพิ่มประสิทธิภาพจะเป็นอย่างไรต่อไป
เป็นผลงานที่น่าประทับใจมากจริง ๆ แต่อยากรู้ว่าทำได้อย่างไร
จากที่ Wei อนุมานเรื่อง “scaling up test-time compute” ดูเหมือนน่าจะทุ่มเงินมหาศาล
ถ้าแค่รันขนานกันหลายพันหรือเป็นหมื่นครั้งแล้วเลือกผลที่ดีที่สุด ก็น่าผิดหวัง
ถ้าเป็นความสำเร็จที่แท้จริง ก็ควรเปิดเผยอย่างโปร่งใสว่าใช้เครื่องมืออะไรและใช้อย่างไร
คงมีหลายเทคนิคสำหรับเพิ่มผลงานในโจทย์ที่ตรวจสอบยากถูกรวมอยู่ในนี้ด้วย
- ถึงจะรันขนาน 10000 ครั้ง มันก็ไม่ได้น่าสนใจน้อยลงขนาดนั้น
  กลับกัน มันแปลว่าสามารถแยกแยะความถูกต้องและความเคร่งครัดของคำตอบได้ ซึ่งก็ไม่ต่างจากเวลามนุษย์บางคนแก้ได้เป็นครั้งคราวนัก
- ตามเธรด Twitter บอกว่าไม่ได้ให้เครื่องมือแยกต่างหาก
- ผมคิดว่าเป็นไปได้สูงที่ OpenAI รันแบบขนานหลายพันหรือเป็นหมื่นครั้งแล้วคัดผลลัพธ์ออกมา
  นี่ก็เป็นวิธีที่เคยใช้ตอน benchmark ARC ของ o3 รุ่นแรก
  อาจถึงขั้นเป็นการให้หลายเอเจนต์ช่วยกันทำงานด้วยซ้ำ ดังนั้นข้อจำกัดด้านความยาวบริบท (จำนวนโทเค็น) ก็น่าจะหลบเลี่ยงได้
  ตอนนี้ AI ก็เหนือมนุษย์ไปแล้ว 99.99% กับโจทย์คณิตศาสตร์ส่วนใหญ่ ดังนั้นจะชนะ 99.999% ก็ไม่ใช่เรื่องน่าตกใจนัก
- ถ้า OpenAI รัน 10000 ครั้งแล้วให้คนมาเลือกผลเอง ความหมายก็เปลี่ยนไปมาก
  แต่ถ้า LLM เป็นฝ่ายตรวจสอบและคัดเลือกเอง ก็คล้ายกับที่มนุษย์ลองผิดลองถูกหลายครั้งจนแก้โจทย์ยากสำเร็จ
  ต่างกันตรงที่ AI มีทรัพยากรคอมพิวต์มากพอจะทำแบบขนานได้ ส่วนมนุษย์ทำได้แค่แบบลำดับ
การแข่งขันนี้ (IMO) เป็นรายการระดับท็อปมาก จนดูเหมือนแม้แต่ในชุมชนโปรแกรมเมอร์ก็ยังมีหลายคนไม่รู้ชัดว่ามันคืออะไร
ถ้าคิดแบบคร่าว ๆ สำหรับสหรัฐฯ คนที่ถูกคัดเข้าค่าย (ซึ่งมีลุ้นระดับเหรียญทอง) มีราว 20 คน เทียบกับนักเรียนมัธยมปลายในช่วงอายุนั้นทั้งหมดประมาณ 20 ล้านคน ก็เท่ากับเป็นพรสวรรค์ระดับ “หนึ่งในล้าน”
- ไม่ได้ตั้งใจจะลดทอนว่าการแข่งขันนี้ยากแค่ไหน
  ผมเองก็เรียนโรงเรียนหัวกะทิ แต่ไม่เคยได้ยินเรื่อง IMO มาก่อนเลยจนเข้าเรียนมหาวิทยาลัยและได้เจอคนที่เคยเข้าแข่งขัน
  ในความเป็นจริง จำนวนนักเรียนที่รู้จักและเข้าร่วมการแข่งขันมีน้อยกว่าจำนวนนักเรียนทั้งหมดมาก
  ต่อให้ยังไม่พูดถึงฝีมือ ก็มีนักเรียนจำนวนมากที่ถ้าได้รับโอกาสและข้อมูลที่เหมาะสมก็น่าจะทำได้ดี
เพิ่งเห็นรายงานประเมิน LLM กับ IMO 2025 มาไม่นานนี้ โดย o3 high ยังไม่ถึงขั้นเหรียญทองแดงด้วยซ้ำ
ลิงก์: https://matharena.ai/imo/
อยากเห็นความเห็นของ Terry Tao เหมือนกัน แต่ผมคิดว่าความก้าวหน้าในด้านนี้แหละคือการใช้ AI ในทางบวก
แทนที่จะเร่งนวัตกรรมแบบไร้ทิศทางทั้งที่เศรษฐกิจยังไม่พร้อม ก็หวังว่าจะช่วยเร่งความก้าวหน้าทางวิทยาศาสตร์มากกว่า
- นี่คือปฏิกิริยาของ Terry Tao
  ลิงก์: https://mathstodon.xyz/@tao/114881419368778558

OpenAI ประกาศผลงานระดับเหรียญทองในการแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ (IMO) ปี 2025

ภาพรวมผลงานของ OpenAI LLM ใน IMO 2025

ความหมายของผลงานและระดับความยากที่พัฒนาไปอีกขั้น

แนวทางวิจัยและบริบทของพัฒนาการ AI

แนวโน้มในอนาคตและการกล่าวถึงจากชุมชน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News