5 คะแนน โดย GN⁺ 2025-07-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • LLM สำหรับการให้เหตุผลแบบทดลองที่ OpenAI พัฒนา ทำคะแนนได้ในระดับ เหรียญทอง ในการแข่งขันคณิตศาสตร์โอลิมปิกนานาชาติ (IMO) ปี 2025
  • ภายใต้ กติกา IMO อย่างเป็นทางการ เช่นเดียวกับผู้เข้าแข่งขันจริง ทั้งการแก้โจทย์ การเขียนพิสูจน์ด้วยภาษาธรรมชาติ และการให้คะแนนแบบเอกฉันท์โดยผู้ตรวจ 3 คน ได้ 35 คะแนนจากเต็ม 42 คะแนน (แก้ได้ 5 จาก 6 ข้อ)
  • โจทย์ IMO ต้องใช้การคิดสร้างสรรค์ระดับสูงและการพิสูจน์หลายขั้นตอน แสดงให้เห็นว่า LLM สามารถก้าวข้ามข้อจำกัดของวิธี RL แบบเดิม และมีศักยภาพในการสร้าง บทพิสูจน์เชิงตรรกะระดับมนุษย์
  • ความสำคัญอยู่ที่การบรรลุผลนี้ด้วย การเสริมกำลังการเรียนรู้แบบทั่วไปและการขยายการคำนวณช่วงทดสอบ ไม่ใช่แนวทางที่มุ่งเฉพาะงานใดงานหนึ่ง
  • โมเดลนี้เป็นเวอร์ชันวิจัยที่แยกจาก GPT-5 ซึ่งจะเปิดตัวในเร็ว ๆ นี้ และ การเปิดเผยความสามารถทางคณิตศาสตร์ระดับสูงสุดจะเกิดขึ้นในอีกไม่กี่เดือนข้างหน้า

ภาพรวมผลงานของ OpenAI LLM ใน IMO 2025

  • Alexander Wei (@alexwei_) แห่ง OpenAI ประกาศว่าโมเดลภาษาเพื่อการให้เหตุผลแบบทดลองรุ่นล่าสุดทำผลงานได้ในระดับ เกณฑ์เหรียญทองของ IMO 2025
    • IMO เป็นการแข่งขันที่มีความยากสูง โดยมีเยาวชนที่มีความสามารถทางคณิตศาสตร์โดดเด่นที่สุดจากทั่วโลกเข้าร่วม และเป็นที่รู้จักจากโจทย์ที่ต้องใช้การให้เหตุผลเชิงตรรกะที่ซับซ้อนและความเข้าใจเชิงแนวคิดอย่างลึกซึ้ง
  • วิธีประเมินดำเนินการ เหมือนผู้เข้าแข่งขันมนุษย์ทุกประการ ได้แก่ การสอบ 2 รอบ รอบละ 4.5 ชั่วโมง ใช้ข้อสอบทางการ ไม่ใช้เครื่องมือภายนอก และส่งคำพิสูจน์ด้วยภาษาธรรมชาติ
  • แต่ละข้อถูก อดีตผู้ได้รับเหรียญ IMO 3 คน ตรวจให้คะแนนอย่างอิสระ ก่อนสรุปคะแนนด้วยฉันทามติเป็นเอกฉันท์

ความหมายของผลงานและระดับความยากที่พัฒนาไปอีกขั้น

  • โจทย์ IMO ต้องการ เวลาคิดที่ยาวนานกว่า ความสร้างสรรค์มากกว่า และการโต้แย้งเชิงพิสูจน์ที่ซับซ้อนกว่า benchmark เดิมอย่าง GSM8K, MATH และ AIME มาก
  • โมเดลครั้งนี้ แก้ได้ครบ 5 ข้อ (P1~P5) และไม่ส่งคำตอบข้อ P6 จึงได้ 35/42 คะแนน ซึ่งถึงเกณฑ์เหรียญทองของ IMO จริง
  • ความสามารถในการสร้าง บทพิสูจน์เชิงตรรกะยาวหลายหน้า ถือว่าก้าวข้ามข้อจำกัดของ reinforcement learning (RL) แบบเดิม

แนวทางวิจัยและบริบทของพัฒนาการ AI

  • โมเดลนี้บรรลุสมรรถนะสูงด้วยแนวทางที่อิง RL แบบทั่วไปและการขยายการคำนวณ ไม่ใช่โมเดลที่สร้างมาเพื่อแก้โจทย์เฉพาะทางเท่านั้น
  • ประสบความสำเร็จในการสร้าง ผลลัพธ์เชิงสร้างสรรค์ที่ซับซ้อน แม้ไม่มีระบบรางวัลที่ชัดเจนแบบที่ RL แบบเดิมมักอาศัย
  • เป็นโมเดลทดลองที่แยกจาก GPT-5 ซึ่งจะเปิดตัวในเร็ว ๆ นี้ และ ยังไม่มีแผนเปิดให้สาธารณะใช้งานความสามารถทางคณิตศาสตร์ระดับนี้ภายในไม่กี่เดือนนี้

แนวโน้มในอนาคตและการกล่าวถึงจากชุมชน

  • ความก้าวหน้าของความสามารถทางคณิตศาสตร์ของ AI เร็วกว่าที่คาดไว้อย่างมาก (เมื่อเทียบกับการคาดการณ์ในปี 2021 ว่า MATH benchmark จะอยู่ที่ 30% ก่อนจะมาถึงระดับเหรียญทอง IMO)
  • Alexander กล่าว แสดงความยินดีกับผู้เข้าแข่งขัน IMO 2025 ทุกคน พร้อมเน้นว่าภายในทีมมีอดีตผู้เข้าแข่งขัน IMO อยู่หลายคน
  • มีแผนจะเผยแพร่คำตอบของโมเดลสำหรับโจทย์ IMO 2025 เช่นกัน แม้จะเป็นสไตล์การเขียนแบบทดลอง

1 ความคิดเห็น

 
GN⁺ 2025-07-20
ความคิดเห็นจาก Hacker News
  • Noam Brown: ถ้าทำงานในแล็บวิจัยระดับแนวหน้า ปกติก็มักจะได้เห็นความสามารถใหม่ ๆ ล่วงหน้าก่อนคนอื่นอยู่หลายเดือน แต่ผลลัพธ์ครั้งนี้เป็นความก้าวหน้าใหม่จริง ๆ ที่ใช้เทคนิคซึ่งเพิ่งพัฒนาขึ้นไม่นาน แม้แต่นักวิจัยภายใน OpenAI เองก็ยังประหลาดใจ วันนี้ทุกคนจึงได้เห็นแล้วว่าขอบเขตของแนวหน้าล่าสุดอยู่ตรงไหน
    อีกอย่าง ความสำเร็จครั้งนี้ขับเคลื่อนโดยทีมเล็ก ๆ โดย Alex Wei สามารถทำให้ไอเดียวิจัยที่แทบไม่มีใครเชื่อนักกลายเป็นผลลัพธ์จริงได้ งานวิจัยและวิศวกรรมที่สั่งสมมานานของ OpenAI และชุมชน AI ก็มีบทบาทมากเช่นกัน
    ลิงก์: https://x.com/polynoamial/status/1946478258968531288

    • หวังว่าเทคนิคใหม่นั้นคงไม่ใช่การเทรนด้วยข้อมูลทดสอบนะ /ล้อเล่น
  • ที่น่าสนใจคือ วิธีทำข้อสอบ IMO ใช้คำศัพท์ค่อนข้างจำกัดจนน่าประทับใจ
    ลิงก์: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_1.txt “ถ้าคำพูดน้อยกว่าสื่อสารได้ดีกว่า ก็ไม่มีเหตุผลต้องพูดให้ยืดยาว”
    และอีกจุดที่น่าสังเกตคือ Alex Wei เองก็เป็นเจ้าของเหรียญทอง IOI ด้วย

    • มุมหนึ่งก็น่าสนใจที่มันดูคล้ายโน้ตที่ผู้เข้าแข่งขันจริงจดไว้ระหว่างทำข้อสอบ การตัดคำพูดที่ไม่จำเป็นออกช่วยลดสัญญาณรบกวนของข้อมูลและช่วยให้โฟกัสดีขึ้น โดยเฉพาะเมื่อ LLM สร้างทีละโทเค็นและมีข้อจำกัดด้านความยาวบริบท ก็ชวนให้สงสัยว่าถ้าใช้เฉพาะโทเค็นที่มีความหมาย อาจนำไปสู่กระบวนการคิดที่ยาวขึ้นและสอดคล้องกันมากขึ้นได้หรือไม่
    • น่าสนใจตรงที่เขาได้เหรียญทอง IOI (โอลิมปิกสารสนเทศ) แต่ที่คุยกันอยู่ตรงนี้คือ IMO (โอลิมปิกคณิตศาสตร์)
    • Terence Tao เองก็เพิ่งทำนายในพอดแคสต์ล่าสุดว่า LLM จะได้เหรียญทองในปีนี้
    • ในทรานส์ฟอร์เมอร์ ไม่ว่าโทเค็นจะสื่อความหมายมากน้อยแค่ไหน เวลาที่ใช้สร้างแต่ละโทเค็นก็เท่ากัน ถ้าตัดส่วนที่ซ้ำซ้อนหรือไม่จำเป็นในข้อความออก ความเร็วก็จะเพิ่มขึ้นมาก
    • พอพูดว่า “see the world” ก็อยากถามว่าแปลว่า “มองโลก” หรือเป็นมุกเสียงพ้องแบบ “seaworld” กันแน่
  • ใครที่ดูแคลนเพราะคิดว่านี่เป็นแค่ระดับมัธยมปลาย ผมแนะนำให้ลองทำโจทย์ IMO สักข้อ ทุกข้อรวมถึงของปีนี้เปิดเผยต่อสาธารณะหมดแล้ว
    ลิงก์: https://www.imo-official.org/problems.aspx
    ผมนี่มึนไปเลย

    • เกี่ยวกับเรื่องนี้ มีวิดีโอที่แสดงให้เห็นว่าคนเราคิดและค่อย ๆ แก้ปัญหาแบบนี้กันอย่างไรจริง ๆ
    • ผมชอบดูวิดีโอ YouTube แนวแก้โจทย์แบบนี้ มันดูเหมือนง่ายบนผิวเผินแต่จริง ๆ เหมือนกลลวง
      ยกตัวอย่างเช่นโจทย์ x+y=1, xy=1 พอดูเฉลยแล้วกลับใช้แค่พีชคณิตพื้นฐานที่เรารู้กันอยู่แล้ว (การแยกตัวประกอบ สูตรกำลังสอง ฯลฯ) แต่คำอธิบายก็ยังงดงามมาก
      มันทำให้รู้สึกว่าถ้าคิดนานพอก็น่าจะหาคำตอบได้ แต่จากประสบการณ์ของผมจริง ๆ แล้วไม่ใช่เลย
      ลิงก์: https://www.youtube.com/watch?v=csS4BjQuhCc
    • สงสัยว่าโจทย์ IMO แบบนี้ถ้าเทียบกับโจทย์ระดับ hard ของ leetcode จะประมาณไหน
    • เพิ่งรู้ตอนนี้เองว่าโจทย์ IMO มีหลายเวอร์ชันภาษา
      ดูเหมือนจะราว ๆ 50 ภาษา ซึ่งพอมีมากขนาดนั้นก็ทำให้นึกถึงว่าการรักษาความปลอดภัย เช่น การป้องกันข้อสอบรั่ว น่าจะยากขึ้นมาก
  • ที่บอกว่าโจทย์พวกนี้เป็นระดับมัธยมปลาย หมายถึงแค่ในแง่พื้นความรู้ ไม่ได้แปลว่าง่าย เพราะมันยากมาก
    แม้แต่นักคณิตศาสตร์มืออาชีพที่ไม่ได้มาจากสาย IMO ก็มักทำผลงานแบบนี้ได้ยาก
    ไม่ได้หมายความว่า AI เก่งคณิตศาสตร์เหนือมนุษย์ เพราะนักคณิตศาสตร์มุ่งเน้นการขยายพรมแดนของคณิตศาสตร์
    มีการบอกว่าคำตอบไม่ได้อยู่ในข้อมูลฝึก
    และยังอ้างว่าโมเดลนี้ไม่ใช่โมเดลที่ปรับมาเฉพาะ IMO

    • ทำให้นึกถึงตอนทำ data science ว่าการป้องกัน validation set leakage นั้นยากกว่าที่คิดมาก
      พอคอยปรับแต่งกระบวนการฝึกต่อเนื่อง แล้วประสิทธิภาพบน validation set ดีขึ้น เราก็จะย้อนกลับไปเลือกสถาปัตยกรรมและข้อมูลใหม่ให้เข้ากับมัน
      ถึงไม่ได้ตั้งใจ ข้อมูลจาก validation set ก็ค่อย ๆ ซึมเข้าไปในโมเดล
      แค่เลือก validation set คนละชุด ก็อาจได้โมเดลที่ต่างกันโดยสิ้นเชิง
    • ผมยังสงสัยอยู่ดีว่ามันเป็นโมเดลเฉพาะทาง IMO จริงหรือเปล่า ในเธรด Twitter บอกว่าเป็น “การให้เหตุผลทั่วไป” แต่ถ้าไม่ได้ทำ RL (reinforcement learning) กับโจทย์คณิตโอลิมปิกจริง ๆ ก็อยากฟังคำชี้แจงอย่างเป็นทางการจาก OpenAI มาก
    • ข้ออ้างที่ว่า “ไม่ใช่โมเดลเฉพาะ IMO” นี่อิงอะไรเป็นหลักฐานนะ
    • อยากรู้ว่ามีหลักฐานหรือเหตุผลอะไรสนับสนุนคำพูดว่า “คำตอบไม่ได้อยู่ในข้อมูลฝึก” และ “ไม่ใช่โมเดลเฉพาะ IMO”
    • ไม่ว่ามองยังไงก็ดูเกือบแน่นอนว่าเป็นโมเดลที่ปรับมาเพื่อ IMO โดยเฉพาะ
      แม้แต่วิธีตอบคำถามก็ดูเป็นแบบนั้นชัดเจน
      เช่น: https://xcancel.com/alexwei_/status/1946477742855532918
      ภาพหน้าจอคำตอบจริง: https://pbs.twimg.com/media/GwLtrPeWIAUMDYI.png?name=orig
      มันดูคล้ายสไตล์ AlphaProof ที่สลับไปมาระหว่างภาษาธรรมชาติกับระบบอย่าง Lean
      OpenAI คงไม่แชร์รายละเอียดการติดตั้งใช้งานพวกนี้
  • ในเธรดมีบอกว่า: “โมเดลแก้ P1~P5 ได้ แต่ตอบ P6 ไม่ได้”
    โจทย์ที่ยากที่สุด (P6) นั้นแม้แต่มนุษย์ก็แทบไม่มีใครแก้ได้ แม้แต่ทีมชาติจีนยังได้แค่ 21 จาก 42 คะแนน และประเทศอื่นส่วนใหญ่ก็ไม่มีใครแก้ได้เลย

    • ใน IMO วันที่หนึ่งจะเจอ P1, P2, P3 และวันที่สองจะเจอ P4, P5, P6
      โดยทั่วไปตั้งใจจัดลำดับความยากเป็น P1, P4, P2, P5, P3, P6 โดย P1 ง่ายสุดและ P6 ยากสุด
      แต่ในความเป็นจริงบางปีก็อาจไม่เป็นตามลำดับนี้
    • เหมือนจะมีใครบางคนในทีมแคนาดาแก้ P6 ได้ แต่โดยรวมแล้วมีน้อยมาก
    • การที่เครื่องก็แก้ไม่ได้ในโจทย์ที่มนุษย์ก็รู้สึกว่ายากเหมือนกัน (โดยเฉพาะ P6) ดูเป็นเบาะแสว่ามนุษย์อาจมีส่วนแทรกแซง
      ถึงจะเป็นแค่ความบังเอิญเชิงกลก็ตาม มันก็สามารถพ่นคำตอบผิดออกมาได้เหมือนกัน เลยอดสงสัยไม่ได้ว่าพวกเขาเลือกเฉพาะคำตอบที่ถูกหรือเปล่า กล่าวคือคัดมาเฉพาะผลลัพธ์ที่สำเร็จหรือไม่
  • Google ก็เข้าร่วม IMO ครั้งนี้และได้ระดับเหรียญทองเหมือนกัน
    ลิงก์: https://x.com/natolambert/status/1946569475396120653
    เมื่อ OAI ประกาศก่อน ก็คงอีกไม่นาน Google จะออกประกาศอย่างเป็นทางการเช่นกัน

    • คำพูดของ Noam Brown ที่ว่า “แม้แต่นักวิจัยภายใน OpenAI ก็ยังแปลกใจกับผลลัพธ์นี้” ทำให้ถ้าหลายแล็บได้ผลแบบเดียวกันในเวลาไล่เลี่ยกัน ก็น่าทึ่งยิ่งกว่าเดิม
      ใน Twitter มีคนบอกว่า Google ใช้ Lean ขณะที่ OpenAI ใช้แค่ LLM โดยไม่มีเครื่องมือ
      ไม่ว่าจะวิธีไหน ผลลัพธ์สุดท้ายสำคัญกว่าอยู่แล้ว แต่ข้อจำกัดของเทคนิคเฉพาะและเส้นทางพัฒนาก็น่าสนใจในฐานะข้อมูลประกอบ
    • AlphaProof ของ Google ได้เหรียญเงินเมื่อปีที่แล้วและใช้แนวทาง neural+symbolic
      ความพิเศษของเหรียญทองจาก OpenAI คือดูเหมือนว่าทำได้ด้วย LLM ล้วน
      ถ้า Google ออกประกาศอย่างเป็นทางการ ก็น่าจะได้รู้ว่าใช้วิธีแบบไหน
      ข้อดีของแนวทาง LLM คือมีโอกาสทำให้ใช้ได้กว้างกับปัญหาการให้เหตุผลหลากหลายแบบ ไม่ใช่แค่การพิสูจน์ทางคณิตศาสตร์
  • Noam Brown:
    นี่ไม่ใช่โมเดลเฉพาะ IMO แต่เป็น reasoning LLM ที่ใส่เทคนิคทั่วไปเชิงทดลองแบบใหม่เข้าไป
    กระบวนการคิดมีประสิทธิภาพกว่าของ o1 และ o3 มาก และประสิทธิภาพตอนทดสอบก็ยังมีช่องให้ดันต่อได้อีก
    ช่วงนี้ความก้าวหน้าของ AI เร็วมาก และเขาคาดว่าจะยังเดินหน้าต่อไป
    โดยเฉพาะมองว่าเราใกล้ถึงจุดที่ AI จะมีส่วนช่วยการค้นพบทางวิทยาศาสตร์อย่างจริงจังแล้ว
    ก่อนหน้านี้ผมเองเคยคิดว่าความก้าวหน้ากำลังช้าลง แต่จากคำกล่าวหลายอย่าง (ทั้งเรื่องไม่ใช่โมเดลเฉพาะทางและเรื่องยังเพิ่มประสิทธิภาพได้อีก) ทำให้เห็นชัดว่ามีความก้าวหน้าจริงอย่างมาก
    ลิงก์: https://x.com/polynoamial/status/1946478249187377206

    • ผมคิดว่าระหว่าง “โมเดลที่แก้ข้อสอบได้” กับ “AI ที่ช่วยการค้นพบทางวิทยาศาสตร์” ยังมีช่องว่างใหญ่มาก
    • ฟังดูเหมือนฝัน แต่เหมือนกับที่มีการ fine-tune เพื่อสอบเฉพาะทางอย่างเนติบัณฑิต โมเดลพวกนี้ก็มักถูกฝึกกับข้อสอบปีก่อน ๆ มาอยู่แล้ว
    • สงสัยว่าในกระบวนการ fine-tune มีการใช้เครื่องมือร่วมด้วยไหม (เช่น automated theorem prover)
    • ตรงที่บอกว่า “คิดได้มีประสิทธิภาพกว่า o1, o3”
      เช่น “ถ้าฝ่ายตรงข้ามใช้รูปแบบการตอบสนอง (คงที่) แบบนี้ ก็ไม่มีวันแพ้ เธอจะชนะได้ก็ต่อเมื่อ (ทำให้อีกฝ่ายแพ้) Q_{even-1}>even กล่าวคือมี some a_j> sqrt2 แต่เรามีอยู่แล้วว่า a_j<=c< sqrt2 ดังนั้นจึงไม่มีวันแพ้” อะไรทำนองนี้
      มันแสดงท่าทีพยายามบีบคำพูดให้เหลือน้อยที่สุดเพื่อเพิ่มประสิทธิภาพสูงสุด
      ลิงก์: https://github.com/aw31/openai-imo-2025-proofs/blob/main/problem_5.txt
    • ตอนนี้ที่ดูเหมือนเราเข้าสู่ภาวะ “peak data” แล้ว ก็เลยเริ่มสงสัยว่าเส้นทางความก้าวหน้าที่ชัดเจนของการเพิ่มประสิทธิภาพจะเป็นอย่างไรต่อไป
  • เป็นผลงานที่น่าประทับใจมากจริง ๆ แต่อยากรู้ว่าทำได้อย่างไร
    จากที่ Wei อนุมานเรื่อง “scaling up test-time compute” ดูเหมือนน่าจะทุ่มเงินมหาศาล
    ถ้าแค่รันขนานกันหลายพันหรือเป็นหมื่นครั้งแล้วเลือกผลที่ดีที่สุด ก็น่าผิดหวัง
    ถ้าเป็นความสำเร็จที่แท้จริง ก็ควรเปิดเผยอย่างโปร่งใสว่าใช้เครื่องมืออะไรและใช้อย่างไร
    คงมีหลายเทคนิคสำหรับเพิ่มผลงานในโจทย์ที่ตรวจสอบยากถูกรวมอยู่ในนี้ด้วย

    • ถึงจะรันขนาน 10000 ครั้ง มันก็ไม่ได้น่าสนใจน้อยลงขนาดนั้น
      กลับกัน มันแปลว่าสามารถแยกแยะความถูกต้องและความเคร่งครัดของคำตอบได้ ซึ่งก็ไม่ต่างจากเวลามนุษย์บางคนแก้ได้เป็นครั้งคราวนัก
    • ตามเธรด Twitter บอกว่าไม่ได้ให้เครื่องมือแยกต่างหาก
    • ผมคิดว่าเป็นไปได้สูงที่ OpenAI รันแบบขนานหลายพันหรือเป็นหมื่นครั้งแล้วคัดผลลัพธ์ออกมา
      นี่ก็เป็นวิธีที่เคยใช้ตอน benchmark ARC ของ o3 รุ่นแรก
      อาจถึงขั้นเป็นการให้หลายเอเจนต์ช่วยกันทำงานด้วยซ้ำ ดังนั้นข้อจำกัดด้านความยาวบริบท (จำนวนโทเค็น) ก็น่าจะหลบเลี่ยงได้
      ตอนนี้ AI ก็เหนือมนุษย์ไปแล้ว 99.99% กับโจทย์คณิตศาสตร์ส่วนใหญ่ ดังนั้นจะชนะ 99.999% ก็ไม่ใช่เรื่องน่าตกใจนัก
    • ถ้า OpenAI รัน 10000 ครั้งแล้วให้คนมาเลือกผลเอง ความหมายก็เปลี่ยนไปมาก
      แต่ถ้า LLM เป็นฝ่ายตรวจสอบและคัดเลือกเอง ก็คล้ายกับที่มนุษย์ลองผิดลองถูกหลายครั้งจนแก้โจทย์ยากสำเร็จ
      ต่างกันตรงที่ AI มีทรัพยากรคอมพิวต์มากพอจะทำแบบขนานได้ ส่วนมนุษย์ทำได้แค่แบบลำดับ
  • การแข่งขันนี้ (IMO) เป็นรายการระดับท็อปมาก จนดูเหมือนแม้แต่ในชุมชนโปรแกรมเมอร์ก็ยังมีหลายคนไม่รู้ชัดว่ามันคืออะไร
    ถ้าคิดแบบคร่าว ๆ สำหรับสหรัฐฯ คนที่ถูกคัดเข้าค่าย (ซึ่งมีลุ้นระดับเหรียญทอง) มีราว 20 คน เทียบกับนักเรียนมัธยมปลายในช่วงอายุนั้นทั้งหมดประมาณ 20 ล้านคน ก็เท่ากับเป็นพรสวรรค์ระดับ “หนึ่งในล้าน”

    • ไม่ได้ตั้งใจจะลดทอนว่าการแข่งขันนี้ยากแค่ไหน
      ผมเองก็เรียนโรงเรียนหัวกะทิ แต่ไม่เคยได้ยินเรื่อง IMO มาก่อนเลยจนเข้าเรียนมหาวิทยาลัยและได้เจอคนที่เคยเข้าแข่งขัน
      ในความเป็นจริง จำนวนนักเรียนที่รู้จักและเข้าร่วมการแข่งขันมีน้อยกว่าจำนวนนักเรียนทั้งหมดมาก
      ต่อให้ยังไม่พูดถึงฝีมือ ก็มีนักเรียนจำนวนมากที่ถ้าได้รับโอกาสและข้อมูลที่เหมาะสมก็น่าจะทำได้ดี
  • เพิ่งเห็นรายงานประเมิน LLM กับ IMO 2025 มาไม่นานนี้ โดย o3 high ยังไม่ถึงขั้นเหรียญทองแดงด้วยซ้ำ
    ลิงก์: https://matharena.ai/imo/
    อยากเห็นความเห็นของ Terry Tao เหมือนกัน แต่ผมคิดว่าความก้าวหน้าในด้านนี้แหละคือการใช้ AI ในทางบวก
    แทนที่จะเร่งนวัตกรรมแบบไร้ทิศทางทั้งที่เศรษฐกิจยังไม่พร้อม ก็หวังว่าจะช่วยเร่งความก้าวหน้าทางวิทยาศาสตร์มากกว่า