GPT-5.4 Pro แก้ปัญหาคณิตศาสตร์ยากแบบแรมซีย์ของไฮเปอร์กราฟ

(epoch.ai)

2 คะแนน โดย GN⁺ 2026-03-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

GPT-5.4 Pro แก้ปัญหา แบบแรมซีย์ ที่เกี่ยวข้องกับไฮเปอร์กราฟ ผ่านความร่วมมือกับ Kevin Barreto และ Liam Price
Will Brian ผู้เสนอปัญหา ได้ตรวจสอบความถูกต้องของวิธีแก้แล้ว และมีการเผยแพร่บันทึกบทสนทนาทั้งหมดพร้อมกับ เอกสารคำอธิบายขั้นสุดท้ายของ AI
วิธีแก้นี้ขจัดความไม่มีประสิทธิภาพของโครงสร้างขอบล่างเดิม และนำเสนอ โครงสร้างสมมาตรของขอบบน ทำให้บรรลุ ความสอดคล้องที่พบได้ยากในทฤษฎีแรมซีย์
ต่อมา ในเฟรมเวิร์ก FrontierMath: Open Problems โมเดลหลายตัวได้แก้ปัญหาเดียวกันสำเร็จ แสดงให้เห็นว่าเฟรมเวิร์กนี้ใช้เป็น เครื่องมือยืนยันความสามารถในการให้เหตุผลทางคณิตศาสตร์ของ AI ได้อย่างมีประสิทธิภาพ
ผลงานนี้ถูกประเมินว่าเป็น กรณีตัวอย่างที่แสดงว่า AI สามารถมีส่วนร่วมอย่างเป็นรูปธรรมในการแก้ปัญหาคณิตศาสตร์ที่ยังไม่ถูกแก้ได้

การแก้ปัญหาแบบแรมซีย์ของไฮเปอร์กราฟ

GPT-5.4 Pro แก้ปัญหายากที่เกี่ยวข้องกับไฮเปอร์กราฟ คือ ปัญหาแบบแรมซีย์ ผ่านความร่วมมือกับ Kevin Barreto และ Liam Price
- Will Brian ผู้เสนอปัญหา ได้ตรวจสอบความถูกต้องของวิธีแก้
- มีการเปิดเผยบันทึกบทสนทนาทั้งหมดของกระบวนการแก้ปัญหา และเอกสารคำอธิบายขั้นสุดท้ายของ GPT-5.4 Pro
Brian ประเมินว่าวิธีแก้นี้ ขจัดความไม่มีประสิทธิภาพของโครงสร้างขอบล่างเดิม และแสดงให้เห็น ความซับซ้อนและโครงสร้างสมมาตรของการสร้างขอบบน
- ผลลัพธ์ที่ขอบล่างและขอบบนสอดคล้องกันนี้ ทำให้บรรลุ ความสม่ำเสมอในระดับที่พบได้ยากในโจทย์ทฤษฎีแรมซีย์
- เขาวางแผนจะเรียบเรียงผลลัพธ์นี้เป็นบทความวิชาการ และอาจรวมงานวิจัยต่อยอดที่ได้แรงบันดาลใจจากแนวคิดของ AI ด้วย
หลังจากนั้น Epoch AI ได้ทำเฟรมเวิร์กทดสอบ FrontierMath: Open Problems ให้เสร็จสมบูรณ์ และนำปัญหาเดียวกันนี้ไปใช้กับหลายโมเดล
- โมเดล Opus 4.6 (max), Gemini 3.1 Pro, และ GPT-5.4 (xhigh) ก็แก้ปัญหานี้สำเร็จเช่นกัน
- สิ่งนี้แสดงให้เห็นว่าสภาพแวดล้อมของ FrontierMath มีประสิทธิภาพในการประเมินความสามารถในการให้เหตุผลทางคณิตศาสตร์ของโมเดล AI

นิยามของปัญหา

ปัญหานี้มุ่งเน้นไปที่การปรับปรุงขอบล่างของลำดับ (H(n)) ซึ่งปรากฏในการศึกษาว่า เซตอนุกรมอนันต์ลู่เข้าพร้อมกัน อย่างไร
- การที่ไฮเปอร์กราฟ ((V, \mathcal H)) มี พาร์ทิชัน (partition) ขนาด (n) หมายความว่า มี (D \subseteq V), (\mathcal P \subseteq \mathcal H) ซึ่งทำให้ (|D| = n) และ สมาชิกแต่ละตัวของ (D) อยู่ในสมาชิกของ (\mathcal P) เพียงตัวเดียวอย่างพอดี
- (H(n)) ถูกนิยามเป็นจำนวนจุดยอดสูงสุด (k) ของไฮเปอร์กราฟที่ ไม่มีจุดยอดโดดเดี่ยว และไม่มีพาร์ทิชันที่มีขนาดมากกว่า (n)
ขอบล่างของ (H(n)) ที่ทราบอยู่แล้วมีแนวโน้มว่ายังไม่เหมาะที่สุด และเชื่อว่าสามารถปรับปรุงได้ด้วย โครงสร้างไฮเปอร์กราฟแบบใหม่
- เป้าหมายคือหาอัลกอริทึมที่ทำให้เป็นจริงว่า (H(n) \ge c \cdot k_n) (โดยที่ (c > 1))
- (k_n) นิยามโดยรีเคอร์เรนซ์ (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})

ขั้นตอนการจัดโจทย์ปัญหา

ขั้น Warm-up
- สร้างไฮเปอร์กราฟสำหรับค่า (n) ที่มีวิธีแก้ซึ่งทราบอยู่แล้ว
- เงื่อนไข: (|V| ≥ 64), (|H| ≤ 20), และไม่มีพาร์ทิชันที่มีขนาดเกิน 20
ขั้น Single Challenge
- เป็นโจทย์ให้หาไฮเปอร์กราฟภายใต้เงื่อนไขเดียวกัน สำหรับค่า (n) ที่ยังไม่มีวิธีแก้ที่ทราบ
- เงื่อนไข: (|V| ≥ 66), (|H| ≤ 20), และไม่มีพาร์ทิชันที่มีขนาดเกิน 20
ขั้น Full Problem
- ต้องการ อัลกอริทึมทั่วไป ที่ใช้ได้กับทุกค่า (n)
- สำหรับอินพุต (n) ต้องสร้างไฮเปอร์กราฟที่ทำให้เป็นจริงว่า (H(n) ≥ c \cdot k_n)
- เมื่อ (n ≤ 100) ต้องสามารถรันได้ภายใน 10 นาทีบนโน้ตบุ๊กทั่วไป

การประเมินของนักคณิตศาสตร์

นักคณิตศาสตร์ที่คุ้นเคยกับปัญหานี้มีอยู่ในระดับ ประมาณ 10 คน ซึ่งรวมถึงนักวิจัยเฉพาะทางจำนวนมาก
นักคณิตศาสตร์ที่ได้ลองแก้ปัญหานี้จริง ๆ คาดว่ามี ประมาณ 5–10 คน
ระยะเวลาที่คาดว่าผู้เชี่ยวชาญจะใช้แก้ปัญหานี้คือ 1–3 เดือน
หากแก้ได้ จะถือว่าอยู่ในระดับที่ สามารถตีพิมพ์ในวารสารวิชาการเฉพาะทางได้
เนื่องจากปัญหานี้มีความอุดมสมบูรณ์ในเชิงเนื้อหา จึงมี โอกาสสูงที่คำตอบจะนำไปสู่งานวิจัยคณิตศาสตร์ใหม่
ภายใต้เงื่อนไขที่ระบุไว้ มีการประเมินว่า ความน่าจะเป็นที่ปัญหานี้จะแก้ได้อยู่ที่ 95–99%

1 ความคิดเห็น

GN⁺ 2026-03-25

ความคิดเห็นบน Hacker News

รู้สึกน่าทึ่งที่หลายคนยังฟันธงว่า “LLM ไม่มีทางมี ความคิดสร้างสรรค์ที่แท้จริง ได้”
แค่บอกว่า “เป็นไปไม่ได้เพราะไม่มีในข้อมูลฝึก” นั้นไม่เพียงพอ เพราะมีตัวอย่างโต้แย้งมากมายแล้ว
ถ้าอย่างนั้นก็ควรมีเหตุผลรองรับว่าทำไมงานใหม่บางอย่างถึงทำได้ แต่บางอย่างถึงทำไม่ได้
ถ้ายอมรับว่า ‘ความใหม่’ อยู่บนสเปกตรัมต่อเนื่อง ก็อยากรู้ว่าเส้นแบ่งอยู่ตรงไหน และต้องมี หลักฐาน แบบไหนถึงจะเปลี่ยนความคิดได้
- ถ้าตอบคำถามนี้ด้วยตัวเอง ก็มีข้อโต้แย้งเชิงตรรกะเกี่ยวกับ ข้อจำกัดพื้นฐาน ของ LLM อยู่เหมือนกัน
  1. เพราะมันเรียนจากข้อมูลของมนุษย์ จึงเลียนแบบข้อจำกัดของมนุษย์
  2. มันไม่ได้เรียนรู้จากประสบการณ์
    แต่ก็มีข้อโต้แย้งกลับเช่นกัน หลังจากเห็นโมเดลที่ได้เหรียญทองโอลิมปิกคณิตศาสตร์ ก็เลิกเชื่อข้อแรกไปแล้ว
    และดูเหมือนว่าการเพิ่ม RL กับหน่วยความจำจะช่วยข้ามข้อจำกัดข้อที่สองได้
    บางที LLM ขนาดใหญ่อาจ ซึมซับเป็นเนื้อเดียวกัน กับข้อมูลได้เหมือนมนุษย์ก็ได้
    ตัวอย่างที่เกี่ยวข้อง: บทความในบล็อก METR
- โดยพื้นฐานแล้ว LLM สามารถ สร้างอะไรก็ได้ เพียงแต่มันไม่เข้าใจสิ่งที่ตัวเองสร้าง
  มนุษย์มักนิยาม “ความใหม่ที่แท้จริง” ให้ยิ่งใหญ่เกินไป — เช่น สูตรตัวนำยิ่งยวดหรือการค้นพบยาใหม่
  แต่จริง ๆ แล้วแม้แต่วิธีผูกเชือกรองเท้าแบบใหม่ก็ถือว่าเป็นความใหม่ในเชิง ‘รูปแบบ’
  LLM แก้ปัญหาเล็ก ๆ แบบนี้ได้จำนวนมาก แต่ก็อาจไม่ใช่ นวัตกรรมที่มีความหมาย จนมนุษย์ต้องทึ่ง
- ผมกำลังทำยูทิลิตีบน macOS ที่ให้มอง ‘ทะลุความโปร่งใส’ ของหน้าต่างแอปได้ แล้ว Claude Code แนะนำว่าอย่าใช้ ScreenCaptureKit
  มัน ปฏิเสธได้อย่างแม่นยำ โดยให้เหตุผลเรื่องโอเวอร์เฮดด้านประสิทธิภาพ และเสนอแนวทางที่ต่างออกไปโดยสิ้นเชิง
  แม้จะไม่ใช่ปัญหาใหม่มาก แต่ก็เป็น วิธีแก้ที่สร้างสรรค์ จนน่าประหลาดใจ
  ภาพโปรเจกต์
- เหตุผลที่ LLM แก้โจทย์การคูณใหม่ ๆ ได้ ก็เพราะระหว่างการฝึกมันเห็นตัวอย่างการคูณมามากมายและเรียนรู้ กลยุทธ์เชิงนามธรรมที่ถูกบีบอัดไว้
  ไม่ใช่การท่องจำอย่างเดียว แต่เป็นการซึมซับการดำเนินการที่ทำให้เกิดการทั่วไปได้ไว้ในวงจรภายในของโครงข่ายประสาท
- สิ่งประดิษฐ์ส่วนใหญ่คือผลของ การอินเตอร์โพเลต (interpolation) ระหว่างไอเดียเดิมสามอย่าง และระบบแบบนี้เก่งเรื่องนั้นมาก
ผมเคยคิดว่าจะเชื่อก็ต่อเมื่อ AI แก้ปัญหายากได้ด้วยตัวเอง แต่ถ้าผลครั้งนี้เป็นของจริง ก็คงรู้สึกเหมือนกลายเป็น ผู้ศรัทธา ไปแล้ว
ยังอยากเห็นอีกหลายกรณี แต่โลกกำลังเปลี่ยนไปในทางที่ใหม่และน่าตื่นเต้นจริง ๆ
- ปัญหาการแข่งขันคณิตศาสตร์และเขียนโค้ดมีกฎชัดเจนและตรวจสอบได้ง่าย จึงเหมาะกับการฝึกมาก
  แต่ในงานอย่างคุณภาพโค้ดซึ่งเป็น พื้นที่ที่นิยามคลุมเครือ อาการหลอนจะเพิ่มขึ้น
  เพราะไม่มี ฟังก์ชันคุณค่า ที่เรียนรู้ได้เองแบบ AlphaGo การใช้ RL อย่างเดียวจึงมีขีดจำกัด
- มากกว่าจะเป็น “โลกใหม่ที่น่าตื่นเต้น” ผมกลับคิดว่านับจากนี้จะเป็น ยุคของการย้อมแมวไม่รู้จบ
  AI จะผลิตคอนเทนต์ระดับ ‘พอใช้ได้’ ออกมาไม่หยุด แต่ความประทับใจจริง ๆ จะหายไป
  สิ่งดี ๆ ที่มนุษย์เคยมอบให้กันจะลดลง และสิ่งแย่ ๆ กลับถูกขยายมากขึ้น
- LLM ก็เป็นแค่ ตัวรีมิกซ์ (remixer) มันเพียงทำนายชุดอักขระที่เคยมีอยู่ในอดีต ไม่ได้สร้างแพตเทิร์นใหม่อย่างแท้จริงด้วยตัวเอง
- สงสัยว่าทำไมถึงใช้ ‘การแก้ปัญหายาก’ เป็นเกณฑ์วัด AI
  มนุษย์ส่วนใหญ่ก็แก้ปัญหาแบบนั้นไม่ได้อยู่แล้ว แต่ AI ก็เก่งมากแล้วในงาน ความรู้ทั่วไป
  ถ้าใช้เกณฑ์แบบนี้ มันก็ใกล้เคียงนิยามของ AGI หรือ ASI มากกว่า
- VC ชื่อดังบางคนบอกว่า DeepSeek แก้ปัญหาแม่เหล็กไฟฟ้าระดับเบื้องต้นได้เลยเรียกว่า “โมเดลอัจฉริยะเหนือมนุษย์” แต่ดูเหมือนจะพูดเกินจริง
  ต้องมี การตรวจสอบจากผู้เชี่ยวชาญ ว่ามันเป็นโจทย์แบบไหนกันแน่
รู้สึกว่าสมมติฐานตั้งต้นที่ว่า มนุษย์นั้นพิเศษ ยังฝังลึกเกินไป
คนมักไม่ค่อยคิดว่าคำอธิบายแบบ “ก็แค่ลองไปเรื่อย ๆ แล้วมันได้ผล” อาจใช้กับมนุษย์ได้เหมือนกัน
แม้แต่ในชุมชนที่ให้ความสำคัญกับการคิดแบบวิทยาศาสตร์ก็ยังมี แนวคิดยกเว้นมนุษย์จากกฎทั่วไป ฝังอยู่ลึกมาก
- มนุษย์ใช้พลังงานแค่ 20 วัตต์ก็สามารถ ให้เหตุผลได้โดยไม่ต้องอาศัยประสบการณ์ นั่นชัดเจนว่าเป็นสิ่งพิเศษ
- ความสำเร็จครั้งนี้เองก็มีความหมายเพราะสุดท้ายมนุษย์เป็นคนตั้งโจทย์ และร่วมกับ AI ในการตรวจสอบผล
  AI ไม่ได้ตั้งเป้าหมายเองหรือรับรู้ความสำเร็จของตัวเอง
  สิ่งที่ได้จากต้นทุนมหาศาลอาจเป็นแค่ ความก้าวหน้าทางคณิตศาสตร์เล็กน้อย ก็ได้
- การที่มนุษย์พิเศษไม่ใช่แค่ความเชื่อ แต่เป็นข้อเท็จจริงเชิงประจักษ์ที่ ประสาทวิทยาและวิทยาการรู้คิด ศึกษาอยู่
  ผมเป็น functionalist แต่ก็ไม่คิดว่าสิ่งที่ LLM ‘ดูเหมือนมีสติปัญญา’ นั้นคือสติปัญญาจริง
- ถ้าอยากเข้าใจความเป็นเอกลักษณ์ของมนุษย์ อาจลองดู ทฤษฎี Orchestrated Objective Reduction
- ประเด็นไม่ใช่ว่ามนุษย์พิเศษ แต่คือ โมเดลเชิงสถิติแทบคิดนอกกรอบไม่ได้ ต่างหาก
มีการเผยแพร่บทสนทนาทั้งหมดกับ GPT‑5.4 Pro และรายงานผลลัพธ์แล้ว
บทสนทนาฉบับเต็ม / สรุปผลลัพธ์
- อยากรู้ว่าในไฟล์ solution template ที่ให้มาจริง ๆ มีอะไรอยู่บ้าง
  และก็น่าสนใจที่ผู้ใช้คอยอัปเดตปริมาณการใช้โทเคนระหว่างทางเพื่อขยายบริบท
พอเห็นว่า Opus 4.6 ใช้ไปประมาณ 250,000 โทเคน ก็เลยเผลอคิดเล่น ๆ ว่าจำนวนโทเคนอาจเป็น ตัวชี้วัดความยากของปัญหา
จะได้แปลว่างานรีแฟกเตอร์ React ที่ผมทำวันนี้ยากประมาณครึ่งหนึ่งของโจทย์คณิตศาสตร์ปัญหานี้ยิ่งขำเข้าไปใหญ่
- ฟังดูเหมือนมุก แต่คณิตศาสตร์เป็นสาขาที่ ปิดมากโดยเนื้อแท้ ก็อาจจริงได้เหมือนกัน
  บางปัญหามีคนทั้งโลกแค่ 5–10 คนที่เคยลองทำ
  เหมือนซอฟต์แวร์ที่เขียนไม่เสรจเพราะไม่มีแรงจูงใจ ปัญหาคณิตศาสตร์บางข้ออาจยังไม่ถูกแก้แค่เพราะมีคนลองน้อย
  ถึงอย่างนั้น AI ที่แก้ปัญหาแบบนี้ได้ก็ยังเป็น เรื่องระดับปาฏิหาริย์ อยู่ดี
- การจัดการบริบท สำคัญมาก การเปลืองโทเคนทำให้ประสิทธิภาพลดลง
  ยิ่งบริบทใหญ่ ค่าใช้จ่ายก็ยิ่งเพิ่ม และผู้ให้บริการก็อาจขึ้นราคาต่อหน่วยได้
- จากการเทียบเอาต์พุตของ Opus 4.6 กับ GPT‑5.4 Pro ตัวแรกน่าสนใจกว่าเพราะแสดง ความพยายามตรวจสอบและลำดับความคิด ที่หลากหลายกว่า
- ในคณิตศาสตร์ ตัวแปรหนึ่งตัวก็ใช้หนึ่งโทเคน แต่ในซอฟต์แวร์ต้องใช้โทเคนมากกว่านั้นมากเพราะเรื่อง ความอ่านง่าย
- จำนวนโทเคนไม่ใช่ตัวชี้วัดความซับซ้อน ปัญหาแบบ ขับเคลื่อนด้วยข้อมูล ใช้โทเคนมากกว่าปัญหาที่เป็นการคิดล้วน ๆ มาก
ความสามารถของ AI ถูกกำหนดโดย ฟังก์ชันต้นทุน (cost function) ที่มันถูกฝึกมา
ท้ายที่สุดแล้วสติปัญญาก็คือกระบวนการทำให้ฟังก์ชันต้นทุนที่ซับซ้อนมีค่าน้อยที่สุด
แนวทางอย่าง RLVR จะก้าวหน้าเร็วมากในสาขาอย่างคณิตศาสตร์และการเขียนโค้ดซึ่ง ตรวจสอบอัตโนมัติได้
แต่ในพื้นที่ที่รางวัลทางสังคมหรือความไม่แน่นอนสูง ความก้าวหน้าอาจช้ากว่า
- ก็มีข้อโต้แย้งกลับว่า “มีปัญหาที่ไม่สามารถแทนด้วยฟังก์ชันต้นทุนได้”
  ตัวอย่างเช่น การนำจำนวนเชิงซ้อนเข้ามาใช้อาจมองได้ว่าเป็นผลของ การปรับให้การแทนค่าดีที่สุด
ผู้เชี่ยวชาญเฉพาะทาง กำลังสอนวิธีแก้ปัญหาของตัวเองให้ LLM
สุดท้าย LLM ก็จะ เลียนแบบรูปแบบการคิด ของพวกเขาแล้วใช้แก้ปัญหาได้
คิดว่ายังมีปัญหาอีกมากที่แก้ได้ด้วยการ สุ่มตัวอย่างซ้ำ จากบทพิสูจน์เดิม
สิ่งที่เป็นการค้นหาแบบวนซ้ำจนมนุษย์แทบคลั่ง เครื่องจักรกลับทำอย่างอดทนได้
อาจไม่ใช่ความก้าวหน้าครั้งใหญ่ แต่สามารถทำหน้าที่ เปลี่ยนข้อคาดการณ์ให้เป็นทฤษฎีบท ได้
- คำถามคือบทพิสูจน์นั้น มีความหมายจริงหรือไม่ ส่วนใหญ่ก็อาจเป็นแค่การทำซ้ำภายในกรอบคิดเดิม
  กรณีที่เปิดมุมมองใหม่อย่างสิ้นเชิงมีน้อยมาก
  มันอาจเป็นแค่การเปลืองโทเคนก็ได้
- ผมคิดว่าการค้นพบทั้งหมดเป็นผลของ การสังเคราะห์เชิงการจัดวางใหม่ เกือบไม่มีอะไรที่มาจากความว่างเปล่าอย่างแท้จริง
- ถ้าอย่างนั้นก็น่าสงสัยว่าควรออกแบบ เบนช์มาร์ก เพื่อวัด ‘ความใหม่ที่แท้จริง’ อย่างไร
หน้า Open Problems ของ Epoch มีโจทย์ 15 ข้อพร้อมการจัดระดับความยาก
ข้อที่ถูกแก้ครั้งนี้อยู่ระดับ ‘moderately interesting’ ซึ่งเป็นฝั่งที่ง่ายที่สุด
ถึงอย่างนั้นก็น่าประทับใจที่มันเป็นโจทย์ซึ่งถูกเปิดเผยต่อสาธารณะตั้งแต่ก่อนถูกแก้
ต่อจากนี้ก็อยากรู้ว่าอีก 3 ข้อที่เหลือในระดับเดียวกันจะถูกแก้เร็วแค่ไหน
- ไม่ว่าเป็นโจทย์ยากระดับไหน แค่ LLM แก้ได้ก็มองว่าเป็น เหตุการณ์ระดับนิยายวิทยาศาสตร์ แล้ว
ชื่อหัวข้อค่อนข้างชวนให้เข้าใจผิด
ชื่อจริงคือ “A Ramsey-style Problem on Hypergraphs” และไม่ใช่แค่ GPT‑5.4 เท่านั้น แต่มี หลายโมเดลสมัยใหม่ ที่แก้ได้
ถึงอย่างนั้นก็ยังเป็น ความสำเร็จที่ยอดเยี่ยม อยู่ดี

GPT-5.4 Pro แก้ปัญหาคณิตศาสตร์ยากแบบแรมซีย์ของไฮเปอร์กราฟ

การแก้ปัญหาแบบแรมซีย์ของไฮเปอร์กราฟ

นิยามของปัญหา

ขั้นตอนการจัดโจทย์ปัญหา

ขั้น Warm-up

ขั้น Single Challenge

ขั้น Full Problem

การประเมินของนักคณิตศาสตร์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News