- GPT-5.4 Pro แก้ปัญหา แบบแรมซีย์ ที่เกี่ยวข้องกับไฮเปอร์กราฟ ผ่านความร่วมมือกับ Kevin Barreto และ Liam Price
- Will Brian ผู้เสนอปัญหา ได้ตรวจสอบความถูกต้องของวิธีแก้แล้ว และมีการเผยแพร่บันทึกบทสนทนาทั้งหมดพร้อมกับ เอกสารคำอธิบายขั้นสุดท้ายของ AI
- วิธีแก้นี้ขจัดความไม่มีประสิทธิภาพของโครงสร้างขอบล่างเดิม และนำเสนอ โครงสร้างสมมาตรของขอบบน ทำให้บรรลุ ความสอดคล้องที่พบได้ยากในทฤษฎีแรมซีย์
- ต่อมา ในเฟรมเวิร์ก FrontierMath: Open Problems โมเดลหลายตัวได้แก้ปัญหาเดียวกันสำเร็จ แสดงให้เห็นว่าเฟรมเวิร์กนี้ใช้เป็น เครื่องมือยืนยันความสามารถในการให้เหตุผลทางคณิตศาสตร์ของ AI ได้อย่างมีประสิทธิภาพ
- ผลงานนี้ถูกประเมินว่าเป็น กรณีตัวอย่างที่แสดงว่า AI สามารถมีส่วนร่วมอย่างเป็นรูปธรรมในการแก้ปัญหาคณิตศาสตร์ที่ยังไม่ถูกแก้ได้
การแก้ปัญหาแบบแรมซีย์ของไฮเปอร์กราฟ
- GPT-5.4 Pro แก้ปัญหายากที่เกี่ยวข้องกับไฮเปอร์กราฟ คือ ปัญหาแบบแรมซีย์ ผ่านความร่วมมือกับ Kevin Barreto และ Liam Price
- Will Brian ผู้เสนอปัญหา ได้ตรวจสอบความถูกต้องของวิธีแก้
- มีการเปิดเผยบันทึกบทสนทนาทั้งหมดของกระบวนการแก้ปัญหา และเอกสารคำอธิบายขั้นสุดท้ายของ GPT-5.4 Pro
- Brian ประเมินว่าวิธีแก้นี้ ขจัดความไม่มีประสิทธิภาพของโครงสร้างขอบล่างเดิม และแสดงให้เห็น ความซับซ้อนและโครงสร้างสมมาตรของการสร้างขอบบน
- ผลลัพธ์ที่ขอบล่างและขอบบนสอดคล้องกันนี้ ทำให้บรรลุ ความสม่ำเสมอในระดับที่พบได้ยากในโจทย์ทฤษฎีแรมซีย์
- เขาวางแผนจะเรียบเรียงผลลัพธ์นี้เป็นบทความวิชาการ และอาจรวมงานวิจัยต่อยอดที่ได้แรงบันดาลใจจากแนวคิดของ AI ด้วย
- หลังจากนั้น Epoch AI ได้ทำเฟรมเวิร์กทดสอบ FrontierMath: Open Problems ให้เสร็จสมบูรณ์ และนำปัญหาเดียวกันนี้ไปใช้กับหลายโมเดล
- โมเดล Opus 4.6 (max), Gemini 3.1 Pro, และ GPT-5.4 (xhigh) ก็แก้ปัญหานี้สำเร็จเช่นกัน
- สิ่งนี้แสดงให้เห็นว่าสภาพแวดล้อมของ FrontierMath มีประสิทธิภาพในการประเมินความสามารถในการให้เหตุผลทางคณิตศาสตร์ของโมเดล AI
นิยามของปัญหา
- ปัญหานี้มุ่งเน้นไปที่การปรับปรุงขอบล่างของลำดับ (H(n)) ซึ่งปรากฏในการศึกษาว่า เซตอนุกรมอนันต์ลู่เข้าพร้อมกัน อย่างไร
- การที่ไฮเปอร์กราฟ ((V, \mathcal H)) มี พาร์ทิชัน (partition) ขนาด (n) หมายความว่า
มี (D \subseteq V), (\mathcal P \subseteq \mathcal H) ซึ่งทำให้ (|D| = n) และ
สมาชิกแต่ละตัวของ (D) อยู่ในสมาชิกของ (\mathcal P) เพียงตัวเดียวอย่างพอดี
- (H(n)) ถูกนิยามเป็นจำนวนจุดยอดสูงสุด (k) ของไฮเปอร์กราฟที่ ไม่มีจุดยอดโดดเดี่ยว และไม่มีพาร์ทิชันที่มีขนาดมากกว่า (n)
- ขอบล่างของ (H(n)) ที่ทราบอยู่แล้วมีแนวโน้มว่ายังไม่เหมาะที่สุด และเชื่อว่าสามารถปรับปรุงได้ด้วย โครงสร้างไฮเปอร์กราฟแบบใหม่
- เป้าหมายคือหาอัลกอริทึมที่ทำให้เป็นจริงว่า (H(n) \ge c \cdot k_n) (โดยที่ (c > 1))
- (k_n) นิยามโดยรีเคอร์เรนซ์ (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})
ขั้นตอนการจัดโจทย์ปัญหา
-
ขั้น Warm-up
- สร้างไฮเปอร์กราฟสำหรับค่า (n) ที่มีวิธีแก้ซึ่งทราบอยู่แล้ว
- เงื่อนไข: (|V| ≥ 64), (|H| ≤ 20), และไม่มีพาร์ทิชันที่มีขนาดเกิน 20
-
ขั้น Single Challenge
- เป็นโจทย์ให้หาไฮเปอร์กราฟภายใต้เงื่อนไขเดียวกัน สำหรับค่า (n) ที่ยังไม่มีวิธีแก้ที่ทราบ
- เงื่อนไข: (|V| ≥ 66), (|H| ≤ 20), และไม่มีพาร์ทิชันที่มีขนาดเกิน 20
-
ขั้น Full Problem
- ต้องการ อัลกอริทึมทั่วไป ที่ใช้ได้กับทุกค่า (n)
- สำหรับอินพุต (n) ต้องสร้างไฮเปอร์กราฟที่ทำให้เป็นจริงว่า (H(n) ≥ c \cdot k_n)
- เมื่อ (n ≤ 100) ต้องสามารถรันได้ภายใน 10 นาทีบนโน้ตบุ๊กทั่วไป
การประเมินของนักคณิตศาสตร์
- นักคณิตศาสตร์ที่คุ้นเคยกับปัญหานี้มีอยู่ในระดับ ประมาณ 10 คน ซึ่งรวมถึงนักวิจัยเฉพาะทางจำนวนมาก
- นักคณิตศาสตร์ที่ได้ลองแก้ปัญหานี้จริง ๆ คาดว่ามี ประมาณ 5–10 คน
- ระยะเวลาที่คาดว่าผู้เชี่ยวชาญจะใช้แก้ปัญหานี้คือ 1–3 เดือน
- หากแก้ได้ จะถือว่าอยู่ในระดับที่ สามารถตีพิมพ์ในวารสารวิชาการเฉพาะทางได้
- เนื่องจากปัญหานี้มีความอุดมสมบูรณ์ในเชิงเนื้อหา จึงมี โอกาสสูงที่คำตอบจะนำไปสู่งานวิจัยคณิตศาสตร์ใหม่
- ภายใต้เงื่อนไขที่ระบุไว้ มีการประเมินว่า ความน่าจะเป็นที่ปัญหานี้จะแก้ได้อยู่ที่ 95–99%
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
รู้สึกน่าทึ่งที่หลายคนยังฟันธงว่า “LLM ไม่มีทางมี ความคิดสร้างสรรค์ที่แท้จริง ได้”
แค่บอกว่า “เป็นไปไม่ได้เพราะไม่มีในข้อมูลฝึก” นั้นไม่เพียงพอ เพราะมีตัวอย่างโต้แย้งมากมายแล้ว
ถ้าอย่างนั้นก็ควรมีเหตุผลรองรับว่าทำไมงานใหม่บางอย่างถึงทำได้ แต่บางอย่างถึงทำไม่ได้
ถ้ายอมรับว่า ‘ความใหม่’ อยู่บนสเปกตรัมต่อเนื่อง ก็อยากรู้ว่าเส้นแบ่งอยู่ตรงไหน และต้องมี หลักฐาน แบบไหนถึงจะเปลี่ยนความคิดได้
แต่ก็มีข้อโต้แย้งกลับเช่นกัน หลังจากเห็นโมเดลที่ได้เหรียญทองโอลิมปิกคณิตศาสตร์ ก็เลิกเชื่อข้อแรกไปแล้ว
และดูเหมือนว่าการเพิ่ม RL กับหน่วยความจำจะช่วยข้ามข้อจำกัดข้อที่สองได้
บางที LLM ขนาดใหญ่อาจ ซึมซับเป็นเนื้อเดียวกัน กับข้อมูลได้เหมือนมนุษย์ก็ได้
ตัวอย่างที่เกี่ยวข้อง: บทความในบล็อก METR
มนุษย์มักนิยาม “ความใหม่ที่แท้จริง” ให้ยิ่งใหญ่เกินไป — เช่น สูตรตัวนำยิ่งยวดหรือการค้นพบยาใหม่
แต่จริง ๆ แล้วแม้แต่วิธีผูกเชือกรองเท้าแบบใหม่ก็ถือว่าเป็นความใหม่ในเชิง ‘รูปแบบ’
LLM แก้ปัญหาเล็ก ๆ แบบนี้ได้จำนวนมาก แต่ก็อาจไม่ใช่ นวัตกรรมที่มีความหมาย จนมนุษย์ต้องทึ่ง
มัน ปฏิเสธได้อย่างแม่นยำ โดยให้เหตุผลเรื่องโอเวอร์เฮดด้านประสิทธิภาพ และเสนอแนวทางที่ต่างออกไปโดยสิ้นเชิง
แม้จะไม่ใช่ปัญหาใหม่มาก แต่ก็เป็น วิธีแก้ที่สร้างสรรค์ จนน่าประหลาดใจ
ภาพโปรเจกต์
ไม่ใช่การท่องจำอย่างเดียว แต่เป็นการซึมซับการดำเนินการที่ทำให้เกิดการทั่วไปได้ไว้ในวงจรภายในของโครงข่ายประสาท
ผมเคยคิดว่าจะเชื่อก็ต่อเมื่อ AI แก้ปัญหายากได้ด้วยตัวเอง แต่ถ้าผลครั้งนี้เป็นของจริง ก็คงรู้สึกเหมือนกลายเป็น ผู้ศรัทธา ไปแล้ว
ยังอยากเห็นอีกหลายกรณี แต่โลกกำลังเปลี่ยนไปในทางที่ใหม่และน่าตื่นเต้นจริง ๆ
แต่ในงานอย่างคุณภาพโค้ดซึ่งเป็น พื้นที่ที่นิยามคลุมเครือ อาการหลอนจะเพิ่มขึ้น
เพราะไม่มี ฟังก์ชันคุณค่า ที่เรียนรู้ได้เองแบบ AlphaGo การใช้ RL อย่างเดียวจึงมีขีดจำกัด
AI จะผลิตคอนเทนต์ระดับ ‘พอใช้ได้’ ออกมาไม่หยุด แต่ความประทับใจจริง ๆ จะหายไป
สิ่งดี ๆ ที่มนุษย์เคยมอบให้กันจะลดลง และสิ่งแย่ ๆ กลับถูกขยายมากขึ้น
มนุษย์ส่วนใหญ่ก็แก้ปัญหาแบบนั้นไม่ได้อยู่แล้ว แต่ AI ก็เก่งมากแล้วในงาน ความรู้ทั่วไป
ถ้าใช้เกณฑ์แบบนี้ มันก็ใกล้เคียงนิยามของ AGI หรือ ASI มากกว่า
ต้องมี การตรวจสอบจากผู้เชี่ยวชาญ ว่ามันเป็นโจทย์แบบไหนกันแน่
รู้สึกว่าสมมติฐานตั้งต้นที่ว่า มนุษย์นั้นพิเศษ ยังฝังลึกเกินไป
คนมักไม่ค่อยคิดว่าคำอธิบายแบบ “ก็แค่ลองไปเรื่อย ๆ แล้วมันได้ผล” อาจใช้กับมนุษย์ได้เหมือนกัน
แม้แต่ในชุมชนที่ให้ความสำคัญกับการคิดแบบวิทยาศาสตร์ก็ยังมี แนวคิดยกเว้นมนุษย์จากกฎทั่วไป ฝังอยู่ลึกมาก
AI ไม่ได้ตั้งเป้าหมายเองหรือรับรู้ความสำเร็จของตัวเอง
สิ่งที่ได้จากต้นทุนมหาศาลอาจเป็นแค่ ความก้าวหน้าทางคณิตศาสตร์เล็กน้อย ก็ได้
ผมเป็น functionalist แต่ก็ไม่คิดว่าสิ่งที่ LLM ‘ดูเหมือนมีสติปัญญา’ นั้นคือสติปัญญาจริง
มีการเผยแพร่บทสนทนาทั้งหมดกับ GPT‑5.4 Pro และรายงานผลลัพธ์แล้ว
บทสนทนาฉบับเต็ม / สรุปผลลัพธ์
และก็น่าสนใจที่ผู้ใช้คอยอัปเดตปริมาณการใช้โทเคนระหว่างทางเพื่อขยายบริบท
พอเห็นว่า Opus 4.6 ใช้ไปประมาณ 250,000 โทเคน ก็เลยเผลอคิดเล่น ๆ ว่าจำนวนโทเคนอาจเป็น ตัวชี้วัดความยากของปัญหา
จะได้แปลว่างานรีแฟกเตอร์ React ที่ผมทำวันนี้ยากประมาณครึ่งหนึ่งของโจทย์คณิตศาสตร์ปัญหานี้ยิ่งขำเข้าไปใหญ่
บางปัญหามีคนทั้งโลกแค่ 5–10 คนที่เคยลองทำ
เหมือนซอฟต์แวร์ที่เขียนไม่เสรจเพราะไม่มีแรงจูงใจ ปัญหาคณิตศาสตร์บางข้ออาจยังไม่ถูกแก้แค่เพราะมีคนลองน้อย
ถึงอย่างนั้น AI ที่แก้ปัญหาแบบนี้ได้ก็ยังเป็น เรื่องระดับปาฏิหาริย์ อยู่ดี
ยิ่งบริบทใหญ่ ค่าใช้จ่ายก็ยิ่งเพิ่ม และผู้ให้บริการก็อาจขึ้นราคาต่อหน่วยได้
ความสามารถของ AI ถูกกำหนดโดย ฟังก์ชันต้นทุน (cost function) ที่มันถูกฝึกมา
ท้ายที่สุดแล้วสติปัญญาก็คือกระบวนการทำให้ฟังก์ชันต้นทุนที่ซับซ้อนมีค่าน้อยที่สุด
แนวทางอย่าง RLVR จะก้าวหน้าเร็วมากในสาขาอย่างคณิตศาสตร์และการเขียนโค้ดซึ่ง ตรวจสอบอัตโนมัติได้
แต่ในพื้นที่ที่รางวัลทางสังคมหรือความไม่แน่นอนสูง ความก้าวหน้าอาจช้ากว่า
ตัวอย่างเช่น การนำจำนวนเชิงซ้อนเข้ามาใช้อาจมองได้ว่าเป็นผลของ การปรับให้การแทนค่าดีที่สุด
ผู้เชี่ยวชาญเฉพาะทาง กำลังสอนวิธีแก้ปัญหาของตัวเองให้ LLM
สุดท้าย LLM ก็จะ เลียนแบบรูปแบบการคิด ของพวกเขาแล้วใช้แก้ปัญหาได้
คิดว่ายังมีปัญหาอีกมากที่แก้ได้ด้วยการ สุ่มตัวอย่างซ้ำ จากบทพิสูจน์เดิม
สิ่งที่เป็นการค้นหาแบบวนซ้ำจนมนุษย์แทบคลั่ง เครื่องจักรกลับทำอย่างอดทนได้
อาจไม่ใช่ความก้าวหน้าครั้งใหญ่ แต่สามารถทำหน้าที่ เปลี่ยนข้อคาดการณ์ให้เป็นทฤษฎีบท ได้
กรณีที่เปิดมุมมองใหม่อย่างสิ้นเชิงมีน้อยมาก
มันอาจเป็นแค่การเปลืองโทเคนก็ได้
หน้า Open Problems ของ Epoch มีโจทย์ 15 ข้อพร้อมการจัดระดับความยาก
ข้อที่ถูกแก้ครั้งนี้อยู่ระดับ ‘moderately interesting’ ซึ่งเป็นฝั่งที่ง่ายที่สุด
ถึงอย่างนั้นก็น่าประทับใจที่มันเป็นโจทย์ซึ่งถูกเปิดเผยต่อสาธารณะตั้งแต่ก่อนถูกแก้
ต่อจากนี้ก็อยากรู้ว่าอีก 3 ข้อที่เหลือในระดับเดียวกันจะถูกแก้เร็วแค่ไหน
ชื่อหัวข้อค่อนข้างชวนให้เข้าใจผิด
ชื่อจริงคือ “A Ramsey-style Problem on Hypergraphs” และไม่ใช่แค่ GPT‑5.4 เท่านั้น แต่มี หลายโมเดลสมัยใหม่ ที่แก้ได้
ถึงอย่างนั้นก็ยังเป็น ความสำเร็จที่ยอดเยี่ยม อยู่ดี