2 คะแนน โดย GN⁺ 2026-03-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • GPT-5.4 Pro แก้ปัญหา แบบแรมซีย์ ที่เกี่ยวข้องกับไฮเปอร์กราฟ ผ่านความร่วมมือกับ Kevin Barreto และ Liam Price
  • Will Brian ผู้เสนอปัญหา ได้ตรวจสอบความถูกต้องของวิธีแก้แล้ว และมีการเผยแพร่บันทึกบทสนทนาทั้งหมดพร้อมกับ เอกสารคำอธิบายขั้นสุดท้ายของ AI
  • วิธีแก้นี้ขจัดความไม่มีประสิทธิภาพของโครงสร้างขอบล่างเดิม และนำเสนอ โครงสร้างสมมาตรของขอบบน ทำให้บรรลุ ความสอดคล้องที่พบได้ยากในทฤษฎีแรมซีย์
  • ต่อมา ในเฟรมเวิร์ก FrontierMath: Open Problems โมเดลหลายตัวได้แก้ปัญหาเดียวกันสำเร็จ แสดงให้เห็นว่าเฟรมเวิร์กนี้ใช้เป็น เครื่องมือยืนยันความสามารถในการให้เหตุผลทางคณิตศาสตร์ของ AI ได้อย่างมีประสิทธิภาพ
  • ผลงานนี้ถูกประเมินว่าเป็น กรณีตัวอย่างที่แสดงว่า AI สามารถมีส่วนร่วมอย่างเป็นรูปธรรมในการแก้ปัญหาคณิตศาสตร์ที่ยังไม่ถูกแก้ได้

การแก้ปัญหาแบบแรมซีย์ของไฮเปอร์กราฟ

  • GPT-5.4 Pro แก้ปัญหายากที่เกี่ยวข้องกับไฮเปอร์กราฟ คือ ปัญหาแบบแรมซีย์ ผ่านความร่วมมือกับ Kevin Barreto และ Liam Price
    • Will Brian ผู้เสนอปัญหา ได้ตรวจสอบความถูกต้องของวิธีแก้
    • มีการเปิดเผยบันทึกบทสนทนาทั้งหมดของกระบวนการแก้ปัญหา และเอกสารคำอธิบายขั้นสุดท้ายของ GPT-5.4 Pro
  • Brian ประเมินว่าวิธีแก้นี้ ขจัดความไม่มีประสิทธิภาพของโครงสร้างขอบล่างเดิม และแสดงให้เห็น ความซับซ้อนและโครงสร้างสมมาตรของการสร้างขอบบน
    • ผลลัพธ์ที่ขอบล่างและขอบบนสอดคล้องกันนี้ ทำให้บรรลุ ความสม่ำเสมอในระดับที่พบได้ยากในโจทย์ทฤษฎีแรมซีย์
    • เขาวางแผนจะเรียบเรียงผลลัพธ์นี้เป็นบทความวิชาการ และอาจรวมงานวิจัยต่อยอดที่ได้แรงบันดาลใจจากแนวคิดของ AI ด้วย
  • หลังจากนั้น Epoch AI ได้ทำเฟรมเวิร์กทดสอบ FrontierMath: Open Problems ให้เสร็จสมบูรณ์ และนำปัญหาเดียวกันนี้ไปใช้กับหลายโมเดล
    • โมเดล Opus 4.6 (max), Gemini 3.1 Pro, และ GPT-5.4 (xhigh) ก็แก้ปัญหานี้สำเร็จเช่นกัน
    • สิ่งนี้แสดงให้เห็นว่าสภาพแวดล้อมของ FrontierMath มีประสิทธิภาพในการประเมินความสามารถในการให้เหตุผลทางคณิตศาสตร์ของโมเดล AI

นิยามของปัญหา

  • ปัญหานี้มุ่งเน้นไปที่การปรับปรุงขอบล่างของลำดับ (H(n)) ซึ่งปรากฏในการศึกษาว่า เซตอนุกรมอนันต์ลู่เข้าพร้อมกัน อย่างไร
    • การที่ไฮเปอร์กราฟ ((V, \mathcal H)) มี พาร์ทิชัน (partition) ขนาด (n) หมายความว่า มี (D \subseteq V), (\mathcal P \subseteq \mathcal H) ซึ่งทำให้ (|D| = n) และ สมาชิกแต่ละตัวของ (D) อยู่ในสมาชิกของ (\mathcal P) เพียงตัวเดียวอย่างพอดี
    • (H(n)) ถูกนิยามเป็นจำนวนจุดยอดสูงสุด (k) ของไฮเปอร์กราฟที่ ไม่มีจุดยอดโดดเดี่ยว และไม่มีพาร์ทิชันที่มีขนาดมากกว่า (n)
  • ขอบล่างของ (H(n)) ที่ทราบอยู่แล้วมีแนวโน้มว่ายังไม่เหมาะที่สุด และเชื่อว่าสามารถปรับปรุงได้ด้วย โครงสร้างไฮเปอร์กราฟแบบใหม่
    • เป้าหมายคือหาอัลกอริทึมที่ทำให้เป็นจริงว่า (H(n) \ge c \cdot k_n) (โดยที่ (c > 1))
    • (k_n) นิยามโดยรีเคอร์เรนซ์ (k_1 = 1), (k_n = \lfloor n/2 \rfloor + k_{\lfloor n/2 \rfloor} + k_{\lfloor (n+1)/2 \rfloor})

ขั้นตอนการจัดโจทย์ปัญหา

  • ขั้น Warm-up

    • สร้างไฮเปอร์กราฟสำหรับค่า (n) ที่มีวิธีแก้ซึ่งทราบอยู่แล้ว
    • เงื่อนไข: (|V| ≥ 64), (|H| ≤ 20), และไม่มีพาร์ทิชันที่มีขนาดเกิน 20
  • ขั้น Single Challenge

    • เป็นโจทย์ให้หาไฮเปอร์กราฟภายใต้เงื่อนไขเดียวกัน สำหรับค่า (n) ที่ยังไม่มีวิธีแก้ที่ทราบ
    • เงื่อนไข: (|V| ≥ 66), (|H| ≤ 20), และไม่มีพาร์ทิชันที่มีขนาดเกิน 20
  • ขั้น Full Problem

    • ต้องการ อัลกอริทึมทั่วไป ที่ใช้ได้กับทุกค่า (n)
    • สำหรับอินพุต (n) ต้องสร้างไฮเปอร์กราฟที่ทำให้เป็นจริงว่า (H(n) ≥ c \cdot k_n)
    • เมื่อ (n ≤ 100) ต้องสามารถรันได้ภายใน 10 นาทีบนโน้ตบุ๊กทั่วไป

การประเมินของนักคณิตศาสตร์

  • นักคณิตศาสตร์ที่คุ้นเคยกับปัญหานี้มีอยู่ในระดับ ประมาณ 10 คน ซึ่งรวมถึงนักวิจัยเฉพาะทางจำนวนมาก
  • นักคณิตศาสตร์ที่ได้ลองแก้ปัญหานี้จริง ๆ คาดว่ามี ประมาณ 5–10 คน
  • ระยะเวลาที่คาดว่าผู้เชี่ยวชาญจะใช้แก้ปัญหานี้คือ 1–3 เดือน
  • หากแก้ได้ จะถือว่าอยู่ในระดับที่ สามารถตีพิมพ์ในวารสารวิชาการเฉพาะทางได้
  • เนื่องจากปัญหานี้มีความอุดมสมบูรณ์ในเชิงเนื้อหา จึงมี โอกาสสูงที่คำตอบจะนำไปสู่งานวิจัยคณิตศาสตร์ใหม่
  • ภายใต้เงื่อนไขที่ระบุไว้ มีการประเมินว่า ความน่าจะเป็นที่ปัญหานี้จะแก้ได้อยู่ที่ 95–99%

1 ความคิดเห็น

 
GN⁺ 2026-03-25
ความคิดเห็นบน Hacker News
  • รู้สึกน่าทึ่งที่หลายคนยังฟันธงว่า “LLM ไม่มีทางมี ความคิดสร้างสรรค์ที่แท้จริง ได้”
    แค่บอกว่า “เป็นไปไม่ได้เพราะไม่มีในข้อมูลฝึก” นั้นไม่เพียงพอ เพราะมีตัวอย่างโต้แย้งมากมายแล้ว
    ถ้าอย่างนั้นก็ควรมีเหตุผลรองรับว่าทำไมงานใหม่บางอย่างถึงทำได้ แต่บางอย่างถึงทำไม่ได้
    ถ้ายอมรับว่า ‘ความใหม่’ อยู่บนสเปกตรัมต่อเนื่อง ก็อยากรู้ว่าเส้นแบ่งอยู่ตรงไหน และต้องมี หลักฐาน แบบไหนถึงจะเปลี่ยนความคิดได้

    • ถ้าตอบคำถามนี้ด้วยตัวเอง ก็มีข้อโต้แย้งเชิงตรรกะเกี่ยวกับ ข้อจำกัดพื้นฐาน ของ LLM อยู่เหมือนกัน
      1. เพราะมันเรียนจากข้อมูลของมนุษย์ จึงเลียนแบบข้อจำกัดของมนุษย์
      2. มันไม่ได้เรียนรู้จากประสบการณ์
        แต่ก็มีข้อโต้แย้งกลับเช่นกัน หลังจากเห็นโมเดลที่ได้เหรียญทองโอลิมปิกคณิตศาสตร์ ก็เลิกเชื่อข้อแรกไปแล้ว
        และดูเหมือนว่าการเพิ่ม RL กับหน่วยความจำจะช่วยข้ามข้อจำกัดข้อที่สองได้
        บางที LLM ขนาดใหญ่อาจ ซึมซับเป็นเนื้อเดียวกัน กับข้อมูลได้เหมือนมนุษย์ก็ได้
        ตัวอย่างที่เกี่ยวข้อง: บทความในบล็อก METR
    • โดยพื้นฐานแล้ว LLM สามารถ สร้างอะไรก็ได้ เพียงแต่มันไม่เข้าใจสิ่งที่ตัวเองสร้าง
      มนุษย์มักนิยาม “ความใหม่ที่แท้จริง” ให้ยิ่งใหญ่เกินไป — เช่น สูตรตัวนำยิ่งยวดหรือการค้นพบยาใหม่
      แต่จริง ๆ แล้วแม้แต่วิธีผูกเชือกรองเท้าแบบใหม่ก็ถือว่าเป็นความใหม่ในเชิง ‘รูปแบบ’
      LLM แก้ปัญหาเล็ก ๆ แบบนี้ได้จำนวนมาก แต่ก็อาจไม่ใช่ นวัตกรรมที่มีความหมาย จนมนุษย์ต้องทึ่ง
    • ผมกำลังทำยูทิลิตีบน macOS ที่ให้มอง ‘ทะลุความโปร่งใส’ ของหน้าต่างแอปได้ แล้ว Claude Code แนะนำว่าอย่าใช้ ScreenCaptureKit
      มัน ปฏิเสธได้อย่างแม่นยำ โดยให้เหตุผลเรื่องโอเวอร์เฮดด้านประสิทธิภาพ และเสนอแนวทางที่ต่างออกไปโดยสิ้นเชิง
      แม้จะไม่ใช่ปัญหาใหม่มาก แต่ก็เป็น วิธีแก้ที่สร้างสรรค์ จนน่าประหลาดใจ
      ภาพโปรเจกต์
    • เหตุผลที่ LLM แก้โจทย์การคูณใหม่ ๆ ได้ ก็เพราะระหว่างการฝึกมันเห็นตัวอย่างการคูณมามากมายและเรียนรู้ กลยุทธ์เชิงนามธรรมที่ถูกบีบอัดไว้
      ไม่ใช่การท่องจำอย่างเดียว แต่เป็นการซึมซับการดำเนินการที่ทำให้เกิดการทั่วไปได้ไว้ในวงจรภายในของโครงข่ายประสาท
    • สิ่งประดิษฐ์ส่วนใหญ่คือผลของ การอินเตอร์โพเลต (interpolation) ระหว่างไอเดียเดิมสามอย่าง และระบบแบบนี้เก่งเรื่องนั้นมาก
  • ผมเคยคิดว่าจะเชื่อก็ต่อเมื่อ AI แก้ปัญหายากได้ด้วยตัวเอง แต่ถ้าผลครั้งนี้เป็นของจริง ก็คงรู้สึกเหมือนกลายเป็น ผู้ศรัทธา ไปแล้ว
    ยังอยากเห็นอีกหลายกรณี แต่โลกกำลังเปลี่ยนไปในทางที่ใหม่และน่าตื่นเต้นจริง ๆ

    • ปัญหาการแข่งขันคณิตศาสตร์และเขียนโค้ดมีกฎชัดเจนและตรวจสอบได้ง่าย จึงเหมาะกับการฝึกมาก
      แต่ในงานอย่างคุณภาพโค้ดซึ่งเป็น พื้นที่ที่นิยามคลุมเครือ อาการหลอนจะเพิ่มขึ้น
      เพราะไม่มี ฟังก์ชันคุณค่า ที่เรียนรู้ได้เองแบบ AlphaGo การใช้ RL อย่างเดียวจึงมีขีดจำกัด
    • มากกว่าจะเป็น “โลกใหม่ที่น่าตื่นเต้น” ผมกลับคิดว่านับจากนี้จะเป็น ยุคของการย้อมแมวไม่รู้จบ
      AI จะผลิตคอนเทนต์ระดับ ‘พอใช้ได้’ ออกมาไม่หยุด แต่ความประทับใจจริง ๆ จะหายไป
      สิ่งดี ๆ ที่มนุษย์เคยมอบให้กันจะลดลง และสิ่งแย่ ๆ กลับถูกขยายมากขึ้น
    • LLM ก็เป็นแค่ ตัวรีมิกซ์ (remixer) มันเพียงทำนายชุดอักขระที่เคยมีอยู่ในอดีต ไม่ได้สร้างแพตเทิร์นใหม่อย่างแท้จริงด้วยตัวเอง
    • สงสัยว่าทำไมถึงใช้ ‘การแก้ปัญหายาก’ เป็นเกณฑ์วัด AI
      มนุษย์ส่วนใหญ่ก็แก้ปัญหาแบบนั้นไม่ได้อยู่แล้ว แต่ AI ก็เก่งมากแล้วในงาน ความรู้ทั่วไป
      ถ้าใช้เกณฑ์แบบนี้ มันก็ใกล้เคียงนิยามของ AGI หรือ ASI มากกว่า
    • VC ชื่อดังบางคนบอกว่า DeepSeek แก้ปัญหาแม่เหล็กไฟฟ้าระดับเบื้องต้นได้เลยเรียกว่า “โมเดลอัจฉริยะเหนือมนุษย์” แต่ดูเหมือนจะพูดเกินจริง
      ต้องมี การตรวจสอบจากผู้เชี่ยวชาญ ว่ามันเป็นโจทย์แบบไหนกันแน่
  • รู้สึกว่าสมมติฐานตั้งต้นที่ว่า มนุษย์นั้นพิเศษ ยังฝังลึกเกินไป
    คนมักไม่ค่อยคิดว่าคำอธิบายแบบ “ก็แค่ลองไปเรื่อย ๆ แล้วมันได้ผล” อาจใช้กับมนุษย์ได้เหมือนกัน
    แม้แต่ในชุมชนที่ให้ความสำคัญกับการคิดแบบวิทยาศาสตร์ก็ยังมี แนวคิดยกเว้นมนุษย์จากกฎทั่วไป ฝังอยู่ลึกมาก

    • มนุษย์ใช้พลังงานแค่ 20 วัตต์ก็สามารถ ให้เหตุผลได้โดยไม่ต้องอาศัยประสบการณ์ นั่นชัดเจนว่าเป็นสิ่งพิเศษ
    • ความสำเร็จครั้งนี้เองก็มีความหมายเพราะสุดท้ายมนุษย์เป็นคนตั้งโจทย์ และร่วมกับ AI ในการตรวจสอบผล
      AI ไม่ได้ตั้งเป้าหมายเองหรือรับรู้ความสำเร็จของตัวเอง
      สิ่งที่ได้จากต้นทุนมหาศาลอาจเป็นแค่ ความก้าวหน้าทางคณิตศาสตร์เล็กน้อย ก็ได้
    • การที่มนุษย์พิเศษไม่ใช่แค่ความเชื่อ แต่เป็นข้อเท็จจริงเชิงประจักษ์ที่ ประสาทวิทยาและวิทยาการรู้คิด ศึกษาอยู่
      ผมเป็น functionalist แต่ก็ไม่คิดว่าสิ่งที่ LLM ‘ดูเหมือนมีสติปัญญา’ นั้นคือสติปัญญาจริง
    • ถ้าอยากเข้าใจความเป็นเอกลักษณ์ของมนุษย์ อาจลองดู ทฤษฎี Orchestrated Objective Reduction
    • ประเด็นไม่ใช่ว่ามนุษย์พิเศษ แต่คือ โมเดลเชิงสถิติแทบคิดนอกกรอบไม่ได้ ต่างหาก
  • มีการเผยแพร่บทสนทนาทั้งหมดกับ GPT‑5.4 Pro และรายงานผลลัพธ์แล้ว
    บทสนทนาฉบับเต็ม / สรุปผลลัพธ์

    • อยากรู้ว่าในไฟล์ solution template ที่ให้มาจริง ๆ มีอะไรอยู่บ้าง
      และก็น่าสนใจที่ผู้ใช้คอยอัปเดตปริมาณการใช้โทเคนระหว่างทางเพื่อขยายบริบท
  • พอเห็นว่า Opus 4.6 ใช้ไปประมาณ 250,000 โทเคน ก็เลยเผลอคิดเล่น ๆ ว่าจำนวนโทเคนอาจเป็น ตัวชี้วัดความยากของปัญหา
    จะได้แปลว่างานรีแฟกเตอร์ React ที่ผมทำวันนี้ยากประมาณครึ่งหนึ่งของโจทย์คณิตศาสตร์ปัญหานี้ยิ่งขำเข้าไปใหญ่

    • ฟังดูเหมือนมุก แต่คณิตศาสตร์เป็นสาขาที่ ปิดมากโดยเนื้อแท้ ก็อาจจริงได้เหมือนกัน
      บางปัญหามีคนทั้งโลกแค่ 5–10 คนที่เคยลองทำ
      เหมือนซอฟต์แวร์ที่เขียนไม่เสรจเพราะไม่มีแรงจูงใจ ปัญหาคณิตศาสตร์บางข้ออาจยังไม่ถูกแก้แค่เพราะมีคนลองน้อย
      ถึงอย่างนั้น AI ที่แก้ปัญหาแบบนี้ได้ก็ยังเป็น เรื่องระดับปาฏิหาริย์ อยู่ดี
    • การจัดการบริบท สำคัญมาก การเปลืองโทเคนทำให้ประสิทธิภาพลดลง
      ยิ่งบริบทใหญ่ ค่าใช้จ่ายก็ยิ่งเพิ่ม และผู้ให้บริการก็อาจขึ้นราคาต่อหน่วยได้
    • จากการเทียบเอาต์พุตของ Opus 4.6 กับ GPT‑5.4 Pro ตัวแรกน่าสนใจกว่าเพราะแสดง ความพยายามตรวจสอบและลำดับความคิด ที่หลากหลายกว่า
    • ในคณิตศาสตร์ ตัวแปรหนึ่งตัวก็ใช้หนึ่งโทเคน แต่ในซอฟต์แวร์ต้องใช้โทเคนมากกว่านั้นมากเพราะเรื่อง ความอ่านง่าย
    • จำนวนโทเคนไม่ใช่ตัวชี้วัดความซับซ้อน ปัญหาแบบ ขับเคลื่อนด้วยข้อมูล ใช้โทเคนมากกว่าปัญหาที่เป็นการคิดล้วน ๆ มาก
  • ความสามารถของ AI ถูกกำหนดโดย ฟังก์ชันต้นทุน (cost function) ที่มันถูกฝึกมา
    ท้ายที่สุดแล้วสติปัญญาก็คือกระบวนการทำให้ฟังก์ชันต้นทุนที่ซับซ้อนมีค่าน้อยที่สุด
    แนวทางอย่าง RLVR จะก้าวหน้าเร็วมากในสาขาอย่างคณิตศาสตร์และการเขียนโค้ดซึ่ง ตรวจสอบอัตโนมัติได้
    แต่ในพื้นที่ที่รางวัลทางสังคมหรือความไม่แน่นอนสูง ความก้าวหน้าอาจช้ากว่า

    • ก็มีข้อโต้แย้งกลับว่า “มีปัญหาที่ไม่สามารถแทนด้วยฟังก์ชันต้นทุนได้”
      ตัวอย่างเช่น การนำจำนวนเชิงซ้อนเข้ามาใช้อาจมองได้ว่าเป็นผลของ การปรับให้การแทนค่าดีที่สุด
  • ผู้เชี่ยวชาญเฉพาะทาง กำลังสอนวิธีแก้ปัญหาของตัวเองให้ LLM
    สุดท้าย LLM ก็จะ เลียนแบบรูปแบบการคิด ของพวกเขาแล้วใช้แก้ปัญหาได้

  • คิดว่ายังมีปัญหาอีกมากที่แก้ได้ด้วยการ สุ่มตัวอย่างซ้ำ จากบทพิสูจน์เดิม
    สิ่งที่เป็นการค้นหาแบบวนซ้ำจนมนุษย์แทบคลั่ง เครื่องจักรกลับทำอย่างอดทนได้
    อาจไม่ใช่ความก้าวหน้าครั้งใหญ่ แต่สามารถทำหน้าที่ เปลี่ยนข้อคาดการณ์ให้เป็นทฤษฎีบท ได้

    • คำถามคือบทพิสูจน์นั้น มีความหมายจริงหรือไม่ ส่วนใหญ่ก็อาจเป็นแค่การทำซ้ำภายในกรอบคิดเดิม
      กรณีที่เปิดมุมมองใหม่อย่างสิ้นเชิงมีน้อยมาก
      มันอาจเป็นแค่การเปลืองโทเคนก็ได้
    • ผมคิดว่าการค้นพบทั้งหมดเป็นผลของ การสังเคราะห์เชิงการจัดวางใหม่ เกือบไม่มีอะไรที่มาจากความว่างเปล่าอย่างแท้จริง
    • ถ้าอย่างนั้นก็น่าสงสัยว่าควรออกแบบ เบนช์มาร์ก เพื่อวัด ‘ความใหม่ที่แท้จริง’ อย่างไร
  • หน้า Open Problems ของ Epoch มีโจทย์ 15 ข้อพร้อมการจัดระดับความยาก
    ข้อที่ถูกแก้ครั้งนี้อยู่ระดับ ‘moderately interesting’ ซึ่งเป็นฝั่งที่ง่ายที่สุด
    ถึงอย่างนั้นก็น่าประทับใจที่มันเป็นโจทย์ซึ่งถูกเปิดเผยต่อสาธารณะตั้งแต่ก่อนถูกแก้
    ต่อจากนี้ก็อยากรู้ว่าอีก 3 ข้อที่เหลือในระดับเดียวกันจะถูกแก้เร็วแค่ไหน

    • ไม่ว่าเป็นโจทย์ยากระดับไหน แค่ LLM แก้ได้ก็มองว่าเป็น เหตุการณ์ระดับนิยายวิทยาศาสตร์ แล้ว
  • ชื่อหัวข้อค่อนข้างชวนให้เข้าใจผิด
    ชื่อจริงคือ “A Ramsey-style Problem on Hypergraphs” และไม่ใช่แค่ GPT‑5.4 เท่านั้น แต่มี หลายโมเดลสมัยใหม่ ที่แก้ได้
    ถึงอย่างนั้นก็ยังเป็น ความสำเร็จที่ยอดเยี่ยม อยู่ดี