- Claude Opus 4.6 ของ Anthropic แก้ปัญหา การแยกวัฏจักรแฮมิลโทเนียนแบบมีทิศทาง ที่ Donald Knuth ศึกษามานานหลายสัปดาห์ได้
- ปัญหานี้คือการหาการ แยกกราฟมีทิศทางที่มีจุดยอด (m^3) จุด ออกเป็นวัฏจักรแฮมิลโทเนียนสามวง และ Claude ก็แก้ได้อย่างสมบูรณ์สำหรับกรณี odd m (ค่า m คี่)
- Claude ใช้กลยุทธ์การสำรวจหลายแบบเป็นลำดับขั้น เช่น การแยกแบบไฟเบอร์ (fiber), แพตเทิร์นแบบงู 3D (serpentine), การค้นหาเชิงลึก (DFS), และ simulated annealing
- ท้ายที่สุดได้คำตอบทั่วไปในรูปแบบ โปรแกรม Python และ Filip Stappers ได้ตรวจสอบสำหรับ ค่า m คี่ตั้งแต่ 3 ถึง 101 เพื่อยืนยันว่าการแยกสมบูรณ์จริง
- Knuth ประเมินผลลัพธ์นี้ว่าเป็น ความก้าวหน้าครั้งสำคัญของการให้เหตุผลอัตโนมัติและการแก้ปัญหาเชิงสร้างสรรค์ พร้อมระบุว่า กรณี m คู่ยังคงเป็นปัญหาที่ยังไม่ถูกแก้
ภูมิหลังและนิยามของปัญหา
- หัวข้อวิจัยนี้เกี่ยวข้องกับ วัฏจักรแฮมิลโทเนียนแบบมีทิศทาง (directed Hamiltonian cycles) และมีกำหนดรวมอยู่ในเล่มถัดไปของหนังสือ The Art of Computer Programming ของ Knuth
- กราฟประกอบด้วยจุดยอด (m^3) จุดในรูป (ijk) โดยจากแต่ละจุดยอดจะมีเส้นเชื่อมออก 3 เส้นคือ (i+jk), (ij+k), (ijk+)
- เป้าหมายคือหาคำตอบทั่วไปสำหรับทุก (m>2) ที่จะแยกเส้นเชื่อมเหล่านี้ออกเป็น วัฏจักรมีทิศทางขนาด (m^3) จำนวนสามวง
กระบวนการสำรวจของ Claude
- Claude Opus 4.6 เป็นโมเดล hybrid reasoning ของ Anthropic โดย Filip Stappers เป็นผู้ยื่นปัญหาและสั่งให้บันทึกกระบวนการดำเนินงานไว้เป็นเอกสาร
- ในช่วงแรก Claude นิยามปัญหาใหม่เป็น กราฟเชิงฟังก์ชันและปัญหาการกำหนดการเรียงสับเปลี่ยน และลองแนวทางแบบฟังก์ชันเชิงเส้นและกำลังสอง แต่ไม่สำเร็จ
- จากนั้นจึงทดลองตามลำดับด้วย การค้นหาแบบ DFS, การวิเคราะห์แพตเทิร์นแบบงู 2D, และ แพตเทิร์นบนพื้นฐาน Gray code แบบ 3D
- ต่อมาได้ใช้แนวทาง การแยกแบบไฟเบอร์ (fiber) โดยวิเคราะห์โครงสร้างแบบแบ่งชั้นตาม (s = (i+j+k) \mod m) และพบคำตอบบางส่วนผ่าน simulated annealing (SA)
การค้นพบคำตอบและการตรวจสอบ
- ในขั้นตอนการสำรวจที่ 31 Claude สร้างโปรแกรม Python ที่ใช้ กฎซึ่งขึ้นกับพิกัดเดียวในแต่ละไฟเบอร์
- โปรแกรมนี้สร้างวัฏจักรแฮมิลโทเนียนครบสามวงได้สำหรับ m=3,5,7,9,11
- Filip Stappers ทดสอบสิ่งนี้กับ ทุกค่า m คี่ตั้งแต่ 3 ถึง 101 และยืนยันว่าการแยกสมบูรณ์
- Knuth ได้ย่อคำตอบนี้ให้อยู่ในรูปโค้ด C และพิสูจน์ทางคณิตศาสตร์ว่าแต่ละวัฏจักรมี ความยาว (m^3) จริง
การทำให้เป็นทั่วไปและการวิเคราะห์ทางคณิตศาสตร์
- ยืนยันว่าวัฏจักรแฮมิลโทเนียนบางส่วนของกรณี (m=3) สามารถ ทำให้เป็นทั่วไปสำหรับค่า m คี่ทั้งหมด ได้
- ในกรณี (m=3) จากวัฏจักรทั้งหมด 11,502 วง มี 1,012 วงที่ทำให้เป็นทั่วไปไปยัง (m=5) ได้ และมี 996 วงที่ทำได้ถึง (m=7)
- วัฏจักร 996 วงนี้สามารถทำให้เป็นทั่วไปได้สำหรับ ทุกค่า m คี่ที่มากกว่า 1
- การแยกแบบ “Claude-like” นิยามด้วยกฎอย่างง่ายที่ขึ้นอยู่เพียง ค่าขอบเขตของ i, j, s (0 หรือ m−1)
- ทฤษฎีบท: หากการแยกแบบ “Claude-like” จะใช้ได้กับทุกค่า m คี่ที่มากกว่า 1 แล้ว วัฏจักรทั้งสามในกรณี m=3 จะต้องเป็นวัฏจักรแฮมิลโทเนียนที่สามารถทำให้เป็นทั่วไปได้
- จากการคำนวณพบว่า มีการแยกแบบ Claude-like 760 แบบ ที่ใช้ได้กับทุกค่า m คี่
ความยังไม่คลี่คลายของกรณี m คู่และบทสรุป
- กรณี m คู่ยังคงอยู่ในสถานะ ยังไม่ถูกแก้ (open)
- มีงานวิจัยก่อนหน้าพิสูจน์แล้วว่า (m=2) เป็นไปไม่ได้
- Claude พบคำตอบบางส่วนสำหรับ (m=4,6,8) แต่ไม่สามารถทำให้เป็นทั่วไปได้
- ระหว่างการสำรวจกรณี m คู่ Claude แสดงข้อผิดพลาดและพฤติกรรมผิดปกติ ทำให้ต้องยุติการสำรวจ
- Knuth ประเมินสิ่งนี้ว่าเป็น ความสำเร็จครั้งประวัติศาสตร์ของการให้เหตุผลอัตโนมัติด้วย AI และกล่าวว่าเป็นความก้าวหน้าที่ สมชื่อ Claude Shannon
ภาคผนวก: กฎของอีกสองวัฏจักร
- วัฏจักรที่สอง (c=1):
- ถ้า (s=0) ให้เพิ่ม j, ถ้า (0<s<m−1) ให้เพิ่ม i, และเมื่อ (s=m−1) ถ้า i>0 ให้เพิ่ม k แต่ถ้า i=0 ให้เพิ่ม j
- วัฏจักรที่สาม (c=2):
- ที่ (s=0) ถ้า j<m−1 ให้เพิ่ม i, แต่ถ้า j=m−1 ให้เพิ่ม k
- ที่ (0<s<m−1) ถ้า i<m−1 ให้เพิ่ม k, แต่ถ้า i=m−1 ให้เพิ่ม j
- ถ้า (s=m−1) ให้เพิ่ม i
- มีการระบุ ลำดับของจุดยอดเมื่อ s=0 ของแต่ละวัฏจักรไว้ และสามารถใช้สิ่งนี้พิสูจน์โครงสร้างของวัฏจักรทั้งหมดได้
1 ความคิดเห็น
ความเห็นบน Hacker News
น่าสนใจถ้าลองคิดดูว่ามีขอบเขตของปัญหาแบบไหนบ้างที่ การขยายสเกลของ RL นำไปใช้ได้
เมื่อก่อนต้องพึ่งพาการรับรู้ของมนุษย์ แต่ตอนนี้รูปแบบเหล่านี้ถูกหลอมรวมอยู่ใน การกระจายความน่าจะเป็น แล้ว จึงกลายเป็นสิ่งที่ใครก็เข้าถึงได้
อย่างไรก็ตาม ยังน่าสงสัยว่าเมื่อขอบเขตของวิทยาศาสตร์ขยายออกไปเรื่อยๆ โมเดลจะตามทันได้หรือไม่
หาก Anthropic ต้องการคงให้ Claude ทันสมัยอยู่เสมอในปี 2030 ก็คงต้องมี (a) continuous learning สำหรับโมเดลที่ตรึงไว้ หรือ (b) continuous training ซึ่งทั้งสองอย่างก็ไม่ง่าย
หลังจุด knowledge cutoff ไปแล้ว มันก็จะค้างอยู่ที่ช่วงเวลานั้นตลอดไป
นึกภาพโมเดลที่ให้ inference ฟรีแก่นักวิจัย แลกกับการนำ กระบวนการคิด (trace) ไปใช้เป็นข้อมูลฝึกได้เช่นกัน
โมเดลอย่าง Qwen3-next, Qwen3.5, Nemotron 3 Nano รองรับหน้าต่างระดับล้านโทเคน โดยลดต้นทุนหน่วยความจำด้วย hybrid attention
วงจรป้อนกลับแบบเรียลไทม์ จากการตรวจสอบโดยมนุษย์ การรันโค้ด และการค้นหา กำลังทำหน้าที่เป็นสัญญาณการเรียนรู้ให้โมเดล
ฟังดูเหมือนพูดเล่นครึ่งหนึ่ง แต่ก็ไม่ใช่ว่าจะเป็นไปไม่ได้เลย
ทำให้นึกถึง บทสนทนา GPT-4 ของ Wolfram กับ Knuth เมื่อก่อน
ตอนนั้น Knuth ค่อนข้างสงสัย แต่ดูเหมือนว่าช่วงหลังเขาจะอ่อนท่าทีลงเมื่อได้เห็นโมเดลอย่าง Opus 4.6
การเปลี่ยนความคิดตามหลักฐานใหม่เป็นเรื่องที่น่าชื่นชม
บทสนทนาที่เกี่ยวข้องดูได้ที่นี่
และยังเป็นหัวใจของการคิดแบบวิทยาศาสตร์ด้วย
รู้สึกว่าบทนำของงานเขียนของ Knuth มีความ ชวนให้เข้าใจผิด อยู่พอสมควร
เหมือนทำให้ดูราวกับว่า Claude เป็นคนแก้ปัญหาโดยตรง แต่จริงๆ แล้ว Claude สร้างตัวอย่างขึ้นมา และ Knuth เป็นคนทำให้เป็นนามธรรมจนกลายเป็นบทพิสูจน์
LLM ไม่ค่อยเก่งเรื่องการกำหนดทิศทาง แต่เมื่อมีทิศทางให้แล้ว มันจะ สำรวจเชิงลึก ได้ดีมาก
ถ้าปล่อยไว้ลำพังก็จะหลงทางได้ง่าย แต่ถ้ามีคนคอยนำ มันจะเป็นพาร์ตเนอร์ที่ยอดเยี่ยม
Claude มีบทบาทในการ เจาะเข้าไปถึงแก่นของปัญหา และมนุษย์ก็เพียงแค่ขัดเกลาสิ่งนั้น
การจัดระเบียบบทพิสูจน์เป็นเพียงงานรองเท่านั้น
ประเด็นที่ Claude หยุดอยู่ในกรณีเลขคู่นั้นน่าสนใจ
น่าจะใช้ไม่ claude.ai ก็ claude code และคงเข้าไปอยู่ในภาวะ context overflow (dumb zone)
เช่น แสดง กราฟการใช้ context แบบ Copilot เพื่อให้ผู้ใช้รับรู้ได้ ก็น่าจะมีประโยชน์
เคยลองให้ Claude แก้ ปริศนาเพนโตมิโน ที่ Arthur C. Clarke ทำให้มีชื่อเสียง
พอให้แทนบอร์ดและชิ้นส่วนด้วยจำนวนเต็ม 64 บิต มันก็สร้างโปรแกรม C# ที่แก้ได้อย่างรวดเร็ว แต่ในกรณี 20x3 กลับให้คำตอบผิดเพราะ การแมปผิดพลาด
น่าสนใจตรงที่เป็นความผิดแบบที่มนุษย์ก็ทำได้
สรุปคือ Knuth เสนอปัญหา และเพื่อนของเขาใช้ Claude สำรวจอยู่ราว 30 กว่ารอบ
Claude สร้างโปรแกรม Python ที่แก้กรณีเลขคี่ได้ และ Knuth ก็พิสูจน์แนวทางนั้น
ส่วนกรณีเลขคู่ยังคงเป็น ปัญหาที่ยังไม่ได้รับการแก้
ที่เกิดขึ้นจริงเหมือนจะเป็นแค่ Claude มักหยุดหรือทำผิด แล้วมนุษย์คอย เตือน เป็นครั้งคราว
ส่วนไอเดียแกนหลักมาจากใครนั้นยังไม่ชัดเจน
ช่วงนี้เป็นยุคที่สนุกมากในการจัดการกับ ปัญหาที่ยังไม่ได้รับการแก้
ทำให้อยากกลับไปสำรวจงานวิจัยเมื่อ 10 ปีก่อนร่วมกับ Claude อีกครั้ง
จุดแข็งของ LLM ดูเหมือนจะมีอยู่สามอย่าง: ความรู้มหาศาล, ความสามารถในการเชื่อมโยง, และ การลองผิดลองถูกได้โดยไม่เหนื่อยล้า
เมื่อทั้งสามอย่างมารวมกัน บางครั้งก็ให้ผลลัพธ์ที่น่าทึ่ง
บางทีบทพิสูจน์ P≠NP อาจอยู่ใน สายใยความเชื่อมโยงอันเลือนราง ที่มนุษย์ยังมองไม่เห็นก็ได้
LLM เป็นเพียงองค์ประกอบหนึ่งในนั้น
หากปัจจัยอื่นเท่ากัน นี่แหละคือความต่างที่ชี้ขาด
การสร้างความเชื่อมโยงใหม่อย่างแท้จริงยังเป็นเรื่องยาก
ยังสงสัยอยู่ว่าคำพูดที่ว่า “LLM ก็เป็นแค่เครื่องทำนายคำถัดไป” นั้นถูกต้องแค่ไหน
ถ้าเป็นอย่างนั้นจริง แล้วการแก้ปัญหาแบบนี้จะอธิบายอย่างไร? นี่ถือเป็น ‘การคิด’ หรือไม่?
คำอธิบายแบบ “คำที่มีความน่าจะเป็นสูงสุด” นั้นเรียบง่ายเกินไป
สุดท้ายแล้ว “ความสามารถในการทำนายสิ่งที่จะเกิดขึ้นถัดไปได้ดี” อาจเป็น นิยามของสติปัญญา เองก็ได้
และด้วย RLHF จึงได้รับรางวัลไม่ใช่แค่จากการทำนาย แต่จากการให้ คำตอบที่เป็นประโยชน์
นั่นจึงเป็นเหตุผลว่าทำไมคำอย่าง “delve” ถึงโผล่มาบ่อยเกินควร
ดูเพิ่มเติมได้ใน เอกสาร AI SIGNS
LLM กำลังเรียนรู้การกระจายนั้น
การลดทอนแล้วพูดประชดมันจึงเป็นท่าทีที่พลาดแก่นแท้ของเทคโนโลยีนี้
น่าสนใจที่นี่เป็นรายงานจาก Knuth เอง
ถึงเวลาที่ต้องหาเวลาอ่านและทำความเข้าใจด้วยตัวเองโดยไม่พึ่งความช่วยเหลือจาก LLM