วัฏจักรของ Claude [PDF]

(www-cs-faculty.stanford.edu)

4 คะแนน โดย GN⁺ 2026-03-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Claude Opus 4.6 ของ Anthropic แก้ปัญหา การแยกวัฏจักรแฮมิลโทเนียนแบบมีทิศทาง ที่ Donald Knuth ศึกษามานานหลายสัปดาห์ได้
ปัญหานี้คือการหาการ แยกกราฟมีทิศทางที่มีจุดยอด (m^3) จุด ออกเป็นวัฏจักรแฮมิลโทเนียนสามวง และ Claude ก็แก้ได้อย่างสมบูรณ์สำหรับกรณี odd m (ค่า m คี่)
Claude ใช้กลยุทธ์การสำรวจหลายแบบเป็นลำดับขั้น เช่น การแยกแบบไฟเบอร์ (fiber), แพตเทิร์นแบบงู 3D (serpentine), การค้นหาเชิงลึก (DFS), และ simulated annealing
ท้ายที่สุดได้คำตอบทั่วไปในรูปแบบ โปรแกรม Python และ Filip Stappers ได้ตรวจสอบสำหรับ ค่า m คี่ตั้งแต่ 3 ถึง 101 เพื่อยืนยันว่าการแยกสมบูรณ์จริง
Knuth ประเมินผลลัพธ์นี้ว่าเป็น ความก้าวหน้าครั้งสำคัญของการให้เหตุผลอัตโนมัติและการแก้ปัญหาเชิงสร้างสรรค์ พร้อมระบุว่า กรณี m คู่ยังคงเป็นปัญหาที่ยังไม่ถูกแก้

ภูมิหลังและนิยามของปัญหา

หัวข้อวิจัยนี้เกี่ยวข้องกับ วัฏจักรแฮมิลโทเนียนแบบมีทิศทาง (directed Hamiltonian cycles) และมีกำหนดรวมอยู่ในเล่มถัดไปของหนังสือ The Art of Computer Programming ของ Knuth
กราฟประกอบด้วยจุดยอด (m^3) จุดในรูป (ijk) โดยจากแต่ละจุดยอดจะมีเส้นเชื่อมออก 3 เส้นคือ (i+jk), (ij+k), (ijk+)
เป้าหมายคือหาคำตอบทั่วไปสำหรับทุก (m>2) ที่จะแยกเส้นเชื่อมเหล่านี้ออกเป็น วัฏจักรมีทิศทางขนาด (m^3) จำนวนสามวง

กระบวนการสำรวจของ Claude

Claude Opus 4.6 เป็นโมเดล hybrid reasoning ของ Anthropic โดย Filip Stappers เป็นผู้ยื่นปัญหาและสั่งให้บันทึกกระบวนการดำเนินงานไว้เป็นเอกสาร
ในช่วงแรก Claude นิยามปัญหาใหม่เป็น กราฟเชิงฟังก์ชันและปัญหาการกำหนดการเรียงสับเปลี่ยน และลองแนวทางแบบฟังก์ชันเชิงเส้นและกำลังสอง แต่ไม่สำเร็จ
จากนั้นจึงทดลองตามลำดับด้วย การค้นหาแบบ DFS, การวิเคราะห์แพตเทิร์นแบบงู 2D, และ แพตเทิร์นบนพื้นฐาน Gray code แบบ 3D
ต่อมาได้ใช้แนวทาง การแยกแบบไฟเบอร์ (fiber) โดยวิเคราะห์โครงสร้างแบบแบ่งชั้นตาม (s = (i+j+k) \mod m) และพบคำตอบบางส่วนผ่าน simulated annealing (SA)

การค้นพบคำตอบและการตรวจสอบ

ในขั้นตอนการสำรวจที่ 31 Claude สร้างโปรแกรม Python ที่ใช้ กฎซึ่งขึ้นกับพิกัดเดียวในแต่ละไฟเบอร์
โปรแกรมนี้สร้างวัฏจักรแฮมิลโทเนียนครบสามวงได้สำหรับ m=3,5,7,9,11
Filip Stappers ทดสอบสิ่งนี้กับ ทุกค่า m คี่ตั้งแต่ 3 ถึง 101 และยืนยันว่าการแยกสมบูรณ์
Knuth ได้ย่อคำตอบนี้ให้อยู่ในรูปโค้ด C และพิสูจน์ทางคณิตศาสตร์ว่าแต่ละวัฏจักรมี ความยาว (m^3) จริง

การทำให้เป็นทั่วไปและการวิเคราะห์ทางคณิตศาสตร์

ยืนยันว่าวัฏจักรแฮมิลโทเนียนบางส่วนของกรณี (m=3) สามารถ ทำให้เป็นทั่วไปสำหรับค่า m คี่ทั้งหมด ได้
- ในกรณี (m=3) จากวัฏจักรทั้งหมด 11,502 วง มี 1,012 วงที่ทำให้เป็นทั่วไปไปยัง (m=5) ได้ และมี 996 วงที่ทำได้ถึง (m=7)
- วัฏจักร 996 วงนี้สามารถทำให้เป็นทั่วไปได้สำหรับ ทุกค่า m คี่ที่มากกว่า 1
การแยกแบบ “Claude-like” นิยามด้วยกฎอย่างง่ายที่ขึ้นอยู่เพียง ค่าขอบเขตของ i, j, s (0 หรือ m−1)
ทฤษฎีบท: หากการแยกแบบ “Claude-like” จะใช้ได้กับทุกค่า m คี่ที่มากกว่า 1 แล้ว วัฏจักรทั้งสามในกรณี m=3 จะต้องเป็นวัฏจักรแฮมิลโทเนียนที่สามารถทำให้เป็นทั่วไปได้
จากการคำนวณพบว่า มีการแยกแบบ Claude-like 760 แบบ ที่ใช้ได้กับทุกค่า m คี่

ความยังไม่คลี่คลายของกรณี m คู่และบทสรุป

กรณี m คู่ยังคงอยู่ในสถานะ ยังไม่ถูกแก้ (open)
- มีงานวิจัยก่อนหน้าพิสูจน์แล้วว่า (m=2) เป็นไปไม่ได้
- Claude พบคำตอบบางส่วนสำหรับ (m=4,6,8) แต่ไม่สามารถทำให้เป็นทั่วไปได้
ระหว่างการสำรวจกรณี m คู่ Claude แสดงข้อผิดพลาดและพฤติกรรมผิดปกติ ทำให้ต้องยุติการสำรวจ
Knuth ประเมินสิ่งนี้ว่าเป็น ความสำเร็จครั้งประวัติศาสตร์ของการให้เหตุผลอัตโนมัติด้วย AI และกล่าวว่าเป็นความก้าวหน้าที่ สมชื่อ Claude Shannon

ภาคผนวก: กฎของอีกสองวัฏจักร

วัฏจักรที่สอง (c=1):
- ถ้า (s=0) ให้เพิ่ม j, ถ้า (0<s<m−1) ให้เพิ่ม i, และเมื่อ (s=m−1) ถ้า i>0 ให้เพิ่ม k แต่ถ้า i=0 ให้เพิ่ม j
วัฏจักรที่สาม (c=2):
- ที่ (s=0) ถ้า j<m−1 ให้เพิ่ม i, แต่ถ้า j=m−1 ให้เพิ่ม k
- ที่ (0<s<m−1) ถ้า i<m−1 ให้เพิ่ม k, แต่ถ้า i=m−1 ให้เพิ่ม j
- ถ้า (s=m−1) ให้เพิ่ม i
มีการระบุ ลำดับของจุดยอดเมื่อ s=0 ของแต่ละวัฏจักรไว้ และสามารถใช้สิ่งนี้พิสูจน์โครงสร้างของวัฏจักรทั้งหมดได้

1 ความคิดเห็น

GN⁺ 2026-03-04

ความเห็นบน Hacker News

น่าสนใจถ้าลองคิดดูว่ามีขอบเขตของปัญหาแบบไหนบ้างที่ การขยายสเกลของ RL นำไปใช้ได้
เมื่อก่อนต้องพึ่งพาการรับรู้ของมนุษย์ แต่ตอนนี้รูปแบบเหล่านี้ถูกหลอมรวมอยู่ใน การกระจายความน่าจะเป็น แล้ว จึงกลายเป็นสิ่งที่ใครก็เข้าถึงได้
อย่างไรก็ตาม ยังน่าสงสัยว่าเมื่อขอบเขตของวิทยาศาสตร์ขยายออกไปเรื่อยๆ โมเดลจะตามทันได้หรือไม่
หาก Anthropic ต้องการคงให้ Claude ทันสมัยอยู่เสมอในปี 2030 ก็คงต้องมี (a) continuous learning สำหรับโมเดลที่ตรึงไว้ หรือ (b) continuous training ซึ่งทั้งสองอย่างก็ไม่ง่าย
- โมเดลแบบ open weights ดูเหมือน ไทม์แคปซูล ชนิดหนึ่ง
  หลังจุด knowledge cutoff ไปแล้ว มันก็จะค้างอยู่ที่ช่วงเวลานั้นตลอดไป
- ถ้าอนุญาตให้แชร์ข้อมูลได้ ผลลัพธ์การให้เหตุผล ของวันนี้ก็อาจกลายเป็นข้อมูลฝึกของวันพรุ่งนี้
  นึกภาพโมเดลที่ให้ inference ฟรีแก่นักวิจัย แลกกับการนำ กระบวนการคิด (trace) ไปใช้เป็นข้อมูลฝึกได้เช่นกัน
- ถ้าฟังจากนักวิจัยช่วงหลังๆ ดูเหมือนว่าสถาปัตยกรรมโมเดลในอนาคตจะพัฒนาไปในทิศทางของการขยาย context window อย่างมาก
  โมเดลอย่าง Qwen3-next, Qwen3.5, Nemotron 3 Nano รองรับหน้าต่างระดับล้านโทเคน โดยลดต้นทุนหน่วยความจำด้วย hybrid attention
- งานวิจัยและการเรียนรู้ส่วนใหญ่ในตอนนี้เกิดขึ้นผ่าน LLM และ coding agent อยู่แล้ว
  วงจรป้อนกลับแบบเรียลไทม์ จากการตรวจสอบโดยมนุษย์ การรันโค้ด และการค้นหา กำลังทำหน้าที่เป็นสัญญาณการเรียนรู้ให้โมเดล
- พอถึงปี 2030 อาจกลายเป็นว่า Claude เป็นฝ่ายทำให้ Anthropic ทันสมัยอยู่เสมอ ก็ได้
  ฟังดูเหมือนพูดเล่นครึ่งหนึ่ง แต่ก็ไม่ใช่ว่าจะเป็นไปไม่ได้เลย
ทำให้นึกถึง บทสนทนา GPT-4 ของ Wolfram กับ Knuth เมื่อก่อน
ตอนนั้น Knuth ค่อนข้างสงสัย แต่ดูเหมือนว่าช่วงหลังเขาจะอ่อนท่าทีลงเมื่อได้เห็นโมเดลอย่าง Opus 4.6
การเปลี่ยนความคิดตามหลักฐานใหม่เป็นเรื่องที่น่าชื่นชม
บทสนทนาที่เกี่ยวข้องดูได้ที่นี่
- การอัปเดต prior ตามหลักฐานใหม่คือเสน่ห์ของ สถิติแบบเบย์
  และยังเป็นหัวใจของการคิดแบบวิทยาศาสตร์ด้วย
รู้สึกว่าบทนำของงานเขียนของ Knuth มีความ ชวนให้เข้าใจผิด อยู่พอสมควร
เหมือนทำให้ดูราวกับว่า Claude เป็นคนแก้ปัญหาโดยตรง แต่จริงๆ แล้ว Claude สร้างตัวอย่างขึ้นมา และ Knuth เป็นคนทำให้เป็นนามธรรมจนกลายเป็นบทพิสูจน์
- ฉันเองก็เคยลองทำการทดลองคล้ายๆ กันกับ Claude และ ซินเนอร์ยี ระหว่างมนุษย์กับ LLM นั้นสูงมากจริงๆ
  LLM ไม่ค่อยเก่งเรื่องการกำหนดทิศทาง แต่เมื่อมีทิศทางให้แล้ว มันจะ สำรวจเชิงลึก ได้ดีมาก
  ถ้าปล่อยไว้ลำพังก็จะหลงทางได้ง่าย แต่ถ้ามีคนคอยนำ มันจะเป็นพาร์ตเนอร์ที่ยอดเยี่ยม
- ไม่คิดว่า Knuth จะประเมินสูงเกินไป
  Claude มีบทบาทในการ เจาะเข้าไปถึงแก่นของปัญหา และมนุษย์ก็เพียงแค่ขัดเกลาสิ่งนั้น
- มองได้เหมือนกันว่า Claude คือผู้ทำ ‘การแก้ปัญหา’ ในความหมายที่ Knuth พูดถึง
  การจัดระเบียบบทพิสูจน์เป็นเพียงงานรองเท่านั้น
- ความสามารถในการย้อนกลับไปยังความพยายามก่อนหน้าแล้ว ทบทวนและแก้ไข ดูเป็น สัญญาณของสติปัญญา ที่ชัดเจน
ประเด็นที่ Claude หยุดอยู่ในกรณีเลขคู่นั้นน่าสนใจ
น่าจะใช้ไม่ claude.ai ก็ claude code และคงเข้าไปอยู่ในภาวะ context overflow (dumb zone)
- ถ้าสามารถ ทำให้เห็นภาพ dumb zone นี้ได้ก็คงดี
  เช่น แสดง กราฟการใช้ context แบบ Copilot เพื่อให้ผู้ใช้รับรู้ได้ ก็น่าจะมีประโยชน์
- สุดท้ายแล้วถ้าไม่ทำ context compacting ผลลัพธ์ก็จะเละเทะ
- จากที่มีการพูดถึง ‘plan document’ ดูเหมือนจะใช้เอกสารจัดการเซสชัน
- บางคนก็สงสัยเหมือนกันว่า dumb zone คืออะไร
เคยลองให้ Claude แก้ ปริศนาเพนโตมิโน ที่ Arthur C. Clarke ทำให้มีชื่อเสียง
พอให้แทนบอร์ดและชิ้นส่วนด้วยจำนวนเต็ม 64 บิต มันก็สร้างโปรแกรม C# ที่แก้ได้อย่างรวดเร็ว แต่ในกรณี 20x3 กลับให้คำตอบผิดเพราะ การแมปผิดพลาด
น่าสนใจตรงที่เป็นความผิดแบบที่มนุษย์ก็ทำได้
สรุปคือ Knuth เสนอปัญหา และเพื่อนของเขาใช้ Claude สำรวจอยู่ราว 30 กว่ารอบ
Claude สร้างโปรแกรม Python ที่แก้กรณีเลขคี่ได้ และ Knuth ก็พิสูจน์แนวทางนั้น
ส่วนกรณีเลขคู่ยังคงเป็น ปัญหาที่ยังไม่ได้รับการแก้
- แต่คำว่า “careful human guidance” ที่ Knuth ใช้น่าจะฟังดูเกินจริงไปหน่อย
  ที่เกิดขึ้นจริงเหมือนจะเป็นแค่ Claude มักหยุดหรือทำผิด แล้วมนุษย์คอย เตือน เป็นครั้งคราว
- สิ่งที่ Knuth อยากเน้นน่าจะเป็นว่า การพิสูจน์อย่างเป็นทางการยังเป็นหน้าที่ของมนุษย์
  ส่วนไอเดียแกนหลักมาจากใครนั้นยังไม่ชัดเจน
ช่วงนี้เป็นยุคที่สนุกมากในการจัดการกับ ปัญหาที่ยังไม่ได้รับการแก้
ทำให้อยากกลับไปสำรวจงานวิจัยเมื่อ 10 ปีก่อนร่วมกับ Claude อีกครั้ง
จุดแข็งของ LLM ดูเหมือนจะมีอยู่สามอย่าง: ความรู้มหาศาล, ความสามารถในการเชื่อมโยง, และ การลองผิดลองถูกได้โดยไม่เหนื่อยล้า
เมื่อทั้งสามอย่างมารวมกัน บางครั้งก็ให้ผลลัพธ์ที่น่าทึ่ง
บางทีบทพิสูจน์ P≠NP อาจอยู่ใน สายใยความเชื่อมโยงอันเลือนราง ที่มนุษย์ยังมองไม่เห็นก็ได้
- ข้อสุดท้ายอันที่จริงอาจไม่ใช่คุณสมบัติของ LLM เอง แต่เป็นคุณสมบัติของ agent loop มากกว่า
  LLM เป็นเพียงองค์ประกอบหนึ่งในนั้น
- ถึงอย่างนั้น การสำรวจซ้ำอย่างไม่รู้จักเหน็ดเหนื่อย ก็ยังเป็นข้อได้เปรียบเหนือมนุษย์อย่างมาก
  หากปัจจัยอื่นเท่ากัน นี่แหละคือความต่างที่ชี้ขาด
- เห็นด้วยเต็มที่กับคำพูดที่ว่าพอรวมสามอย่างนี้เข้าด้วยกันแล้วจะได้ผลลัพธ์ที่ยอดเยี่ยม
- แต่ก็น่ากลัวเหมือนกันที่ความสามารถแบบนี้อาจถูกนำไปใช้กับ ระบบสอดส่อง
- คำว่า ‘ความสามารถในการเชื่อมโยง’ จริงๆ แล้วดูเหมือนจะจำกัดอยู่ที่ ความเชื่อมโยงที่มีอยู่แล้วในข้อมูลฝึก
  การสร้างความเชื่อมโยงใหม่อย่างแท้จริงยังเป็นเรื่องยาก
ยังสงสัยอยู่ว่าคำพูดที่ว่า “LLM ก็เป็นแค่เครื่องทำนายคำถัดไป” นั้นถูกต้องแค่ไหน
ถ้าเป็นอย่างนั้นจริง แล้วการแก้ปัญหาแบบนี้จะอธิบายอย่างไร? นี่ถือเป็น ‘การคิด’ หรือไม่?
- ถ้าคุณสามารถทำนายคำถัดไปที่ไอน์สไตน์จะพูดได้อย่างสมบูรณ์แบบ นั่นก็เท่ากับคุณได้สร้าง สติปัญญา ขึ้นมาแล้ว
  คำอธิบายแบบ “คำที่มีความน่าจะเป็นสูงสุด” นั้นเรียบง่ายเกินไป
- คำอธิบายนี้ใช้ได้กับ base model แต่โมเดลอย่าง Opus 4.6 มีทั้ง RLHF และการฝึกเพิ่มเติมซ้อนอยู่ด้านบน
  สุดท้ายแล้ว “ความสามารถในการทำนายสิ่งที่จะเกิดขึ้นถัดไปได้ดี” อาจเป็น นิยามของสติปัญญา เองก็ได้
- base model เรียนรู้ รูปแบบการแก้ปัญหา ไปโดยธรรมชาติจากการซึมซับแพตเทิร์น “Answer:” บนเว็บ
  และด้วย RLHF จึงได้รับรางวัลไม่ใช่แค่จากการทำนาย แต่จากการให้ คำตอบที่เป็นประโยชน์
  นั่นจึงเป็นเหตุผลว่าทำไมคำอย่าง “delve” ถึงโผล่มาบ่อยเกินควร
  ดูเพิ่มเติมได้ใน เอกสาร AI SIGNS
- โดยสรุปมันก็ยังเป็นการสุ่มคำจากการกระจายความน่าจะเป็นอยู่ดี แต่ ตัวการกระจาย นั้นเองคือแก่นของ สติปัญญา
  LLM กำลังเรียนรู้การกระจายนั้น
- กลไกง่ายๆ อย่าง “คำที่มีความน่าจะเป็นสูงสุด” เมื่อรวมเข้ากับ องค์ความรู้ทั้งหมดของมนุษยชาติ แล้ว ก็มีพลังมหาศาล
  การลดทอนแล้วพูดประชดมันจึงเป็นท่าทีที่พลาดแก่นแท้ของเทคโนโลยีนี้
น่าสนใจที่นี่เป็นรายงานจาก Knuth เอง
ถึงเวลาที่ต้องหาเวลาอ่านและทำความเข้าใจด้วยตัวเองโดยไม่พึ่งความช่วยเหลือจาก LLM
- แต่เพราะไม่มีเวลา เลยไปหาลิงก์สรุปที่มีคนทำไว้แทน

วัฏจักรของ Claude [PDF]

ภูมิหลังและนิยามของปัญหา

กระบวนการสำรวจของ Claude

การค้นพบคำตอบและการตรวจสอบ

การทำให้เป็นทั่วไปและการวิเคราะห์ทางคณิตศาสตร์

ความยังไม่คลี่คลายของกรณี m คู่และบทสรุป

ภาคผนวก: กฎของอีกสองวัฏจักร

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News