4 คะแนน โดย GN⁺ 2026-03-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Claude Opus 4.6 ของ Anthropic แก้ปัญหา การแยกวัฏจักรแฮมิลโทเนียนแบบมีทิศทาง ที่ Donald Knuth ศึกษามานานหลายสัปดาห์ได้
  • ปัญหานี้คือการหาการ แยกกราฟมีทิศทางที่มีจุดยอด (m^3) จุด ออกเป็นวัฏจักรแฮมิลโทเนียนสามวง และ Claude ก็แก้ได้อย่างสมบูรณ์สำหรับกรณี odd m (ค่า m คี่)
  • Claude ใช้กลยุทธ์การสำรวจหลายแบบเป็นลำดับขั้น เช่น การแยกแบบไฟเบอร์ (fiber), แพตเทิร์นแบบงู 3D (serpentine), การค้นหาเชิงลึก (DFS), และ simulated annealing
  • ท้ายที่สุดได้คำตอบทั่วไปในรูปแบบ โปรแกรม Python และ Filip Stappers ได้ตรวจสอบสำหรับ ค่า m คี่ตั้งแต่ 3 ถึง 101 เพื่อยืนยันว่าการแยกสมบูรณ์จริง
  • Knuth ประเมินผลลัพธ์นี้ว่าเป็น ความก้าวหน้าครั้งสำคัญของการให้เหตุผลอัตโนมัติและการแก้ปัญหาเชิงสร้างสรรค์ พร้อมระบุว่า กรณี m คู่ยังคงเป็นปัญหาที่ยังไม่ถูกแก้

ภูมิหลังและนิยามของปัญหา

  • หัวข้อวิจัยนี้เกี่ยวข้องกับ วัฏจักรแฮมิลโทเนียนแบบมีทิศทาง (directed Hamiltonian cycles) และมีกำหนดรวมอยู่ในเล่มถัดไปของหนังสือ The Art of Computer Programming ของ Knuth
  • กราฟประกอบด้วยจุดยอด (m^3) จุดในรูป (ijk) โดยจากแต่ละจุดยอดจะมีเส้นเชื่อมออก 3 เส้นคือ (i+jk), (ij+k), (ijk+)
  • เป้าหมายคือหาคำตอบทั่วไปสำหรับทุก (m>2) ที่จะแยกเส้นเชื่อมเหล่านี้ออกเป็น วัฏจักรมีทิศทางขนาด (m^3) จำนวนสามวง

กระบวนการสำรวจของ Claude

  • Claude Opus 4.6 เป็นโมเดล hybrid reasoning ของ Anthropic โดย Filip Stappers เป็นผู้ยื่นปัญหาและสั่งให้บันทึกกระบวนการดำเนินงานไว้เป็นเอกสาร
  • ในช่วงแรก Claude นิยามปัญหาใหม่เป็น กราฟเชิงฟังก์ชันและปัญหาการกำหนดการเรียงสับเปลี่ยน และลองแนวทางแบบฟังก์ชันเชิงเส้นและกำลังสอง แต่ไม่สำเร็จ
  • จากนั้นจึงทดลองตามลำดับด้วย การค้นหาแบบ DFS, การวิเคราะห์แพตเทิร์นแบบงู 2D, และ แพตเทิร์นบนพื้นฐาน Gray code แบบ 3D
  • ต่อมาได้ใช้แนวทาง การแยกแบบไฟเบอร์ (fiber) โดยวิเคราะห์โครงสร้างแบบแบ่งชั้นตาม (s = (i+j+k) \mod m) และพบคำตอบบางส่วนผ่าน simulated annealing (SA)

การค้นพบคำตอบและการตรวจสอบ

  • ในขั้นตอนการสำรวจที่ 31 Claude สร้างโปรแกรม Python ที่ใช้ กฎซึ่งขึ้นกับพิกัดเดียวในแต่ละไฟเบอร์
  • โปรแกรมนี้สร้างวัฏจักรแฮมิลโทเนียนครบสามวงได้สำหรับ m=3,5,7,9,11
  • Filip Stappers ทดสอบสิ่งนี้กับ ทุกค่า m คี่ตั้งแต่ 3 ถึง 101 และยืนยันว่าการแยกสมบูรณ์
  • Knuth ได้ย่อคำตอบนี้ให้อยู่ในรูปโค้ด C และพิสูจน์ทางคณิตศาสตร์ว่าแต่ละวัฏจักรมี ความยาว (m^3) จริง

การทำให้เป็นทั่วไปและการวิเคราะห์ทางคณิตศาสตร์

  • ยืนยันว่าวัฏจักรแฮมิลโทเนียนบางส่วนของกรณี (m=3) สามารถ ทำให้เป็นทั่วไปสำหรับค่า m คี่ทั้งหมด ได้
    • ในกรณี (m=3) จากวัฏจักรทั้งหมด 11,502 วง มี 1,012 วงที่ทำให้เป็นทั่วไปไปยัง (m=5) ได้ และมี 996 วงที่ทำได้ถึง (m=7)
    • วัฏจักร 996 วงนี้สามารถทำให้เป็นทั่วไปได้สำหรับ ทุกค่า m คี่ที่มากกว่า 1
  • การแยกแบบ “Claude-like” นิยามด้วยกฎอย่างง่ายที่ขึ้นอยู่เพียง ค่าขอบเขตของ i, j, s (0 หรือ m−1)
  • ทฤษฎีบท: หากการแยกแบบ “Claude-like” จะใช้ได้กับทุกค่า m คี่ที่มากกว่า 1 แล้ว วัฏจักรทั้งสามในกรณี m=3 จะต้องเป็นวัฏจักรแฮมิลโทเนียนที่สามารถทำให้เป็นทั่วไปได้
  • จากการคำนวณพบว่า มีการแยกแบบ Claude-like 760 แบบ ที่ใช้ได้กับทุกค่า m คี่

ความยังไม่คลี่คลายของกรณี m คู่และบทสรุป

  • กรณี m คู่ยังคงอยู่ในสถานะ ยังไม่ถูกแก้ (open)
    • มีงานวิจัยก่อนหน้าพิสูจน์แล้วว่า (m=2) เป็นไปไม่ได้
    • Claude พบคำตอบบางส่วนสำหรับ (m=4,6,8) แต่ไม่สามารถทำให้เป็นทั่วไปได้
  • ระหว่างการสำรวจกรณี m คู่ Claude แสดงข้อผิดพลาดและพฤติกรรมผิดปกติ ทำให้ต้องยุติการสำรวจ
  • Knuth ประเมินสิ่งนี้ว่าเป็น ความสำเร็จครั้งประวัติศาสตร์ของการให้เหตุผลอัตโนมัติด้วย AI และกล่าวว่าเป็นความก้าวหน้าที่ สมชื่อ Claude Shannon

ภาคผนวก: กฎของอีกสองวัฏจักร

  • วัฏจักรที่สอง (c=1):
    • ถ้า (s=0) ให้เพิ่ม j, ถ้า (0<s<m−1) ให้เพิ่ม i, และเมื่อ (s=m−1) ถ้า i>0 ให้เพิ่ม k แต่ถ้า i=0 ให้เพิ่ม j
  • วัฏจักรที่สาม (c=2):
    • ที่ (s=0) ถ้า j<m−1 ให้เพิ่ม i, แต่ถ้า j=m−1 ให้เพิ่ม k
    • ที่ (0<s<m−1) ถ้า i<m−1 ให้เพิ่ม k, แต่ถ้า i=m−1 ให้เพิ่ม j
    • ถ้า (s=m−1) ให้เพิ่ม i
  • มีการระบุ ลำดับของจุดยอดเมื่อ s=0 ของแต่ละวัฏจักรไว้ และสามารถใช้สิ่งนี้พิสูจน์โครงสร้างของวัฏจักรทั้งหมดได้

1 ความคิดเห็น

 
GN⁺ 2026-03-04
ความเห็นบน Hacker News
  • น่าสนใจถ้าลองคิดดูว่ามีขอบเขตของปัญหาแบบไหนบ้างที่ การขยายสเกลของ RL นำไปใช้ได้
    เมื่อก่อนต้องพึ่งพาการรับรู้ของมนุษย์ แต่ตอนนี้รูปแบบเหล่านี้ถูกหลอมรวมอยู่ใน การกระจายความน่าจะเป็น แล้ว จึงกลายเป็นสิ่งที่ใครก็เข้าถึงได้
    อย่างไรก็ตาม ยังน่าสงสัยว่าเมื่อขอบเขตของวิทยาศาสตร์ขยายออกไปเรื่อยๆ โมเดลจะตามทันได้หรือไม่
    หาก Anthropic ต้องการคงให้ Claude ทันสมัยอยู่เสมอในปี 2030 ก็คงต้องมี (a) continuous learning สำหรับโมเดลที่ตรึงไว้ หรือ (b) continuous training ซึ่งทั้งสองอย่างก็ไม่ง่าย

    • โมเดลแบบ open weights ดูเหมือน ไทม์แคปซูล ชนิดหนึ่ง
      หลังจุด knowledge cutoff ไปแล้ว มันก็จะค้างอยู่ที่ช่วงเวลานั้นตลอดไป
    • ถ้าอนุญาตให้แชร์ข้อมูลได้ ผลลัพธ์การให้เหตุผล ของวันนี้ก็อาจกลายเป็นข้อมูลฝึกของวันพรุ่งนี้
      นึกภาพโมเดลที่ให้ inference ฟรีแก่นักวิจัย แลกกับการนำ กระบวนการคิด (trace) ไปใช้เป็นข้อมูลฝึกได้เช่นกัน
    • ถ้าฟังจากนักวิจัยช่วงหลังๆ ดูเหมือนว่าสถาปัตยกรรมโมเดลในอนาคตจะพัฒนาไปในทิศทางของการขยาย context window อย่างมาก
      โมเดลอย่าง Qwen3-next, Qwen3.5, Nemotron 3 Nano รองรับหน้าต่างระดับล้านโทเคน โดยลดต้นทุนหน่วยความจำด้วย hybrid attention
    • งานวิจัยและการเรียนรู้ส่วนใหญ่ในตอนนี้เกิดขึ้นผ่าน LLM และ coding agent อยู่แล้ว
      วงจรป้อนกลับแบบเรียลไทม์ จากการตรวจสอบโดยมนุษย์ การรันโค้ด และการค้นหา กำลังทำหน้าที่เป็นสัญญาณการเรียนรู้ให้โมเดล
    • พอถึงปี 2030 อาจกลายเป็นว่า Claude เป็นฝ่ายทำให้ Anthropic ทันสมัยอยู่เสมอ ก็ได้
      ฟังดูเหมือนพูดเล่นครึ่งหนึ่ง แต่ก็ไม่ใช่ว่าจะเป็นไปไม่ได้เลย
  • ทำให้นึกถึง บทสนทนา GPT-4 ของ Wolfram กับ Knuth เมื่อก่อน
    ตอนนั้น Knuth ค่อนข้างสงสัย แต่ดูเหมือนว่าช่วงหลังเขาจะอ่อนท่าทีลงเมื่อได้เห็นโมเดลอย่าง Opus 4.6
    การเปลี่ยนความคิดตามหลักฐานใหม่เป็นเรื่องที่น่าชื่นชม
    บทสนทนาที่เกี่ยวข้องดูได้ที่นี่

    • การอัปเดต prior ตามหลักฐานใหม่คือเสน่ห์ของ สถิติแบบเบย์
      และยังเป็นหัวใจของการคิดแบบวิทยาศาสตร์ด้วย
  • รู้สึกว่าบทนำของงานเขียนของ Knuth มีความ ชวนให้เข้าใจผิด อยู่พอสมควร
    เหมือนทำให้ดูราวกับว่า Claude เป็นคนแก้ปัญหาโดยตรง แต่จริงๆ แล้ว Claude สร้างตัวอย่างขึ้นมา และ Knuth เป็นคนทำให้เป็นนามธรรมจนกลายเป็นบทพิสูจน์

    • ฉันเองก็เคยลองทำการทดลองคล้ายๆ กันกับ Claude และ ซินเนอร์ยี ระหว่างมนุษย์กับ LLM นั้นสูงมากจริงๆ
      LLM ไม่ค่อยเก่งเรื่องการกำหนดทิศทาง แต่เมื่อมีทิศทางให้แล้ว มันจะ สำรวจเชิงลึก ได้ดีมาก
      ถ้าปล่อยไว้ลำพังก็จะหลงทางได้ง่าย แต่ถ้ามีคนคอยนำ มันจะเป็นพาร์ตเนอร์ที่ยอดเยี่ยม
    • ไม่คิดว่า Knuth จะประเมินสูงเกินไป
      Claude มีบทบาทในการ เจาะเข้าไปถึงแก่นของปัญหา และมนุษย์ก็เพียงแค่ขัดเกลาสิ่งนั้น
    • มองได้เหมือนกันว่า Claude คือผู้ทำ ‘การแก้ปัญหา’ ในความหมายที่ Knuth พูดถึง
      การจัดระเบียบบทพิสูจน์เป็นเพียงงานรองเท่านั้น
    • ความสามารถในการย้อนกลับไปยังความพยายามก่อนหน้าแล้ว ทบทวนและแก้ไข ดูเป็น สัญญาณของสติปัญญา ที่ชัดเจน
  • ประเด็นที่ Claude หยุดอยู่ในกรณีเลขคู่นั้นน่าสนใจ
    น่าจะใช้ไม่ claude.ai ก็ claude code และคงเข้าไปอยู่ในภาวะ context overflow (dumb zone)

    • ถ้าสามารถ ทำให้เห็นภาพ dumb zone นี้ได้ก็คงดี
      เช่น แสดง กราฟการใช้ context แบบ Copilot เพื่อให้ผู้ใช้รับรู้ได้ ก็น่าจะมีประโยชน์
    • สุดท้ายแล้วถ้าไม่ทำ context compacting ผลลัพธ์ก็จะเละเทะ
    • จากที่มีการพูดถึง ‘plan document’ ดูเหมือนจะใช้เอกสารจัดการเซสชัน
    • บางคนก็สงสัยเหมือนกันว่า dumb zone คืออะไร
  • เคยลองให้ Claude แก้ ปริศนาเพนโตมิโน ที่ Arthur C. Clarke ทำให้มีชื่อเสียง
    พอให้แทนบอร์ดและชิ้นส่วนด้วยจำนวนเต็ม 64 บิต มันก็สร้างโปรแกรม C# ที่แก้ได้อย่างรวดเร็ว แต่ในกรณี 20x3 กลับให้คำตอบผิดเพราะ การแมปผิดพลาด
    น่าสนใจตรงที่เป็นความผิดแบบที่มนุษย์ก็ทำได้

  • สรุปคือ Knuth เสนอปัญหา และเพื่อนของเขาใช้ Claude สำรวจอยู่ราว 30 กว่ารอบ
    Claude สร้างโปรแกรม Python ที่แก้กรณีเลขคี่ได้ และ Knuth ก็พิสูจน์แนวทางนั้น
    ส่วนกรณีเลขคู่ยังคงเป็น ปัญหาที่ยังไม่ได้รับการแก้

    • แต่คำว่า “careful human guidance” ที่ Knuth ใช้น่าจะฟังดูเกินจริงไปหน่อย
      ที่เกิดขึ้นจริงเหมือนจะเป็นแค่ Claude มักหยุดหรือทำผิด แล้วมนุษย์คอย เตือน เป็นครั้งคราว
    • สิ่งที่ Knuth อยากเน้นน่าจะเป็นว่า การพิสูจน์อย่างเป็นทางการยังเป็นหน้าที่ของมนุษย์
      ส่วนไอเดียแกนหลักมาจากใครนั้นยังไม่ชัดเจน
  • ช่วงนี้เป็นยุคที่สนุกมากในการจัดการกับ ปัญหาที่ยังไม่ได้รับการแก้
    ทำให้อยากกลับไปสำรวจงานวิจัยเมื่อ 10 ปีก่อนร่วมกับ Claude อีกครั้ง

  • จุดแข็งของ LLM ดูเหมือนจะมีอยู่สามอย่าง: ความรู้มหาศาล, ความสามารถในการเชื่อมโยง, และ การลองผิดลองถูกได้โดยไม่เหนื่อยล้า
    เมื่อทั้งสามอย่างมารวมกัน บางครั้งก็ให้ผลลัพธ์ที่น่าทึ่ง
    บางทีบทพิสูจน์ P≠NP อาจอยู่ใน สายใยความเชื่อมโยงอันเลือนราง ที่มนุษย์ยังมองไม่เห็นก็ได้

    • ข้อสุดท้ายอันที่จริงอาจไม่ใช่คุณสมบัติของ LLM เอง แต่เป็นคุณสมบัติของ agent loop มากกว่า
      LLM เป็นเพียงองค์ประกอบหนึ่งในนั้น
    • ถึงอย่างนั้น การสำรวจซ้ำอย่างไม่รู้จักเหน็ดเหนื่อย ก็ยังเป็นข้อได้เปรียบเหนือมนุษย์อย่างมาก
      หากปัจจัยอื่นเท่ากัน นี่แหละคือความต่างที่ชี้ขาด
    • เห็นด้วยเต็มที่กับคำพูดที่ว่าพอรวมสามอย่างนี้เข้าด้วยกันแล้วจะได้ผลลัพธ์ที่ยอดเยี่ยม
    • แต่ก็น่ากลัวเหมือนกันที่ความสามารถแบบนี้อาจถูกนำไปใช้กับ ระบบสอดส่อง
    • คำว่า ‘ความสามารถในการเชื่อมโยง’ จริงๆ แล้วดูเหมือนจะจำกัดอยู่ที่ ความเชื่อมโยงที่มีอยู่แล้วในข้อมูลฝึก
      การสร้างความเชื่อมโยงใหม่อย่างแท้จริงยังเป็นเรื่องยาก
  • ยังสงสัยอยู่ว่าคำพูดที่ว่า “LLM ก็เป็นแค่เครื่องทำนายคำถัดไป” นั้นถูกต้องแค่ไหน
    ถ้าเป็นอย่างนั้นจริง แล้วการแก้ปัญหาแบบนี้จะอธิบายอย่างไร? นี่ถือเป็น ‘การคิด’ หรือไม่?

    • ถ้าคุณสามารถทำนายคำถัดไปที่ไอน์สไตน์จะพูดได้อย่างสมบูรณ์แบบ นั่นก็เท่ากับคุณได้สร้าง สติปัญญา ขึ้นมาแล้ว
      คำอธิบายแบบ “คำที่มีความน่าจะเป็นสูงสุด” นั้นเรียบง่ายเกินไป
    • คำอธิบายนี้ใช้ได้กับ base model แต่โมเดลอย่าง Opus 4.6 มีทั้ง RLHF และการฝึกเพิ่มเติมซ้อนอยู่ด้านบน
      สุดท้ายแล้ว “ความสามารถในการทำนายสิ่งที่จะเกิดขึ้นถัดไปได้ดี” อาจเป็น นิยามของสติปัญญา เองก็ได้
    • base model เรียนรู้ รูปแบบการแก้ปัญหา ไปโดยธรรมชาติจากการซึมซับแพตเทิร์น “Answer:” บนเว็บ
      และด้วย RLHF จึงได้รับรางวัลไม่ใช่แค่จากการทำนาย แต่จากการให้ คำตอบที่เป็นประโยชน์
      นั่นจึงเป็นเหตุผลว่าทำไมคำอย่าง “delve” ถึงโผล่มาบ่อยเกินควร
      ดูเพิ่มเติมได้ใน เอกสาร AI SIGNS
    • โดยสรุปมันก็ยังเป็นการสุ่มคำจากการกระจายความน่าจะเป็นอยู่ดี แต่ ตัวการกระจาย นั้นเองคือแก่นของ สติปัญญา
      LLM กำลังเรียนรู้การกระจายนั้น
    • กลไกง่ายๆ อย่าง “คำที่มีความน่าจะเป็นสูงสุด” เมื่อรวมเข้ากับ องค์ความรู้ทั้งหมดของมนุษยชาติ แล้ว ก็มีพลังมหาศาล
      การลดทอนแล้วพูดประชดมันจึงเป็นท่าทีที่พลาดแก่นแท้ของเทคโนโลยีนี้
  • น่าสนใจที่นี่เป็นรายงานจาก Knuth เอง
    ถึงเวลาที่ต้องหาเวลาอ่านและทำความเข้าใจด้วยตัวเองโดยไม่พึ่งความช่วยเหลือจาก LLM

    • แต่เพราะไม่มีเวลา เลยไปหาลิงก์สรุปที่มีคนทำไว้แทน