6 คะแนน โดย GN⁺ 2025-07-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลการให้เหตุผลแบบลำดับชั้น (Hierarchical Reasoning Model) ช่วยก้าวข้ามข้อจำกัดของเทคนิค Chain-of-Thought ที่อิง LLM เดิม ๆ ในกระบวนการดำเนินพฤติกรรมที่มุ่งเป้าหมายซึ่งซับซ้อนของ AI ได้แก่ การแยกงานที่ไม่เสถียร ความต้องการข้อมูลจำนวนมาก และปัญหาความหน่วง
  • โดยได้รับแรงบันดาลใจจาก แนวคิดการประมวลผลแบบลำดับชั้นของสมองมนุษย์ HRM ได้นำโครงสร้างวนซ้ำแบบใหม่ที่ประกอบด้วยโมดูลระดับสูงสำหรับแผนเชิงนามธรรมระดับสูง และโมดูลระดับต่ำสำหรับประมวลผลรายละเอียดอย่างรวดเร็ว
  • HRM แสดงประสิทธิภาพที่โดดเด่นในปัญหาการให้เหตุผลที่ยาก ด้วยพารามิเตอร์ราว 27 ล้านตัวและตัวอย่างการฝึกเพียง 1,000 รายการ
  • แม้ ไม่มีการพรีเทรนและไม่มีข้อมูล Chain-of-Thought ก็ยังทำความแม่นยำได้เกือบสมบูรณ์แบบในงานอย่างซูโดกุที่ซับซ้อนและการค้นหาเส้นทางที่เหมาะสมที่สุดในเขาวงกตขนาดใหญ่
  • HRM แสดงทั้ง ประสิทธิภาพและความคุ้มค่าสูงกว่าโมเดลขนาดใหญ่เดิม และชี้ให้เห็นถึงความเป็นไปได้ของจุดเปลี่ยนสำหรับระบบคอมพิวติ้งทั่วไปและระบบปัญญาทั่วไป

ภาพรวม

ในแวดวง AI การให้เหตุผล (reasoning) เป็นโจทย์สำคัญในกระบวนการออกแบบและดำเนินพฤติกรรมที่มุ่งเป้าหมายซึ่งซับซ้อน โมเดลภาษาขนาดใหญ่ (LLM) แบบเดิมส่วนใหญ่ใช้เทคนิค Chain-of-Thought (CoT) แต่แนวทางนี้มีข้อจำกัด เช่น การแยกงานที่เปราะบาง ความต้องการข้อมูลจำนวนมาก และปัญหาความหน่วงสูง

  • มีการเสนอ Hierarchical Reasoning Model (HRM) โดยอาศัยแนวคิดจาก โครงสร้างการประมวลผลแบบลำดับชั้นและหลายสเกลเวลาของสมองมนุษย์
  • HRM ประกอบด้วย โมดูลวนซ้ำที่พึ่งพากันสองตัว (ระดับสูง/ระดับต่ำ) และทำการให้เหตุผลแบบลำดับโดยไม่ต้องมีการกำกับดูแลขั้นกลางอย่างชัดเจนภายใน single forward pass
  • ด้วยพารามิเตอร์ 27 ล้านตัวและ ใช้เพียง 1000 ตัวอย่าง ก็แสดงประสิทธิภาพระดับแนวหน้าได้

ข้อจำกัดเชิงโครงสร้างของดีปเลิร์นนิงและ LLM แบบเดิม

  • ดีปเลิร์นนิงเริ่มจากแนวทางเพิ่มความสามารถในการแทนข้อมูลด้วยการเพิ่มความลึกของเครือข่าย แต่ในทางปฏิบัติ LLM ที่อิง Transformer มีโครงสร้างตื้นและมีข้อจำกัดด้านความลึก
  • Transformer ที่มีความลึกคงที่ มีข้อจำกัดพื้นฐานด้านความซับซ้อนเชิงคำนวณเมื่อเผชิญกับการให้เหตุผลเชิงตรรกะหรือปัญหาเชิงอัลกอริทึมที่ซับซ้อน
  • Chain-of-Thought พึ่งพาการแยกขั้นตอนแบบใช้ภาษาที่มนุษย์กำหนดด้วยตนเอง จึง ทำให้กระบวนการให้เหตุผลทั้งหมดพังได้ง่าย จากความผิดพลาดหรือการเรียงลำดับที่ไม่ถูกต้อง
  • CoT ยังทำให้เกิดปัญหา ต้องใช้ข้อมูลมาก สร้างโทเคนมาก และทำงานช้า

หลักการออกแบบของ HRM

ออกแบบโดยเลียนแบบ การประมวลผลแบบลำดับชั้นและหลายสเกลเวลาของสมองมนุษย์

  • การประมวลผลแบบลำดับชั้น: สมองประมวลผลข้อมูลแบบลำดับชั้นและแยกตามเวลาในส่วนบนและล่าง
  • การแยกสเกลเวลา: ส่วนบนทำงานช้า ส่วนล่างทำงานเร็ว เพื่อให้เกิดการกำกับที่มีประสิทธิภาพ
  • การเชื่อมต่อแบบวนซ้ำ: ปรับแต่งการแทนค่าภายในอย่างละเอียดผ่านการป้อนกลับย้อนซ้ำ จึงทำให้เกิด การให้เหตุผลเชิงลึก

สถาปัตยกรรมโมเดล HRM

  • ประกอบด้วย เครือข่ายรับเข้า โมดูลวนซ้ำระดับต่ำ โมดูลวนซ้ำระดับสูง และเครือข่ายส่งออก
  • อินพุตจะถูกฝังเป็นเวกเตอร์
  • โมดูลระดับต่ำจะอัปเดตหลายครั้งโดยอิงจากสถานะก่อนหน้าของตัวเอง สถานะปัจจุบันของระดับสูง และอินพุต
  • โมดูลระดับสูงจะอัปเดตเพียงครั้งเดียวเมื่อจบหนึ่ง cycle โดยรับสถานะสุดท้ายของโมดูลระดับต่ำ
  • ตอนท้ายจะสร้างค่าทำนายจากสถานะของโมดูลระดับสูง

กลไกการลู่เข้าแบบลำดับชั้น (hierarchical convergence)

  • RNN แบบเดิมลู่เข้าเร็วเกินไป จนการคำนวณเพิ่มเติมแทบไม่มีความหมาย
  • HRM ทำให้ RNN ระดับต่ำลู่เข้าอย่างเสถียรสู่จุดสมดุลเฉพาะที่ในแต่ละ cycle จากนั้นโมดูลระดับสูงจะให้บริบทใหม่เพื่อให้โมดูลระดับต่ำเริ่มต้นใหม่อีกครั้ง
  • ด้วยโครงสร้างการลู่เข้าแบบลำดับชั้น จึงสามารถคำนวณเชิงลึกได้ (หลายขั้นตอน) และยังควบคุมความเร็วการลู่เข้าได้อย่างเหมาะสม

การเรียนรู้กราเดียนต์ประมาณค่าแบบ 1-step

  • หากพึ่งพา BPTT (Backpropagation Through Time) จะต้องเก็บสถานะของหลายขั้นตอน ทำให้มีภาระด้านหน่วยความจำสูง
  • HRM เรียนรู้โดย ประมาณค่ากราเดียนต์จากสถานะสุดท้ายเท่านั้น ในแต่ละโมดูลระดับสูง/ระดับต่ำ จึงสามารถ คงการใช้หน่วยความจำไว้ที่ O(1) และทำให้เกิดแนวทางที่สมจริงในเชิงชีววิทยามากขึ้น
  • ในทางคณิตศาสตร์ แนวทางนี้อิงจากหลักการของ Deep Equilibrium Model (DEQ)

Deep supervision และ Adaptive Computation Time (ACT)

Deep supervision

  • ให้ฟีดแบ็กเป็นระยะ พร้อมสร้างเอาต์พุตในแต่ละ forward pass (segment) และคำนวณ loss ของการฝึกสำหรับแต่ละ segment แยกกัน
  • เมื่อต้องส่งต่อไปยัง segment ถัดไป จะทำการแยกสถานะออกจากกราฟ (detach) เพื่อเพิ่ม เสถียรภาพและประสิทธิภาพของโครงสร้างวนซ้ำเชิงลึก

Adaptive Computation Time (ACT)

  • นำ หลักการสลับระหว่างความคิดอัตโนมัติและความคิดโดยเจตนาของมนุษย์ มาใช้ และเรียนรู้จำนวนรอบซ้ำของ segment แบบไดนามิกด้วย Q-learning
  • Q-head จะทำนายค่า Q-value ของการกระทำ halt/continue ในแต่ละ segment
  • Q-learning จะคำนวณ loss รวมโดยพิจารณาทั้ง ความแม่นยำในการทำนายและจุดหยุดที่เหมาะสมที่สุด พร้อมกัน

ประสิทธิภาพและคุณลักษณะของสถาปัตยกรรม

  • HRM สามารถแก้ ปัญหาที่โมเดลแนวทาง CoT เดิมล้มเหลว เช่น Sudoku-Extreme (9x9) และเขาวงกตขนาดใหญ่ (30x30) ได้เกือบสมบูรณ์แบบด้วยข้อมูลเพียงประมาณ 1,000 รายการ

  • บนเบนช์มาร์ก ARC-AGI (Abstraction and Reasoning Corpus) ทำผลงานได้ 40.3% ด้วยพารามิเตอร์เพียง 27M (CoT-based o3-mini-high 34.5%, Claude 3.7 8K 21.2%)

  • ในขั้นตอน inference สามารถเพิ่มประสิทธิภาพเพิ่มเติมได้ด้วยการเพิ่มปริมาณการคำนวณ (steps) เท่านั้น โดยไม่ต้องแก้สถาปัตยกรรมหรือฝึกใหม่เพิ่มเติม จึงใช้ทรัพยากรคำนวณได้อย่างยืดหยุ่น

  • ภายใน HRM ใช้ สถาปัตยกรรม sequence-to-sequence ที่อิง Transformer โดย

    • หลังชั้น embedding ทั้งโมดูลระดับต่ำและระดับสูงใช้บล็อก Transformer แบบ encoder-only
    • ใช้ความสามารถของ LLM รุ่นใหม่ เช่น Rotary Positional Encoding, Gated Linear Units, RMSNorm เป็นต้น
    • พารามิเตอร์ใช้การกำหนดค่าเริ่มต้นแบบ truncated LeCun Normal และใช้ Adam-atan2 optimizer ร่วมกับอัตราการเรียนรู้คงที่

บทสรุป

  • HRM เป็นตัวอย่างของโครงสร้างวนซ้ำแบบลำดับชั้นที่ได้แรงบันดาลใจจากชีววิทยา และวิธีการเรียนรู้ที่มีประสิทธิภาพและลึกซึ้ง ซึ่งพิสูจน์ความสามารถด้านการให้เหตุผลทั่วไปที่เหนือกว่าวิธีเดิม แม้ใช้ข้อมูลและพารามิเตอร์น้อยกว่า
  • เป็นกรณีสำคัญที่แสดงให้เห็นถึงศักยภาพในการพัฒนาไปสู่ ระบบคำนวณทั่วไปและระบบปัญญาที่ก้าวข้ามข้อจำกัดด้านความลึกของดีปเลิร์นนิง/LLM

1 ความคิดเห็น

 
GN⁺ 2025-07-28
ความคิดเห็นใน Hacker News
  • จากที่ไล่อ่านบทคัดย่อและบทนำแบบคร่าว ๆ ผลลัพธ์ของโมเดล Hierarchical Reasoning (HRM) ดูน่าทึ่งมาก

    • น่าประทับใจที่ HRM สามารถแก้ปัญหาที่แม้แต่ LLM ระดับล้ำหน้าที่สุดในปัจจุบันยังจัดการไม่ได้ โดยใช้ตัวอย่างอินพุต-เอาต์พุตเพียง 1,000 ชุด และไม่ต้องมีการพรีเทรนหรือการกำกับแบบ Chain-of-Thought (CoT)
    • ตัวอย่างเช่น มันทำความแม่นยำได้เกือบสมบูรณ์แบบใน Sudoku ที่ซับซ้อน (Extreme Full) และการหาเส้นทางที่เหมาะสมที่สุดในเขาวงกตขนาด 30x30 (ขณะที่วิธี CoT ได้ความแม่นยำ 0% ในกรณีนี้)
    • ใน Abstraction and Reasoning Corpus (ARC) AGI challenge นั้น HRM ทำได้ 40.3% ด้วยโมเดล 27M พารามิเตอร์และกริด 30x30 (900 โทเค็น) แซงหน้าโมเดลที่ใหญ่กว่ามากอย่าง o3-mini-high, Claude 3.7 8K เป็นต้น
    • ตั้งใจว่าจะอ่านเปเปอร์นี้อย่างละเอียด
  • รู้สึกน่าสงสัยมากว่าโมเดล 27M พารามิเตอร์จะถูกฝึก "จากศูนย์" ด้วยข้อมูลเพียง 1,000 จุดข้อมูล

    • และก็ไม่เข้าใจว่าทำไมถึงไม่เปรียบเทียบกับโมเดลอื่นที่ฝึกภายใต้เงื่อนไขเดียวกัน (ใช้การเตรียมข้อมูลแบบเดียวกัน)
    • แต่กลับไปเปรียบเทียบกับ LLM ภายนอกแบบทั่วไป ซึ่งในกรณีของ LLM พวกนั้นอาจไม่เคยใช้ตัวอย่าง 1,000 ชุดนี้ในการฝึกเลยก็ได้
    • วิธีแบบนี้ให้ความรู้สึกเหมือน overfit อยู่หน่อย ๆ
  • ใช่เลย!

    • HRM ใช้โมดูลวนซ้ำสองตัวที่พึ่งพากัน (โมดูลบน: วางแผนเชิงนามธรรมแบบช้า, โมดูลล่าง: คำนวณเร็วและลงรายละเอียด)
    • ด้วยสถาปัตยกรรมนี้ HRM จึงมีความสามารถในการคำนวณเชิงลึกได้ แม้จะมีพารามิเตอร์น้อย (27 ล้าน) และใช้ชุดข้อมูลขนาดเล็ก (~1,000 ตัวอย่าง)
    • HRM เอาชนะโมเดล CoT รุ่นใหม่บนเบนช์มาร์กยาก ๆ ได้ (Extreme Sudoku, Maze-Hard, ARC-AGI)
    • ตัวอย่างเช่น Sudoku แม่นยำ 96% และใน ARC-AGI-2 ทำได้ 40.3% แซงโมเดลใหญ่ ๆ อย่าง Claude 3.7, DeepSeek R1
    • ต้องมีคำอธิบายว่าผลลัพธ์แบบนี้เกิดขึ้นได้อย่างไร... คงต้องลองรันบนคอมพิวเตอร์เอง
  • "หลังจบขั้นตอน T โมดูลบน (H module) จะรับสถานะผลลัพธ์ของโมดูลล่างมาอัปเดต โดยเริ่มเส้นทางการคำนวณของโมดูลล่างใหม่ และชักนำให้เกิดช่วงการลู่เข้าใหม่"

    • เมื่อ RNN ชั้นล่างคำนวณเสร็จ โมดูลบนจะประเมินผล แล้วให้คอนเท็กซ์ใหม่แก่ RNN ชั้นล่างและวนลูปต่อ
    • RNN ชั้นล่างทำการเรียนรู้ด้วย backpropagation แบบวนซ้ำ และโมดูลบนจะเข้ามาแทรกเป็นระยะเพื่อปรับจนได้เอาต์พุตที่ดีกว่า
    • "หลักฐานทางประสาทวิทยาศาสตร์ชี้ว่าโหมดการรับรู้ลักษณะนี้ใช้วงจรประสาทร่วมกัน เช่น prefrontal cortex และ default mode network กล่าวคือ สมองจะปรับ 'เวลารัน' ของวงจรนี้แบบไดนามิกตามความซับซ้อนของงานและโอกาสได้รางวัล"
    • ผู้เขียนได้นำกลยุทธ์ adaptive halting ที่ได้แรงบันดาลใจจากกลไกของสมองแบบนี้มาใช้กับ HRM หรือก็คือแนวคิด 'คิดเร็ว/คิดช้า'
    • พูดอีกแบบคือเป็น scheduler ที่ปรับการใช้ทรัพยากรคำนวณโดยอัตโนมัติตามความยากของงานและข้อมูลที่ได้รับ
    • ชอบมากที่ในหลายจุดของเปเปอร์มีการอ้างถึงความคล้ายกับสมองจริง
    • คิดว่า AGI จะเกิดขึ้นได้ก็ต่อเมื่อนำ primitive พื้นฐานแบบนี้มาประกอบกันเป็นความซับซ้อนขั้นสุด พร้อมใช้ 'โมดูล' จำนวนมากที่ร่วมมือ แข่งขัน สื่อสาร ทำงานพร้อมกัน และมีความเชี่ยวชาญเฉพาะทาง
    • สมองมนุษย์เองก็น่าจะต้องเป็นแบบนี้จึงจะวิวัฒน์ไปสู่ความสามารถทางการรู้คิดได้; สำหรับเนื้อเยื่อชีวภาพที่ช้าและใช้พลังงานต่ำ นี่คือทางออกเดียว
  • อ่านเรื่องการแยกโครงสร้าง hlm/llm แล้วนึกถึงโครงสร้างสมองมนุษย์ขึ้นมาทันที

  • มีคนบอกว่าจำเป็นต้องมองอย่างระมัดระวัง

    • โดยเฉพาะไอเดียอย่างการหลบเลี่ยง backpropagation นั้นน่าสนใจมาก
    • แต่ดูเหมือนว่ายังไม่ผ่าน peer review และในส่วนผลลัพธ์ก็ไม่ได้อธิบายวิธีประเมินอย่างเฉพาะเจาะจง ตัวเลขหลัก ๆ ไปอยู่ในรูปหลักเสียมากกว่า
    • ตัวเลขในลีดเดอร์บอร์ดของ Benchmarks (ARC2) กับตัวเลขจริงก็ไม่ตรงกัน (ตอนนี้กลุ่มบนอยู่ราว 19% แต่ HRM อยู่ระดับ 5%)
    • ตรวจสอบได้โดยตรงที่ https://www.kaggle.com/competitions/arc-prize-2025/leaderboard
  • โค้ดของผู้เขียนเปิดไว้ที่ https://github.com/sapientinc/HRM

    • ในสาย AI/ML เปเปอร์ preprint ที่มีโค้ดใช้งานได้จริงแนบมาด้วยมีค่ามากกว่าเปเปอร์ที่ผ่าน peer review อย่างเป็นทางการเสียอีก
    • preprint เปิดให้ใครก็ตรวจสอบและทำซ้ำได้ ขณะที่ peer review แบบมาตรฐานพึ่งพาผู้ประเมินจำนวนน้อยมากที่งานยุ่งมากอยู่แล้ว (และบางครั้งยังแทบไม่ได้ค่าตอบแทนอย่างเหมาะสม)
    • ถ้าสิ่งที่ผู้เขียนอ้างเป็นจริง สุดท้ายมันก็จะได้รับการยอมรับเองตามธรรมชาติ ถ้าไม่จริงก็จะถูกลืมไป
    • ในทางปฏิบัตินี่คือการตรวจสอบแบบกระจายศูนย์ระดับโลกในสไตล์โอเพนซอร์ส; อาจหยาบอยู่บ้าง แต่มีประสิทธิภาพกว่าการรีวิวเปเปอร์แบบดั้งเดิมมาก
  • สำหรับเปเปอร์แมชชีนเลิร์นนิง การมองแบบตั้งข้อสงสัยอย่างมีสุขภาวะเป็นสิ่งจำเป็น

    • เมื่อจำนวนเปเปอร์เพิ่มขึ้น peer review แบบดั้งเดิมก็เริ่มไร้ประสิทธิภาพ
    • ผู้รีวิวจำนวนมากจริง ๆ แล้วอาจไม่ได้เชี่ยวชาญตรงสาขานั้น หรืออาจเป็นนักศึกษาด้วยซ้ำ
    • peer review ที่แท้จริงคือกระบวนการที่ผู้เชี่ยวชาญคนอื่นนำไปทำซ้ำอย่างอิสระจากการอ่านบน arXiv เป็นต้น แล้วอ้างอิงในงานวิจัยต่อยอดภายหลัง
    • เธรดคอมเมนต์นี้เองก็คือ peer review ที่เกิดขึ้นจริง
  • คิดว่าวิธีที่ดีที่สุดในการตรวจสอบแบบสงสัยอย่างสร้างสรรค์คือการทดลองทำซ้ำและเปรียบเทียบผลลัพธ์

    • เดือนหน้ามีวันหยุด 10 วัน จะลองดูว่าผู้เขียนเปิดอะไรไว้บ้าง ทั้งซอร์สโค้ด ชุดข้อมูล ฯลฯ แล้วจะลองทำซ้ำด้วยตัวเอง
  • การตัดสินเพียงเพราะยังไม่ผ่าน peer review ถือว่าเร็วเกินไป

    • เปเปอร์ mamba1 และ mamba2 ตอนแรกก็ยังไม่ผ่าน peer review เช่นกัน
    • แต่ก็เห็นด้วยว่าคำกล่าวอ้างที่แรงต้องมีหลักฐานที่แรงรองรับ และตอนนี้กำลังพยายามทำซ้ำผลลัพธ์บนเครื่องตัวเองอยู่
  • การคาดหวังว่าเพิ่งตีพิมพ์ออกมาแล้วจะต้องมี peer review เลย ดูเหมือนเป็นการไม่เข้าใจกระบวนการ

    • ถ้าจะส่งงานวิจัยเข้าสู่ peer review ขั้นแรกก็คือต้อง 'ตีพิมพ์' ออกมาก่อน
  • ฉันเป็นนักจิตวิทยาการรู้คิด และคิดมานานแล้วว่าโดยรวมทิศทาง AI แบบนี้แหละที่จำเป็น

    • ดู Fuzzy Trace Theory [1]; ความจำสร้างตัวแทนหลายระดับ ตั้งแต่ระดับคำ (รายละเอียด) ไปจนถึงสรุปใจความ (gist) แล้วนำมาผสานและดึงกลับมาใช้
    • การผสานตัวแทนเชิงสรุปกับข้อมูลรายละเอียดทำให้เกิดการเหมารวมที่ทรงพลังและเส้นทางการระลึกที่ยืดหยุ่น
    • [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
  • ถ้าเข้าใจไม่ผิด HRM ดูตัวอย่าง Sudoku 1,000 คู่ (ปริศนา, คำตอบ) แล้วเรียนรู้กฎได้ด้วยตัวเอง

    • จากนั้นมันก็สามารถแก้ปริศนาใหม่ที่ไม่เคยเห็นมาก่อนได้ด้วยความแม่นยำ 55%

    • ถ้าฝึกด้วยตัวอย่างหนึ่งล้านชุดก็จะเกือบสมบูรณ์แบบ

    • น่าทึ่งตรงที่ไม่มีการพรีเทรนมาก่อนเลย

    • ในทางกลับกัน AlphaZero มีกฎของเกม (หมากรุก·โกะ) ฝังอยู่แล้วและเรียนรู้เฉพาะกลยุทธ์ แต่ HRM เรียนรู้แม้กระทั่งกฎ

    • ตั้งใจจะไปดูเองใน GitHub repository

    • AlphaZero มีกฎฝังอยู่ แต่ MuZero และโมเดลต่อ ๆ มากลับทำงานได้โดยไม่ต้องฝังกฎ

      • MuZero ทำผลงานเหนือกว่า AlphaZero และ EfficientZero ก็ลดปริมาณการเรียนรู้ลงได้อีก
      • เด่นมากในสภาพแวดล้อมหลากหลายอย่างเกม Atari
    • ลองทดลองกับซอร์สโค้ดเองแล้วพบว่า:

      • เพื่อให้ทำซ้ำทางวิทยาศาสตร์ได้จริง อยากให้ระบุเวอร์ชันไลบรารีให้ชัดเจนด้วย (มี pyproject.toml จะดีกว่า)
      • ตัวอย่าง Sudoku 1,000 ชุดนั้นจริง ๆ ถูกขยายข้อมูลด้วยอัลกอริทึม permutation ที่เขียนขึ้นเอง จนกลายเป็นชุดข้อมูลระดับล้านชุด
        (จึงไม่ใช่ 1,000 จริง ๆ)
  • ทั้งคาดหวังและแอบหวั่นเล็กน้อยว่าโมเดล HRM จะถูกนำไปรวมกับ MoE (Mixture of Experts) ในไม่ช้า

    • เพราะแรงกดดันทางเศรษฐกิจในการทำให้ LLM ทรงพลังขึ้นนั้นสูงมาก การรวมกันแบบนี้จึงอาจเกิดขึ้นภายในไม่กี่เดือนด้วยซ้ำ

    • เปเปอร์พูดถึงแค่โจทย์ปริศนาอย่าง Sudoku และไม่ได้แตะการถามตอบหรือแอปพลิเคชันหลักของ LLM

    • เสียดายที่ไม่ได้พูดถึงการรวมเข้ากับ LLM รุ่นถัดไป

    • MoE เกี่ยวข้องกับคลัสเตอร์ของแนวคิด แต่ต่อไปเราอาจต้องรวมความลึกของแนวคิด จำนวนชั้นลำดับชั้น และเวลาเรียนรู้เข้าไปใน latent space ด้วย ซึ่งคล้ายกับที่เวลาอ่านหนังสือคณิตศาสตร์กับอ่านบทความสั้น ๆ เราใช้วิธีอ่านต่างกัน

    • HRM ถูกออกแบบมาสำหรับปริศนาที่มีกฎจำนวนน้อยแต่พัวพันกันอย่างซับซ้อน

      • เพราะมีกฎน้อย โมเดลเล็กก็เรียนรู้ได้ และเพราะโมเดลเล็ก จึงสามารถรันซ้ำหลายรอบเพื่อจัดการปฏิสัมพันธ์ทั้งหมดได้
      • แต่การทำ language modeling ต้องเก็บวลีจำนวนมหาศาลและความสัมพันธ์ระหว่างมัน จึงคิดว่ายากที่จะทำแบบเดียวกันด้วยโมเดลเล็ก
      • โชคดีที่งานภาษาโดยทั่วไปผ่านขั้นตอนคำนวณไม่กี่รอบก็ให้ผลที่ใช้งานได้แล้ว
      • ถ้าเอาโมเดลใหญ่ระดับ LLM มาวนลูปแบบ HRM ความเร็วจะช้าเกินไปจนใช้งานจริงยาก
      • แต่ก็พอจินตนาการได้ว่าอาจรวม LLM หลักเข้ากับ HRM ขนาดเล็กเพื่อให้จัดการงานข้อจำกัดเชิงเงื่อนไขโดยเฉพาะ
    • ฉันเองก็ยังติดใจอยู่บ้างที่แทบไม่มีการพูดถึงการใช้งานอื่นนอกเหนือจาก Sudoku หรือข้อจำกัดของมัน

  • พอไล่อ่านเปเปอร์แล้วรู้สึกว่าแม้แต่ระบบ MoE LLM (ไม่ว่าจะเป็นแบบ autoregressive, diffusion, energy-based หรืออะไรก็ตาม) ก็ยังสามารถซ้อนลำดับชั้นในแบบ HRM ได้

    • คิดว่าน่าจะใช้แนวคิดนี้สร้างเบนช์มาร์กใหม่ด้านประสิทธิภาพและคุณภาพจากการผสมผสานดังกล่าวได้ด้วย
  • ชื่นชมที่งานนี้ได้แรงบันดาลใจจากประสาทวิทยา และโดยรวมในเปเปอร์ก็ดูไม่มีอะไรที่น่ากังวลเป็นพิเศษ

    • แม้ยังไม่ได้ทำ replication experiment เอง แต่สิ่งที่ผู้เขียนสร้างขึ้นดูจะเป็นตัวแก้ปัญหา constraint-satisfaction ที่อย่างน้อยก็อาจค่อนข้างทั่วไปได้

    • มันเป็นระบบที่เรียนรู้แม้กระทั่งกฎข้อจำกัดจากตัวอย่างจำนวนน้อย ซึ่งถ้าเป็นจริง แค่นี้ก็น่าสนใจมากแล้ว

    • แต่อย่างไรก็ดี การเปรียบเทียบตรง ๆ กับโมเดล CoT ยังไม่ค่อยชวนเชื่อเท่าไร

    • โมเดล CoT ตามหลักการแล้วอาจแก้ปัญหาซับซ้อนใด ๆ ก็ได้ แต่ HRM ต้องฝึกแยกสำหรับปริศนาเฉพาะแต่ละแบบ จึงยากจะอ้างความเป็นระบบทั่วไป

    • เช่นเดียวกับที่บอกว่าเอนจินหมากรุก Stockfish เล่นหมากรุกเก่งกว่า LLM ไม่ได้แปลว่า Stockfish 'ฉลาดกว่า'

    • เป็นไอเดียที่ดี แต่ก็รู้สึกว่ามีกลิ่นอายการตลาดเกินจริงอยู่เล็กน้อยในตัวเปเปอร์

    • เห็นด้วย! แค่นี้ก็ถือเป็นความสำเร็จมหาศาลแล้ว

      • ควรระวังไม่ให้ hype พุ่งเกินไป แต่ผลลัพธ์จากโมเดลเล็กแค่นี้ก็น่าทึ่งมาก
      • สำหรับปัญหาเฉพาะทาง โมเดลที่ปรับแต่งเฉพาะย่อมมีทั้งประสิทธิภาพและความน่าเชื่อถือสูงกว่า จึงไม่จำเป็นต้องฝืนใช้โครงสร้างที่ไม่มีประสิทธิภาพเพียงเพื่อเรียกว่าทั่วไป
    • คุณบอกว่าโมเดล CoT โดยเนื้อแท้สามารถแก้งานซับซ้อนใด ๆ ก็ได้ อยากรู้ว่าหลักฐานคืออะไร

      • สงสัยด้วยว่ามีหลักฐานทางคณิตศาสตร์รองรับหรือไม่
      • ส่วนตัวคิดว่า CoT เองก็เป็นเหมือนวิธีอ้อม ๆ เพื่อเลี่ยงข้อจำกัดของ LLM ปัจจุบัน
  • ถ้าเปเปอร์นี้เป็นจริง ผลกระทบจะใหญ่มาก เลยยังจับตาดูอย่างใกล้ชิด

    • แนวคิดพื้นฐานฟังดูสมเหตุสมผล แต่คงต้องรอดูการตรวจสอบจากบุคคลที่สามก่อนถึงจะมั่นใจมากขึ้น
    • อยากลองตรวจสอบด้วยตัวเองในงานจริงด้วย