โมเดลการให้เหตุผลแบบลำดับชั้น
(arxiv.org)- โมเดลการให้เหตุผลแบบลำดับชั้น (Hierarchical Reasoning Model) ช่วยก้าวข้ามข้อจำกัดของเทคนิค Chain-of-Thought ที่อิง LLM เดิม ๆ ในกระบวนการดำเนินพฤติกรรมที่มุ่งเป้าหมายซึ่งซับซ้อนของ AI ได้แก่ การแยกงานที่ไม่เสถียร ความต้องการข้อมูลจำนวนมาก และปัญหาความหน่วง
- โดยได้รับแรงบันดาลใจจาก แนวคิดการประมวลผลแบบลำดับชั้นของสมองมนุษย์ HRM ได้นำโครงสร้างวนซ้ำแบบใหม่ที่ประกอบด้วยโมดูลระดับสูงสำหรับแผนเชิงนามธรรมระดับสูง และโมดูลระดับต่ำสำหรับประมวลผลรายละเอียดอย่างรวดเร็ว
- HRM แสดงประสิทธิภาพที่โดดเด่นในปัญหาการให้เหตุผลที่ยาก ด้วยพารามิเตอร์ราว 27 ล้านตัวและตัวอย่างการฝึกเพียง 1,000 รายการ
- แม้ ไม่มีการพรีเทรนและไม่มีข้อมูล Chain-of-Thought ก็ยังทำความแม่นยำได้เกือบสมบูรณ์แบบในงานอย่างซูโดกุที่ซับซ้อนและการค้นหาเส้นทางที่เหมาะสมที่สุดในเขาวงกตขนาดใหญ่
- HRM แสดงทั้ง ประสิทธิภาพและความคุ้มค่าสูงกว่าโมเดลขนาดใหญ่เดิม และชี้ให้เห็นถึงความเป็นไปได้ของจุดเปลี่ยนสำหรับระบบคอมพิวติ้งทั่วไปและระบบปัญญาทั่วไป
ภาพรวม
ในแวดวง AI การให้เหตุผล (reasoning) เป็นโจทย์สำคัญในกระบวนการออกแบบและดำเนินพฤติกรรมที่มุ่งเป้าหมายซึ่งซับซ้อน โมเดลภาษาขนาดใหญ่ (LLM) แบบเดิมส่วนใหญ่ใช้เทคนิค Chain-of-Thought (CoT) แต่แนวทางนี้มีข้อจำกัด เช่น การแยกงานที่เปราะบาง ความต้องการข้อมูลจำนวนมาก และปัญหาความหน่วงสูง
- มีการเสนอ Hierarchical Reasoning Model (HRM) โดยอาศัยแนวคิดจาก โครงสร้างการประมวลผลแบบลำดับชั้นและหลายสเกลเวลาของสมองมนุษย์
- HRM ประกอบด้วย โมดูลวนซ้ำที่พึ่งพากันสองตัว (ระดับสูง/ระดับต่ำ) และทำการให้เหตุผลแบบลำดับโดยไม่ต้องมีการกำกับดูแลขั้นกลางอย่างชัดเจนภายใน single forward pass
- ด้วยพารามิเตอร์ 27 ล้านตัวและ ใช้เพียง 1000 ตัวอย่าง ก็แสดงประสิทธิภาพระดับแนวหน้าได้
ข้อจำกัดเชิงโครงสร้างของดีปเลิร์นนิงและ LLM แบบเดิม
- ดีปเลิร์นนิงเริ่มจากแนวทางเพิ่มความสามารถในการแทนข้อมูลด้วยการเพิ่มความลึกของเครือข่าย แต่ในทางปฏิบัติ LLM ที่อิง Transformer มีโครงสร้างตื้นและมีข้อจำกัดด้านความลึก
- Transformer ที่มีความลึกคงที่ มีข้อจำกัดพื้นฐานด้านความซับซ้อนเชิงคำนวณเมื่อเผชิญกับการให้เหตุผลเชิงตรรกะหรือปัญหาเชิงอัลกอริทึมที่ซับซ้อน
- Chain-of-Thought พึ่งพาการแยกขั้นตอนแบบใช้ภาษาที่มนุษย์กำหนดด้วยตนเอง จึง ทำให้กระบวนการให้เหตุผลทั้งหมดพังได้ง่าย จากความผิดพลาดหรือการเรียงลำดับที่ไม่ถูกต้อง
- CoT ยังทำให้เกิดปัญหา ต้องใช้ข้อมูลมาก สร้างโทเคนมาก และทำงานช้า
หลักการออกแบบของ HRM
ออกแบบโดยเลียนแบบ การประมวลผลแบบลำดับชั้นและหลายสเกลเวลาของสมองมนุษย์
- การประมวลผลแบบลำดับชั้น: สมองประมวลผลข้อมูลแบบลำดับชั้นและแยกตามเวลาในส่วนบนและล่าง
- การแยกสเกลเวลา: ส่วนบนทำงานช้า ส่วนล่างทำงานเร็ว เพื่อให้เกิดการกำกับที่มีประสิทธิภาพ
- การเชื่อมต่อแบบวนซ้ำ: ปรับแต่งการแทนค่าภายในอย่างละเอียดผ่านการป้อนกลับย้อนซ้ำ จึงทำให้เกิด การให้เหตุผลเชิงลึก
สถาปัตยกรรมโมเดล HRM
- ประกอบด้วย เครือข่ายรับเข้า โมดูลวนซ้ำระดับต่ำ โมดูลวนซ้ำระดับสูง และเครือข่ายส่งออก
- อินพุตจะถูกฝังเป็นเวกเตอร์
- โมดูลระดับต่ำจะอัปเดตหลายครั้งโดยอิงจากสถานะก่อนหน้าของตัวเอง สถานะปัจจุบันของระดับสูง และอินพุต
- โมดูลระดับสูงจะอัปเดตเพียงครั้งเดียวเมื่อจบหนึ่ง cycle โดยรับสถานะสุดท้ายของโมดูลระดับต่ำ
- ตอนท้ายจะสร้างค่าทำนายจากสถานะของโมดูลระดับสูง
กลไกการลู่เข้าแบบลำดับชั้น (hierarchical convergence)
- RNN แบบเดิมลู่เข้าเร็วเกินไป จนการคำนวณเพิ่มเติมแทบไม่มีความหมาย
- HRM ทำให้ RNN ระดับต่ำลู่เข้าอย่างเสถียรสู่จุดสมดุลเฉพาะที่ในแต่ละ cycle จากนั้นโมดูลระดับสูงจะให้บริบทใหม่เพื่อให้โมดูลระดับต่ำเริ่มต้นใหม่อีกครั้ง
- ด้วยโครงสร้างการลู่เข้าแบบลำดับชั้น จึงสามารถคำนวณเชิงลึกได้ (หลายขั้นตอน) และยังควบคุมความเร็วการลู่เข้าได้อย่างเหมาะสม
การเรียนรู้กราเดียนต์ประมาณค่าแบบ 1-step
- หากพึ่งพา BPTT (Backpropagation Through Time) จะต้องเก็บสถานะของหลายขั้นตอน ทำให้มีภาระด้านหน่วยความจำสูง
- HRM เรียนรู้โดย ประมาณค่ากราเดียนต์จากสถานะสุดท้ายเท่านั้น ในแต่ละโมดูลระดับสูง/ระดับต่ำ จึงสามารถ คงการใช้หน่วยความจำไว้ที่ O(1) และทำให้เกิดแนวทางที่สมจริงในเชิงชีววิทยามากขึ้น
- ในทางคณิตศาสตร์ แนวทางนี้อิงจากหลักการของ Deep Equilibrium Model (DEQ)
Deep supervision และ Adaptive Computation Time (ACT)
Deep supervision
- ให้ฟีดแบ็กเป็นระยะ พร้อมสร้างเอาต์พุตในแต่ละ forward pass (segment) และคำนวณ loss ของการฝึกสำหรับแต่ละ segment แยกกัน
- เมื่อต้องส่งต่อไปยัง segment ถัดไป จะทำการแยกสถานะออกจากกราฟ (detach) เพื่อเพิ่ม เสถียรภาพและประสิทธิภาพของโครงสร้างวนซ้ำเชิงลึก
Adaptive Computation Time (ACT)
- นำ หลักการสลับระหว่างความคิดอัตโนมัติและความคิดโดยเจตนาของมนุษย์ มาใช้ และเรียนรู้จำนวนรอบซ้ำของ segment แบบไดนามิกด้วย Q-learning
- Q-head จะทำนายค่า Q-value ของการกระทำ halt/continue ในแต่ละ segment
- Q-learning จะคำนวณ loss รวมโดยพิจารณาทั้ง ความแม่นยำในการทำนายและจุดหยุดที่เหมาะสมที่สุด พร้อมกัน
ประสิทธิภาพและคุณลักษณะของสถาปัตยกรรม
-
HRM สามารถแก้ ปัญหาที่โมเดลแนวทาง CoT เดิมล้มเหลว เช่น Sudoku-Extreme (9x9) และเขาวงกตขนาดใหญ่ (30x30) ได้เกือบสมบูรณ์แบบด้วยข้อมูลเพียงประมาณ 1,000 รายการ
-
บนเบนช์มาร์ก ARC-AGI (Abstraction and Reasoning Corpus) ทำผลงานได้ 40.3% ด้วยพารามิเตอร์เพียง 27M (CoT-based o3-mini-high 34.5%, Claude 3.7 8K 21.2%)
-
ในขั้นตอน inference สามารถเพิ่มประสิทธิภาพเพิ่มเติมได้ด้วยการเพิ่มปริมาณการคำนวณ (steps) เท่านั้น โดยไม่ต้องแก้สถาปัตยกรรมหรือฝึกใหม่เพิ่มเติม จึงใช้ทรัพยากรคำนวณได้อย่างยืดหยุ่น
-
ภายใน HRM ใช้ สถาปัตยกรรม sequence-to-sequence ที่อิง Transformer โดย
- หลังชั้น embedding ทั้งโมดูลระดับต่ำและระดับสูงใช้บล็อก Transformer แบบ encoder-only
- ใช้ความสามารถของ LLM รุ่นใหม่ เช่น Rotary Positional Encoding, Gated Linear Units, RMSNorm เป็นต้น
- พารามิเตอร์ใช้การกำหนดค่าเริ่มต้นแบบ truncated LeCun Normal และใช้ Adam-atan2 optimizer ร่วมกับอัตราการเรียนรู้คงที่
บทสรุป
- HRM เป็นตัวอย่างของโครงสร้างวนซ้ำแบบลำดับชั้นที่ได้แรงบันดาลใจจากชีววิทยา และวิธีการเรียนรู้ที่มีประสิทธิภาพและลึกซึ้ง ซึ่งพิสูจน์ความสามารถด้านการให้เหตุผลทั่วไปที่เหนือกว่าวิธีเดิม แม้ใช้ข้อมูลและพารามิเตอร์น้อยกว่า
- เป็นกรณีสำคัญที่แสดงให้เห็นถึงศักยภาพในการพัฒนาไปสู่ ระบบคำนวณทั่วไปและระบบปัญญาที่ก้าวข้ามข้อจำกัดด้านความลึกของดีปเลิร์นนิง/LLM
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
จากที่ไล่อ่านบทคัดย่อและบทนำแบบคร่าว ๆ ผลลัพธ์ของโมเดล Hierarchical Reasoning (HRM) ดูน่าทึ่งมาก
รู้สึกน่าสงสัยมากว่าโมเดล 27M พารามิเตอร์จะถูกฝึก "จากศูนย์" ด้วยข้อมูลเพียง 1,000 จุดข้อมูล
ใช่เลย!
"หลังจบขั้นตอน T โมดูลบน (H module) จะรับสถานะผลลัพธ์ของโมดูลล่างมาอัปเดต โดยเริ่มเส้นทางการคำนวณของโมดูลล่างใหม่ และชักนำให้เกิดช่วงการลู่เข้าใหม่"
อ่านเรื่องการแยกโครงสร้าง hlm/llm แล้วนึกถึงโครงสร้างสมองมนุษย์ขึ้นมาทันที
มีคนบอกว่าจำเป็นต้องมองอย่างระมัดระวัง
โค้ดของผู้เขียนเปิดไว้ที่ https://github.com/sapientinc/HRM
สำหรับเปเปอร์แมชชีนเลิร์นนิง การมองแบบตั้งข้อสงสัยอย่างมีสุขภาวะเป็นสิ่งจำเป็น
คิดว่าวิธีที่ดีที่สุดในการตรวจสอบแบบสงสัยอย่างสร้างสรรค์คือการทดลองทำซ้ำและเปรียบเทียบผลลัพธ์
การตัดสินเพียงเพราะยังไม่ผ่าน peer review ถือว่าเร็วเกินไป
การคาดหวังว่าเพิ่งตีพิมพ์ออกมาแล้วจะต้องมี peer review เลย ดูเหมือนเป็นการไม่เข้าใจกระบวนการ
ฉันเป็นนักจิตวิทยาการรู้คิด และคิดมานานแล้วว่าโดยรวมทิศทาง AI แบบนี้แหละที่จำเป็น
ถ้าเข้าใจไม่ผิด HRM ดูตัวอย่าง Sudoku 1,000 คู่ (ปริศนา, คำตอบ) แล้วเรียนรู้กฎได้ด้วยตัวเอง
จากนั้นมันก็สามารถแก้ปริศนาใหม่ที่ไม่เคยเห็นมาก่อนได้ด้วยความแม่นยำ 55%
ถ้าฝึกด้วยตัวอย่างหนึ่งล้านชุดก็จะเกือบสมบูรณ์แบบ
น่าทึ่งตรงที่ไม่มีการพรีเทรนมาก่อนเลย
ในทางกลับกัน AlphaZero มีกฎของเกม (หมากรุก·โกะ) ฝังอยู่แล้วและเรียนรู้เฉพาะกลยุทธ์ แต่ HRM เรียนรู้แม้กระทั่งกฎ
ตั้งใจจะไปดูเองใน GitHub repository
AlphaZero มีกฎฝังอยู่ แต่ MuZero และโมเดลต่อ ๆ มากลับทำงานได้โดยไม่ต้องฝังกฎ
ลองทดลองกับซอร์สโค้ดเองแล้วพบว่า:
pyproject.tomlจะดีกว่า)(จึงไม่ใช่ 1,000 จริง ๆ)
ทั้งคาดหวังและแอบหวั่นเล็กน้อยว่าโมเดล HRM จะถูกนำไปรวมกับ MoE (Mixture of Experts) ในไม่ช้า
เพราะแรงกดดันทางเศรษฐกิจในการทำให้ LLM ทรงพลังขึ้นนั้นสูงมาก การรวมกันแบบนี้จึงอาจเกิดขึ้นภายในไม่กี่เดือนด้วยซ้ำ
เปเปอร์พูดถึงแค่โจทย์ปริศนาอย่าง Sudoku และไม่ได้แตะการถามตอบหรือแอปพลิเคชันหลักของ LLM
เสียดายที่ไม่ได้พูดถึงการรวมเข้ากับ LLM รุ่นถัดไป
MoE เกี่ยวข้องกับคลัสเตอร์ของแนวคิด แต่ต่อไปเราอาจต้องรวมความลึกของแนวคิด จำนวนชั้นลำดับชั้น และเวลาเรียนรู้เข้าไปใน latent space ด้วย ซึ่งคล้ายกับที่เวลาอ่านหนังสือคณิตศาสตร์กับอ่านบทความสั้น ๆ เราใช้วิธีอ่านต่างกัน
HRM ถูกออกแบบมาสำหรับปริศนาที่มีกฎจำนวนน้อยแต่พัวพันกันอย่างซับซ้อน
ฉันเองก็ยังติดใจอยู่บ้างที่แทบไม่มีการพูดถึงการใช้งานอื่นนอกเหนือจาก Sudoku หรือข้อจำกัดของมัน
พอไล่อ่านเปเปอร์แล้วรู้สึกว่าแม้แต่ระบบ MoE LLM (ไม่ว่าจะเป็นแบบ autoregressive, diffusion, energy-based หรืออะไรก็ตาม) ก็ยังสามารถซ้อนลำดับชั้นในแบบ HRM ได้
ชื่นชมที่งานนี้ได้แรงบันดาลใจจากประสาทวิทยา และโดยรวมในเปเปอร์ก็ดูไม่มีอะไรที่น่ากังวลเป็นพิเศษ
แม้ยังไม่ได้ทำ replication experiment เอง แต่สิ่งที่ผู้เขียนสร้างขึ้นดูจะเป็นตัวแก้ปัญหา constraint-satisfaction ที่อย่างน้อยก็อาจค่อนข้างทั่วไปได้
มันเป็นระบบที่เรียนรู้แม้กระทั่งกฎข้อจำกัดจากตัวอย่างจำนวนน้อย ซึ่งถ้าเป็นจริง แค่นี้ก็น่าสนใจมากแล้ว
แต่อย่างไรก็ดี การเปรียบเทียบตรง ๆ กับโมเดล CoT ยังไม่ค่อยชวนเชื่อเท่าไร
โมเดล CoT ตามหลักการแล้วอาจแก้ปัญหาซับซ้อนใด ๆ ก็ได้ แต่ HRM ต้องฝึกแยกสำหรับปริศนาเฉพาะแต่ละแบบ จึงยากจะอ้างความเป็นระบบทั่วไป
เช่นเดียวกับที่บอกว่าเอนจินหมากรุก Stockfish เล่นหมากรุกเก่งกว่า LLM ไม่ได้แปลว่า Stockfish 'ฉลาดกว่า'
เป็นไอเดียที่ดี แต่ก็รู้สึกว่ามีกลิ่นอายการตลาดเกินจริงอยู่เล็กน้อยในตัวเปเปอร์
เห็นด้วย! แค่นี้ก็ถือเป็นความสำเร็จมหาศาลแล้ว
คุณบอกว่าโมเดล CoT โดยเนื้อแท้สามารถแก้งานซับซ้อนใด ๆ ก็ได้ อยากรู้ว่าหลักฐานคืออะไร
ถ้าเปเปอร์นี้เป็นจริง ผลกระทบจะใหญ่มาก เลยยังจับตาดูอย่างใกล้ชิด