โมเดลการให้เหตุผลแบบลำดับชั้น

(arxiv.org)

6 คะแนน โดย GN⁺ 2025-07-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลการให้เหตุผลแบบลำดับชั้น (Hierarchical Reasoning Model) ช่วยก้าวข้ามข้อจำกัดของเทคนิค Chain-of-Thought ที่อิง LLM เดิม ๆ ในกระบวนการดำเนินพฤติกรรมที่มุ่งเป้าหมายซึ่งซับซ้อนของ AI ได้แก่ การแยกงานที่ไม่เสถียร ความต้องการข้อมูลจำนวนมาก และปัญหาความหน่วง
โดยได้รับแรงบันดาลใจจาก แนวคิดการประมวลผลแบบลำดับชั้นของสมองมนุษย์ HRM ได้นำโครงสร้างวนซ้ำแบบใหม่ที่ประกอบด้วยโมดูลระดับสูงสำหรับแผนเชิงนามธรรมระดับสูง และโมดูลระดับต่ำสำหรับประมวลผลรายละเอียดอย่างรวดเร็ว
HRM แสดงประสิทธิภาพที่โดดเด่นในปัญหาการให้เหตุผลที่ยาก ด้วยพารามิเตอร์ราว 27 ล้านตัวและตัวอย่างการฝึกเพียง 1,000 รายการ
แม้ ไม่มีการพรีเทรนและไม่มีข้อมูล Chain-of-Thought ก็ยังทำความแม่นยำได้เกือบสมบูรณ์แบบในงานอย่างซูโดกุที่ซับซ้อนและการค้นหาเส้นทางที่เหมาะสมที่สุดในเขาวงกตขนาดใหญ่
HRM แสดงทั้ง ประสิทธิภาพและความคุ้มค่าสูงกว่าโมเดลขนาดใหญ่เดิม และชี้ให้เห็นถึงความเป็นไปได้ของจุดเปลี่ยนสำหรับระบบคอมพิวติ้งทั่วไปและระบบปัญญาทั่วไป

ภาพรวม

ในแวดวง AI การให้เหตุผล (reasoning) เป็นโจทย์สำคัญในกระบวนการออกแบบและดำเนินพฤติกรรมที่มุ่งเป้าหมายซึ่งซับซ้อน โมเดลภาษาขนาดใหญ่ (LLM) แบบเดิมส่วนใหญ่ใช้เทคนิค Chain-of-Thought (CoT) แต่แนวทางนี้มีข้อจำกัด เช่น การแยกงานที่เปราะบาง ความต้องการข้อมูลจำนวนมาก และปัญหาความหน่วงสูง

มีการเสนอ Hierarchical Reasoning Model (HRM) โดยอาศัยแนวคิดจาก โครงสร้างการประมวลผลแบบลำดับชั้นและหลายสเกลเวลาของสมองมนุษย์
HRM ประกอบด้วย โมดูลวนซ้ำที่พึ่งพากันสองตัว (ระดับสูง/ระดับต่ำ) และทำการให้เหตุผลแบบลำดับโดยไม่ต้องมีการกำกับดูแลขั้นกลางอย่างชัดเจนภายใน single forward pass
ด้วยพารามิเตอร์ 27 ล้านตัวและ ใช้เพียง 1000 ตัวอย่าง ก็แสดงประสิทธิภาพระดับแนวหน้าได้

ข้อจำกัดเชิงโครงสร้างของดีปเลิร์นนิงและ LLM แบบเดิม

ดีปเลิร์นนิงเริ่มจากแนวทางเพิ่มความสามารถในการแทนข้อมูลด้วยการเพิ่มความลึกของเครือข่าย แต่ในทางปฏิบัติ LLM ที่อิง Transformer มีโครงสร้างตื้นและมีข้อจำกัดด้านความลึก
Transformer ที่มีความลึกคงที่ มีข้อจำกัดพื้นฐานด้านความซับซ้อนเชิงคำนวณเมื่อเผชิญกับการให้เหตุผลเชิงตรรกะหรือปัญหาเชิงอัลกอริทึมที่ซับซ้อน
Chain-of-Thought พึ่งพาการแยกขั้นตอนแบบใช้ภาษาที่มนุษย์กำหนดด้วยตนเอง จึง ทำให้กระบวนการให้เหตุผลทั้งหมดพังได้ง่าย จากความผิดพลาดหรือการเรียงลำดับที่ไม่ถูกต้อง
CoT ยังทำให้เกิดปัญหา ต้องใช้ข้อมูลมาก สร้างโทเคนมาก และทำงานช้า

หลักการออกแบบของ HRM

ออกแบบโดยเลียนแบบ การประมวลผลแบบลำดับชั้นและหลายสเกลเวลาของสมองมนุษย์

การประมวลผลแบบลำดับชั้น: สมองประมวลผลข้อมูลแบบลำดับชั้นและแยกตามเวลาในส่วนบนและล่าง
การแยกสเกลเวลา: ส่วนบนทำงานช้า ส่วนล่างทำงานเร็ว เพื่อให้เกิดการกำกับที่มีประสิทธิภาพ
การเชื่อมต่อแบบวนซ้ำ: ปรับแต่งการแทนค่าภายในอย่างละเอียดผ่านการป้อนกลับย้อนซ้ำ จึงทำให้เกิด การให้เหตุผลเชิงลึก

สถาปัตยกรรมโมเดล HRM

ประกอบด้วย เครือข่ายรับเข้า โมดูลวนซ้ำระดับต่ำ โมดูลวนซ้ำระดับสูง และเครือข่ายส่งออก
อินพุตจะถูกฝังเป็นเวกเตอร์
โมดูลระดับต่ำจะอัปเดตหลายครั้งโดยอิงจากสถานะก่อนหน้าของตัวเอง สถานะปัจจุบันของระดับสูง และอินพุต
โมดูลระดับสูงจะอัปเดตเพียงครั้งเดียวเมื่อจบหนึ่ง cycle โดยรับสถานะสุดท้ายของโมดูลระดับต่ำ
ตอนท้ายจะสร้างค่าทำนายจากสถานะของโมดูลระดับสูง

กลไกการลู่เข้าแบบลำดับชั้น (hierarchical convergence)

RNN แบบเดิมลู่เข้าเร็วเกินไป จนการคำนวณเพิ่มเติมแทบไม่มีความหมาย
HRM ทำให้ RNN ระดับต่ำลู่เข้าอย่างเสถียรสู่จุดสมดุลเฉพาะที่ในแต่ละ cycle จากนั้นโมดูลระดับสูงจะให้บริบทใหม่เพื่อให้โมดูลระดับต่ำเริ่มต้นใหม่อีกครั้ง
ด้วยโครงสร้างการลู่เข้าแบบลำดับชั้น จึงสามารถคำนวณเชิงลึกได้ (หลายขั้นตอน) และยังควบคุมความเร็วการลู่เข้าได้อย่างเหมาะสม

การเรียนรู้กราเดียนต์ประมาณค่าแบบ 1-step

หากพึ่งพา BPTT (Backpropagation Through Time) จะต้องเก็บสถานะของหลายขั้นตอน ทำให้มีภาระด้านหน่วยความจำสูง
HRM เรียนรู้โดย ประมาณค่ากราเดียนต์จากสถานะสุดท้ายเท่านั้น ในแต่ละโมดูลระดับสูง/ระดับต่ำ จึงสามารถ คงการใช้หน่วยความจำไว้ที่ O(1) และทำให้เกิดแนวทางที่สมจริงในเชิงชีววิทยามากขึ้น
ในทางคณิตศาสตร์ แนวทางนี้อิงจากหลักการของ Deep Equilibrium Model (DEQ)

Deep supervision และ Adaptive Computation Time (ACT)

Deep supervision

ให้ฟีดแบ็กเป็นระยะ พร้อมสร้างเอาต์พุตในแต่ละ forward pass (segment) และคำนวณ loss ของการฝึกสำหรับแต่ละ segment แยกกัน
เมื่อต้องส่งต่อไปยัง segment ถัดไป จะทำการแยกสถานะออกจากกราฟ (detach) เพื่อเพิ่ม เสถียรภาพและประสิทธิภาพของโครงสร้างวนซ้ำเชิงลึก

Adaptive Computation Time (ACT)

นำ หลักการสลับระหว่างความคิดอัตโนมัติและความคิดโดยเจตนาของมนุษย์ มาใช้ และเรียนรู้จำนวนรอบซ้ำของ segment แบบไดนามิกด้วย Q-learning
Q-head จะทำนายค่า Q-value ของการกระทำ halt/continue ในแต่ละ segment
Q-learning จะคำนวณ loss รวมโดยพิจารณาทั้ง ความแม่นยำในการทำนายและจุดหยุดที่เหมาะสมที่สุด พร้อมกัน

ประสิทธิภาพและคุณลักษณะของสถาปัตยกรรม

HRM สามารถแก้ ปัญหาที่โมเดลแนวทาง CoT เดิมล้มเหลว เช่น Sudoku-Extreme (9x9) และเขาวงกตขนาดใหญ่ (30x30) ได้เกือบสมบูรณ์แบบด้วยข้อมูลเพียงประมาณ 1,000 รายการ
บนเบนช์มาร์ก ARC-AGI (Abstraction and Reasoning Corpus) ทำผลงานได้ 40.3% ด้วยพารามิเตอร์เพียง 27M (CoT-based o3-mini-high 34.5%, Claude 3.7 8K 21.2%)
ในขั้นตอน inference สามารถเพิ่มประสิทธิภาพเพิ่มเติมได้ด้วยการเพิ่มปริมาณการคำนวณ (steps) เท่านั้น โดยไม่ต้องแก้สถาปัตยกรรมหรือฝึกใหม่เพิ่มเติม จึงใช้ทรัพยากรคำนวณได้อย่างยืดหยุ่น
โฆษณา
ภายใน HRM ใช้ สถาปัตยกรรม sequence-to-sequence ที่อิง Transformer โดย
- หลังชั้น embedding ทั้งโมดูลระดับต่ำและระดับสูงใช้บล็อก Transformer แบบ encoder-only
- ใช้ความสามารถของ LLM รุ่นใหม่ เช่น Rotary Positional Encoding, Gated Linear Units, RMSNorm เป็นต้น
- พารามิเตอร์ใช้การกำหนดค่าเริ่มต้นแบบ truncated LeCun Normal และใช้ Adam-atan2 optimizer ร่วมกับอัตราการเรียนรู้คงที่

บทสรุป

HRM เป็นตัวอย่างของโครงสร้างวนซ้ำแบบลำดับชั้นที่ได้แรงบันดาลใจจากชีววิทยา และวิธีการเรียนรู้ที่มีประสิทธิภาพและลึกซึ้ง ซึ่งพิสูจน์ความสามารถด้านการให้เหตุผลทั่วไปที่เหนือกว่าวิธีเดิม แม้ใช้ข้อมูลและพารามิเตอร์น้อยกว่า
เป็นกรณีสำคัญที่แสดงให้เห็นถึงศักยภาพในการพัฒนาไปสู่ ระบบคำนวณทั่วไปและระบบปัญญาที่ก้าวข้ามข้อจำกัดด้านความลึกของดีปเลิร์นนิง/LLM

1 ความคิดเห็น

GN⁺ 2025-07-28

ความคิดเห็นใน Hacker News

จากที่ไล่อ่านบทคัดย่อและบทนำแบบคร่าว ๆ ผลลัพธ์ของโมเดล Hierarchical Reasoning (HRM) ดูน่าทึ่งมาก
- น่าประทับใจที่ HRM สามารถแก้ปัญหาที่แม้แต่ LLM ระดับล้ำหน้าที่สุดในปัจจุบันยังจัดการไม่ได้ โดยใช้ตัวอย่างอินพุต-เอาต์พุตเพียง 1,000 ชุด และไม่ต้องมีการพรีเทรนหรือการกำกับแบบ Chain-of-Thought (CoT)
- ตัวอย่างเช่น มันทำความแม่นยำได้เกือบสมบูรณ์แบบใน Sudoku ที่ซับซ้อน (Extreme Full) และการหาเส้นทางที่เหมาะสมที่สุดในเขาวงกตขนาด 30x30 (ขณะที่วิธี CoT ได้ความแม่นยำ 0% ในกรณีนี้)
- ใน Abstraction and Reasoning Corpus (ARC) AGI challenge นั้น HRM ทำได้ 40.3% ด้วยโมเดล 27M พารามิเตอร์และกริด 30x30 (900 โทเค็น) แซงหน้าโมเดลที่ใหญ่กว่ามากอย่าง o3-mini-high, Claude 3.7 8K เป็นต้น
- ตั้งใจว่าจะอ่านเปเปอร์นี้อย่างละเอียด
รู้สึกน่าสงสัยมากว่าโมเดล 27M พารามิเตอร์จะถูกฝึก "จากศูนย์" ด้วยข้อมูลเพียง 1,000 จุดข้อมูล
- และก็ไม่เข้าใจว่าทำไมถึงไม่เปรียบเทียบกับโมเดลอื่นที่ฝึกภายใต้เงื่อนไขเดียวกัน (ใช้การเตรียมข้อมูลแบบเดียวกัน)
- แต่กลับไปเปรียบเทียบกับ LLM ภายนอกแบบทั่วไป ซึ่งในกรณีของ LLM พวกนั้นอาจไม่เคยใช้ตัวอย่าง 1,000 ชุดนี้ในการฝึกเลยก็ได้
- วิธีแบบนี้ให้ความรู้สึกเหมือน overfit อยู่หน่อย ๆ
ใช่เลย!
- HRM ใช้โมดูลวนซ้ำสองตัวที่พึ่งพากัน (โมดูลบน: วางแผนเชิงนามธรรมแบบช้า, โมดูลล่าง: คำนวณเร็วและลงรายละเอียด)
- ด้วยสถาปัตยกรรมนี้ HRM จึงมีความสามารถในการคำนวณเชิงลึกได้ แม้จะมีพารามิเตอร์น้อย (27 ล้าน) และใช้ชุดข้อมูลขนาดเล็ก (~1,000 ตัวอย่าง)
- HRM เอาชนะโมเดล CoT รุ่นใหม่บนเบนช์มาร์กยาก ๆ ได้ (Extreme Sudoku, Maze-Hard, ARC-AGI)
- ตัวอย่างเช่น Sudoku แม่นยำ 96% และใน ARC-AGI-2 ทำได้ 40.3% แซงโมเดลใหญ่ ๆ อย่าง Claude 3.7, DeepSeek R1
- ต้องมีคำอธิบายว่าผลลัพธ์แบบนี้เกิดขึ้นได้อย่างไร... คงต้องลองรันบนคอมพิวเตอร์เอง
"หลังจบขั้นตอน T โมดูลบน (H module) จะรับสถานะผลลัพธ์ของโมดูลล่างมาอัปเดต โดยเริ่มเส้นทางการคำนวณของโมดูลล่างใหม่ และชักนำให้เกิดช่วงการลู่เข้าใหม่"
- เมื่อ RNN ชั้นล่างคำนวณเสร็จ โมดูลบนจะประเมินผล แล้วให้คอนเท็กซ์ใหม่แก่ RNN ชั้นล่างและวนลูปต่อ
- RNN ชั้นล่างทำการเรียนรู้ด้วย backpropagation แบบวนซ้ำ และโมดูลบนจะเข้ามาแทรกเป็นระยะเพื่อปรับจนได้เอาต์พุตที่ดีกว่า
- "หลักฐานทางประสาทวิทยาศาสตร์ชี้ว่าโหมดการรับรู้ลักษณะนี้ใช้วงจรประสาทร่วมกัน เช่น prefrontal cortex และ default mode network กล่าวคือ สมองจะปรับ 'เวลารัน' ของวงจรนี้แบบไดนามิกตามความซับซ้อนของงานและโอกาสได้รางวัล"
- ผู้เขียนได้นำกลยุทธ์ adaptive halting ที่ได้แรงบันดาลใจจากกลไกของสมองแบบนี้มาใช้กับ HRM หรือก็คือแนวคิด 'คิดเร็ว/คิดช้า'
- พูดอีกแบบคือเป็น scheduler ที่ปรับการใช้ทรัพยากรคำนวณโดยอัตโนมัติตามความยากของงานและข้อมูลที่ได้รับ
- ชอบมากที่ในหลายจุดของเปเปอร์มีการอ้างถึงความคล้ายกับสมองจริง
- คิดว่า AGI จะเกิดขึ้นได้ก็ต่อเมื่อนำ primitive พื้นฐานแบบนี้มาประกอบกันเป็นความซับซ้อนขั้นสุด พร้อมใช้ 'โมดูล' จำนวนมากที่ร่วมมือ แข่งขัน สื่อสาร ทำงานพร้อมกัน และมีความเชี่ยวชาญเฉพาะทาง
- สมองมนุษย์เองก็น่าจะต้องเป็นแบบนี้จึงจะวิวัฒน์ไปสู่ความสามารถทางการรู้คิดได้; สำหรับเนื้อเยื่อชีวภาพที่ช้าและใช้พลังงานต่ำ นี่คือทางออกเดียว
อ่านเรื่องการแยกโครงสร้าง hlm/llm แล้วนึกถึงโครงสร้างสมองมนุษย์ขึ้นมาทันที
มีคนบอกว่าจำเป็นต้องมองอย่างระมัดระวัง
- โดยเฉพาะไอเดียอย่างการหลบเลี่ยง backpropagation นั้นน่าสนใจมาก
- แต่ดูเหมือนว่ายังไม่ผ่าน peer review และในส่วนผลลัพธ์ก็ไม่ได้อธิบายวิธีประเมินอย่างเฉพาะเจาะจง ตัวเลขหลัก ๆ ไปอยู่ในรูปหลักเสียมากกว่า
- ตัวเลขในลีดเดอร์บอร์ดของ Benchmarks (ARC2) กับตัวเลขจริงก็ไม่ตรงกัน (ตอนนี้กลุ่มบนอยู่ราว 19% แต่ HRM อยู่ระดับ 5%)
- ตรวจสอบได้โดยตรงที่ https://www.kaggle.com/competitions/arc-prize-2025/leaderboard
โค้ดของผู้เขียนเปิดไว้ที่ https://github.com/sapientinc/HRM
- ในสาย AI/ML เปเปอร์ preprint ที่มีโค้ดใช้งานได้จริงแนบมาด้วยมีค่ามากกว่าเปเปอร์ที่ผ่าน peer review อย่างเป็นทางการเสียอีก
- preprint เปิดให้ใครก็ตรวจสอบและทำซ้ำได้ ขณะที่ peer review แบบมาตรฐานพึ่งพาผู้ประเมินจำนวนน้อยมากที่งานยุ่งมากอยู่แล้ว (และบางครั้งยังแทบไม่ได้ค่าตอบแทนอย่างเหมาะสม)
- ถ้าสิ่งที่ผู้เขียนอ้างเป็นจริง สุดท้ายมันก็จะได้รับการยอมรับเองตามธรรมชาติ ถ้าไม่จริงก็จะถูกลืมไป
- ในทางปฏิบัตินี่คือการตรวจสอบแบบกระจายศูนย์ระดับโลกในสไตล์โอเพนซอร์ส; อาจหยาบอยู่บ้าง แต่มีประสิทธิภาพกว่าการรีวิวเปเปอร์แบบดั้งเดิมมาก
สำหรับเปเปอร์แมชชีนเลิร์นนิง การมองแบบตั้งข้อสงสัยอย่างมีสุขภาวะเป็นสิ่งจำเป็น
- เมื่อจำนวนเปเปอร์เพิ่มขึ้น peer review แบบดั้งเดิมก็เริ่มไร้ประสิทธิภาพ
- ผู้รีวิวจำนวนมากจริง ๆ แล้วอาจไม่ได้เชี่ยวชาญตรงสาขานั้น หรืออาจเป็นนักศึกษาด้วยซ้ำ
- peer review ที่แท้จริงคือกระบวนการที่ผู้เชี่ยวชาญคนอื่นนำไปทำซ้ำอย่างอิสระจากการอ่านบน arXiv เป็นต้น แล้วอ้างอิงในงานวิจัยต่อยอดภายหลัง
- เธรดคอมเมนต์นี้เองก็คือ peer review ที่เกิดขึ้นจริง
คิดว่าวิธีที่ดีที่สุดในการตรวจสอบแบบสงสัยอย่างสร้างสรรค์คือการทดลองทำซ้ำและเปรียบเทียบผลลัพธ์
- เดือนหน้ามีวันหยุด 10 วัน จะลองดูว่าผู้เขียนเปิดอะไรไว้บ้าง ทั้งซอร์สโค้ด ชุดข้อมูล ฯลฯ แล้วจะลองทำซ้ำด้วยตัวเอง
การตัดสินเพียงเพราะยังไม่ผ่าน peer review ถือว่าเร็วเกินไป
- เปเปอร์ mamba1 และ mamba2 ตอนแรกก็ยังไม่ผ่าน peer review เช่นกัน
- แต่ก็เห็นด้วยว่าคำกล่าวอ้างที่แรงต้องมีหลักฐานที่แรงรองรับ และตอนนี้กำลังพยายามทำซ้ำผลลัพธ์บนเครื่องตัวเองอยู่
การคาดหวังว่าเพิ่งตีพิมพ์ออกมาแล้วจะต้องมี peer review เลย ดูเหมือนเป็นการไม่เข้าใจกระบวนการ
- ถ้าจะส่งงานวิจัยเข้าสู่ peer review ขั้นแรกก็คือต้อง 'ตีพิมพ์' ออกมาก่อน
ฉันเป็นนักจิตวิทยาการรู้คิด และคิดมานานแล้วว่าโดยรวมทิศทาง AI แบบนี้แหละที่จำเป็น
- ดู Fuzzy Trace Theory [1]; ความจำสร้างตัวแทนหลายระดับ ตั้งแต่ระดับคำ (รายละเอียด) ไปจนถึงสรุปใจความ (gist) แล้วนำมาผสานและดึงกลับมาใช้
- การผสานตัวแทนเชิงสรุปกับข้อมูลรายละเอียดทำให้เกิดการเหมารวมที่ทรงพลังและเส้นทางการระลึกที่ยืดหยุ่น
- [1] https://pmc.ncbi.nlm.nih.gov/articles/PMC4979567/
ถ้าเข้าใจไม่ผิด HRM ดูตัวอย่าง Sudoku 1,000 คู่ (ปริศนา, คำตอบ) แล้วเรียนรู้กฎได้ด้วยตัวเอง
- จากนั้นมันก็สามารถแก้ปริศนาใหม่ที่ไม่เคยเห็นมาก่อนได้ด้วยความแม่นยำ 55%
- ถ้าฝึกด้วยตัวอย่างหนึ่งล้านชุดก็จะเกือบสมบูรณ์แบบ
- น่าทึ่งตรงที่ไม่มีการพรีเทรนมาก่อนเลย
- ในทางกลับกัน AlphaZero มีกฎของเกม (หมากรุก·โกะ) ฝังอยู่แล้วและเรียนรู้เฉพาะกลยุทธ์ แต่ HRM เรียนรู้แม้กระทั่งกฎ
- ตั้งใจจะไปดูเองใน GitHub repository
- AlphaZero มีกฎฝังอยู่ แต่ MuZero และโมเดลต่อ ๆ มากลับทำงานได้โดยไม่ต้องฝังกฎ
  - MuZero ทำผลงานเหนือกว่า AlphaZero และ EfficientZero ก็ลดปริมาณการเรียนรู้ลงได้อีก
  - เด่นมากในสภาพแวดล้อมหลากหลายอย่างเกม Atari
- ลองทดลองกับซอร์สโค้ดเองแล้วพบว่า:
  - เพื่อให้ทำซ้ำทางวิทยาศาสตร์ได้จริง อยากให้ระบุเวอร์ชันไลบรารีให้ชัดเจนด้วย (มี pyproject.toml จะดีกว่า)
  - ตัวอย่าง Sudoku 1,000 ชุดนั้นจริง ๆ ถูกขยายข้อมูลด้วยอัลกอริทึม permutation ที่เขียนขึ้นเอง จนกลายเป็นชุดข้อมูลระดับล้านชุด
    (จึงไม่ใช่ 1,000 จริง ๆ)
ทั้งคาดหวังและแอบหวั่นเล็กน้อยว่าโมเดล HRM จะถูกนำไปรวมกับ MoE (Mixture of Experts) ในไม่ช้า
- เพราะแรงกดดันทางเศรษฐกิจในการทำให้ LLM ทรงพลังขึ้นนั้นสูงมาก การรวมกันแบบนี้จึงอาจเกิดขึ้นภายในไม่กี่เดือนด้วยซ้ำ
- เปเปอร์พูดถึงแค่โจทย์ปริศนาอย่าง Sudoku และไม่ได้แตะการถามตอบหรือแอปพลิเคชันหลักของ LLM
- เสียดายที่ไม่ได้พูดถึงการรวมเข้ากับ LLM รุ่นถัดไป
- MoE เกี่ยวข้องกับคลัสเตอร์ของแนวคิด แต่ต่อไปเราอาจต้องรวมความลึกของแนวคิด จำนวนชั้นลำดับชั้น และเวลาเรียนรู้เข้าไปใน latent space ด้วย ซึ่งคล้ายกับที่เวลาอ่านหนังสือคณิตศาสตร์กับอ่านบทความสั้น ๆ เราใช้วิธีอ่านต่างกัน
- HRM ถูกออกแบบมาสำหรับปริศนาที่มีกฎจำนวนน้อยแต่พัวพันกันอย่างซับซ้อน
  - เพราะมีกฎน้อย โมเดลเล็กก็เรียนรู้ได้ และเพราะโมเดลเล็ก จึงสามารถรันซ้ำหลายรอบเพื่อจัดการปฏิสัมพันธ์ทั้งหมดได้
  - แต่การทำ language modeling ต้องเก็บวลีจำนวนมหาศาลและความสัมพันธ์ระหว่างมัน จึงคิดว่ายากที่จะทำแบบเดียวกันด้วยโมเดลเล็ก
  - โชคดีที่งานภาษาโดยทั่วไปผ่านขั้นตอนคำนวณไม่กี่รอบก็ให้ผลที่ใช้งานได้แล้ว
  - ถ้าเอาโมเดลใหญ่ระดับ LLM มาวนลูปแบบ HRM ความเร็วจะช้าเกินไปจนใช้งานจริงยาก
  - แต่ก็พอจินตนาการได้ว่าอาจรวม LLM หลักเข้ากับ HRM ขนาดเล็กเพื่อให้จัดการงานข้อจำกัดเชิงเงื่อนไขโดยเฉพาะ
- ฉันเองก็ยังติดใจอยู่บ้างที่แทบไม่มีการพูดถึงการใช้งานอื่นนอกเหนือจาก Sudoku หรือข้อจำกัดของมัน
พอไล่อ่านเปเปอร์แล้วรู้สึกว่าแม้แต่ระบบ MoE LLM (ไม่ว่าจะเป็นแบบ autoregressive, diffusion, energy-based หรืออะไรก็ตาม) ก็ยังสามารถซ้อนลำดับชั้นในแบบ HRM ได้
- คิดว่าน่าจะใช้แนวคิดนี้สร้างเบนช์มาร์กใหม่ด้านประสิทธิภาพและคุณภาพจากการผสมผสานดังกล่าวได้ด้วย
ชื่นชมที่งานนี้ได้แรงบันดาลใจจากประสาทวิทยา และโดยรวมในเปเปอร์ก็ดูไม่มีอะไรที่น่ากังวลเป็นพิเศษ
- แม้ยังไม่ได้ทำ replication experiment เอง แต่สิ่งที่ผู้เขียนสร้างขึ้นดูจะเป็นตัวแก้ปัญหา constraint-satisfaction ที่อย่างน้อยก็อาจค่อนข้างทั่วไปได้
- มันเป็นระบบที่เรียนรู้แม้กระทั่งกฎข้อจำกัดจากตัวอย่างจำนวนน้อย ซึ่งถ้าเป็นจริง แค่นี้ก็น่าสนใจมากแล้ว
- แต่อย่างไรก็ดี การเปรียบเทียบตรง ๆ กับโมเดล CoT ยังไม่ค่อยชวนเชื่อเท่าไร
- โมเดล CoT ตามหลักการแล้วอาจแก้ปัญหาซับซ้อนใด ๆ ก็ได้ แต่ HRM ต้องฝึกแยกสำหรับปริศนาเฉพาะแต่ละแบบ จึงยากจะอ้างความเป็นระบบทั่วไป
- เช่นเดียวกับที่บอกว่าเอนจินหมากรุก Stockfish เล่นหมากรุกเก่งกว่า LLM ไม่ได้แปลว่า Stockfish 'ฉลาดกว่า'
- เป็นไอเดียที่ดี แต่ก็รู้สึกว่ามีกลิ่นอายการตลาดเกินจริงอยู่เล็กน้อยในตัวเปเปอร์
- เห็นด้วย! แค่นี้ก็ถือเป็นความสำเร็จมหาศาลแล้ว
  - ควรระวังไม่ให้ hype พุ่งเกินไป แต่ผลลัพธ์จากโมเดลเล็กแค่นี้ก็น่าทึ่งมาก
  - สำหรับปัญหาเฉพาะทาง โมเดลที่ปรับแต่งเฉพาะย่อมมีทั้งประสิทธิภาพและความน่าเชื่อถือสูงกว่า จึงไม่จำเป็นต้องฝืนใช้โครงสร้างที่ไม่มีประสิทธิภาพเพียงเพื่อเรียกว่าทั่วไป
- คุณบอกว่าโมเดล CoT โดยเนื้อแท้สามารถแก้งานซับซ้อนใด ๆ ก็ได้ อยากรู้ว่าหลักฐานคืออะไร
  - สงสัยด้วยว่ามีหลักฐานทางคณิตศาสตร์รองรับหรือไม่
  - ส่วนตัวคิดว่า CoT เองก็เป็นเหมือนวิธีอ้อม ๆ เพื่อเลี่ยงข้อจำกัดของ LLM ปัจจุบัน
ถ้าเปเปอร์นี้เป็นจริง ผลกระทบจะใหญ่มาก เลยยังจับตาดูอย่างใกล้ชิด
- แนวคิดพื้นฐานฟังดูสมเหตุสมผล แต่คงต้องรอดูการตรวจสอบจากบุคคลที่สามก่อนถึงจะมั่นใจมากขึ้น
- อยากลองตรวจสอบด้วยตัวเองในงานจริงด้วย