- Tiny Recursion Model (TRM) เป็นโครงข่ายประสาทเทียมขนาดเล็กที่มีพารามิเตอร์เพียงราว 7M แต่ยังทำผลงานได้สูงถึง 45% บน ARC-AGI-1 และ 8% บน ARC-AGI-2
- พิสูจน์ให้เห็นว่าแม้จะไม่ใช่โมเดลภาษาขนาดใหญ่ ก็สามารถแก้ปัญหาที่ยากได้ด้วย แนวทางการอนุมานแบบเรียกซ้ำ
- โมเดลนี้ทำให้โครงสร้างอันซับซ้อนของ Hierarchical Reasoning Model (HRM) เรียบง่ายลง โดยคงไว้เฉพาะ กระบวนการอนุมานแบบเรียกซ้ำ ที่เป็นแกนหลัก
- TRM ปรับปรุงคุณภาพคำตอบอย่างต่อเนื่องด้วยโมเดลขนาดเล็กและมีประสิทธิภาพ โดยไม่ต้องอาศัยสมองมนุษย์ ทฤษฎีบททางคณิตศาสตร์ที่ซับซ้อน หรือโครงสร้างแบบลำดับชั้น
- งานวิจัยนี้เน้นย้ำว่า แนวทางใหม่สำคัญกว่าขนาดของโมเดล สำหรับการแก้ปัญหาที่ยาก
ภาพรวม
- งานวิจัยนี้นำเสนอโมเดลการอนุมานแบบเรียกซ้ำใหม่ชื่อ Tiny Recursion Model (TRM)
- แม้ TRM จะเป็นโครงข่ายประสาทเทียมที่มีเพียง 7M พารามิเตอร์ แต่ก็ทำสถิติความแม่นยำที่มีนัยสำคัญคือ 45% บน ARC-AGI-1 และ 8% บน ARC-AGI-2
- โมเดลนี้แสดงให้เห็นผ่านการทดลองว่า แม้จะไม่ใช่โมเดลขนาดใหญ่ที่บริษัทใหญ่ใช้เงินหลายล้านดอลลาร์ฝึก ก็ยังสามารถแก้ปัญหาที่ซับซ้อนได้เพียงพอด้วยการอนุมานแบบเรียกซ้ำที่มีประสิทธิภาพ
- ปัจจุบันอุตสาหกรรมมีแนวโน้มมุ่งความสนใจไปที่ การใช้งาน LLM มากเกินไป แต่ TRM ชี้ให้เห็นว่า ทิศทางใหม่ด้านการอนุมานและการเรียนรู้มีความสำคัญ
ความแตกต่างจากงานวิจัยเดิม
- งานเดิมอย่าง Hierarchical Reasoning Model (HRM) พึ่งพาตรรกะแบบชีววิทยา โครงสร้างลำดับชั้นที่ซับซ้อน และทฤษฎีบททางคณิตศาสตร์ (เช่น ทฤษฎีบทจุดตรึง) ค่อนข้างมาก
- TRM ตัดความซับซ้อนเหล่านี้ออกไป และคงไว้เพียง กลไกแกนหลักของการอนุมานแบบเรียกซ้ำ ที่ถูกทำให้ง่ายที่สุด ส่งผลให้ทั้งการออกแบบและการนำไปใช้เรียบง่ายและตรงไปตรงมามากขึ้น
- แก่นสำคัญคือ แม้ไม่มีโครงสร้างของสมองมนุษย์หรือภูมิหลังเชิงทฤษฎี ก็ยังสามารถ ยกระดับความแม่นยำของคำตอบได้อย่างต่อเนื่องผ่านกระบวนการวนซ้ำกับตัวเองแบบเรียกซ้ำ
วิธีการทำงานของ TRM
- เริ่มต้นด้วยการฝังตัวแทนของคำถามนำเข้า x, คำตอบเริ่มต้น y และสถานะซ่อน z
- ภายใน ขั้นตอนการปรับปรุง สูงสุด K ครั้ง จะมีการทำซ้ำสองขั้นตอนต่อไปนี้:
- i) อัปเดตค่า z ของสถานะซ่อนซ้ำ n ครั้งจากคำถามปัจจุบัน x, คำตอบ y และสถานะซ่อน z ปัจจุบัน (recursive reasoning)
- ii) อัปเดตคำตอบ y ใหม่จากคำตอบ y ปัจจุบันและ z ใหม่ เพื่อให้ได้คำตอบที่ดีกว่าเดิม
- กระบวนการวนซ้ำแบบเรียกซ้ำนี้ช่วยยกระดับคุณภาพคำตอบอย่างต่อเนื่อง โดยไม่เพิ่มพารามิเตอร์ของโมเดล และยังลดความเสี่ยงของการเกิด overfitting
บทสรุป
- งานวิจัย TRM พิสูจน์ว่า ขนาดของโมเดลไม่ใช่องค์ประกอบที่จำเป็นต่อความสำเร็จเสมอไป
- ผลการทดลองแสดงให้เห็นว่าเพียงหลักการอนุมานแบบเรียกซ้ำ ก็ทำให้โครงข่ายประสาทเทียมขนาดเล็กสร้างผลงานได้ใกล้เคียงโมเดลขนาดใหญ่
- งานวิจัยนี้เน้นย้ำถึง ความสำคัญของการพัฒนาแนวทางใหม่ที่มีประสิทธิภาพและสร้างสรรค์ สำหรับงานวิจัยปัญญาประดิษฐ์ในอนาคต
- รายละเอียดเพิ่มเติมดูได้จาก บทความวิจัย
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
อยากแนะนำให้ทุกคนอ่าน บทความบล็อก ของทีมผู้จัด ARC-AGI เกี่ยวกับ HRM แบบละเอียดจริง ๆ
ภายใต้เงื่อนไข data augmentation/‘test time training’ แบบเดียวกัน พบว่า Transformer พื้นฐานก็ทำผลลัพธ์ได้เกือบใกล้เคียงกับ “ผลงานน่าทึ่ง” ที่รายงานไว้สำหรับ HRM
ดูเหมือนบทความนี้ก็เปรียบเทียบตัวเองกับ ARC-AGI ภายใต้เงื่อนไขที่คล้ายกัน
ผมเองก็อยากได้ประสิทธิภาพการให้เหตุผลที่ยอดเยี่ยมจากโมเดลขนาดเล็กกว่า
แต่ก่อนอื่นต้องเข้าใจก่อนว่า ARC-AGI วัดอะไร, การตั้งค่าทั่วไปที่ใช้เปรียบเทียบ LLM เชิงพาณิชย์กันคืออะไร, และการตั้งค่าพิเศษที่ใช้ใน HRM หรือบทความนี้คืออะไร
ชื่อของ benchmark มักทำให้เกิดความคาดหวังเกินจริง และผมเห็นลักษณะนั้นทั้งใน HRM และในบทความนี้
ไม่จำเป็นต้องลงรายละเอียดกับบทวิเคราะห์ HRM มากเกินไป และ TRM ก็มีโครงสร้างที่ disentangled กว่า HRM ทำให้ทำ ablation ได้ง่ายกว่ามาก
ผมคิดว่าคุณค่าที่แท้จริงของบล็อก HRM ของ arcprize คือการย้ำความสำคัญของการทดสอบ ablation
ARC-AGI ถูกออกแบบมาให้เป็นชาเลนจ์สำหรับทุกโมเดล
เดิมทีเหมือนจะตั้งสมมติฐานว่าต้องมีความสามารถในการให้เหตุผลระดับโมเดลภาษาขนาดใหญ่แบบ LLM ถึงจะทำได้ แต่ดูเหมือนนั่นจะเป็นความเข้าใจที่คลาดเคลื่อน
ผมอยากถามว่า ประเด็นคือ HRM และ TRM ถูกฝึกแบบเฉพาะทางกับชุดข้อมูลขนาดเล็กของตัวอย่าง ARC-AGI ในขณะที่ LLM ไม่ได้เป็นแบบนั้นใช่ไหม
หรือกำลังเน้นความแตกต่างตรงไหนกันแน่
มันไม่ใช่ “Transformer พื้นฐาน” เท่าไร แต่เป็น “สถาปัตยกรรมคล้าย Transformer ที่มีโครงสร้าง recurrent”
วิธีนี้ยังคงเป็นหัวข้อทดลองที่น่าสนใจ
มันมีข้อดีชัดเจนอยู่แน่ แต่ผมไม่คิดว่ามันคือ Transformer ที่ดีกว่าอย่างแท้จริง
ความสนใจที่มันได้รับอยู่ตอนนี้รู้สึกว่าเยอะเกินไปหน่อย
อ่านเรื่องนี้แล้วทำให้นึกถึงความคล้ายกันระหว่างฟิลเตอร์ Finite Impulse Response (FIR) (LLM แบบเดิม) กับฟิลเตอร์ Infinite Impulse Response (IIR) (โมเดลแบบ recursive) อีกครั้ง
ไม่ใช่อุปมาที่ยอดเยี่ยมหรือแปลกใหม่อะไร แต่ใน FIR ถ้าจะให้ได้คุณสมบัติ cutoff ใกล้เคียงกัน ก็ต้องใช้ coefficient มากกว่า IIR มาก
ตัวอย่างเช่น เราสามารถแปลง IIR เป็น FIR ได้ด้วย window design method ซึ่งในกรณีนั้นก็เท่ากับคลี่โครงสร้าง recursive ออกแล้วหยุดที่ความลึกจำกัด
ในทำนองเดียวกัน ถ้าคลี่ TRM ออก ก็จะกลายเป็นโครงสร้างที่เป็นการทำซ้ำของ attention+ff block ในสถาปัตยกรรม LLM แบบดั้งเดิม โดยตัด global feedback ออกไป
แถม TRM ก็ไม่ได้ทำตัวเหมือน IIR จริง ๆ เพราะมันมี cutoff แบบจำกัด ดังนั้นในเชิงโครงสร้างมันอาจใกล้กับ FIR/LLM มากกว่า
การเปรียบเทียบ TRM กับโครงสร้างที่คลี่ออกในลักษณะคล้ายกันก็น่าจะน่าสนใจดี
แต่ก็อาจเป็นแค่ความเพ้อจากการนอนไม่พอก็ได้
แนวคิดนี้เริ่มจากการสังเกตว่า hidden layer ของโมเดลลำดับเชิงลึกแบบเดิมส่วนใหญ่มักลู่เข้าไปยังจุดคงที่บางจุด แล้วก็เปลี่ยนไปหาจุดคงที่นั้นโดยตรงด้วย root finding
วิธีนี้เทียบเท่ากับการรัน feedforward network ความลึกอนันต์แบบ weight-tied และยังทำ backprop ได้ด้วย implicit differentiation
(ลิงก์บทความ arxiv)
สิ่งที่น่าสนใจของ deep equilibrium model คือ มันสามารถใช้แค่เลเยอร์เดียวแต่ให้สมรรถนะเทียบเท่าเครือข่าย deep learning ที่ซ้อนหลายเลเยอร์ได้
แค่มี recurrence ก็พอ
และมันจะปรับจำนวนรอบซ้ำเองตามความยากของงาน
ผมเคยทำ HRM ขึ้นมาเพื่อการเรียนรู้ และได้ผลดีในการหาเส้นทาง
หลังจากนั้นพอทำการทดลอง ablation ก็พบข้อสรุปเดียวกับทีม ARC-AGI (คือสถาปัตยกรรม HRM เองแทบไม่ได้มีบทบาทมาก)
รู้สึกเสียดายนิดหน่อย
ผมยังคิดว่า latent space reasoning น่าจะมีศักยภาพอะไรบางอย่าง
คลังโค้ด implementation
การทำซ้ำผลและการแชร์ประสบการณ์สำคัญมากจริง ๆ
ผมสงสัยว่าผลที่เปิดเผยใน บทความ arXiv หมายความว่าสามารถ scale ได้จริงหรือไม่
ถ้าผลนี้ใช้ได้กับงานจริงด้วย มันก็น่าจะเป็นการเปลี่ยนเกมอย่างแท้จริง
ในอีกมุมหนึ่ง ถ้าเป็นเช่นนั้นจริง ก็ชวนให้นึกเล่น ๆ ว่าเม็ดเงินลงทุนมหาศาลที่กำลังเทเข้าโครงสร้างพื้นฐาน AI data center อาจกลายเป็นไร้ความหมายได้ในพริบตา
(แน่นอนว่าอาจไม่อยู่นาน)
เวลาเล่าเรื่อง HRM ต้องอ้างถึง บทวิเคราะห์ HRM ของ arcprize ด้วยเสมอ
บทความนี้ดูเหมือนเป็นเวอร์ชันที่ลดทอนความซับซ้อนของ HRM และก็ดูเหมือนอ้างอิงการศึกษา ablation จากบทวิเคราะห์นี้โดยตรงด้วย
อีกจุดสำคัญคือ HRM ไม่ใช่โครงสร้างที่ประยุกต์ใช้ได้กว้างแบบ transformer LLM ทั่วไป
ยังไม่มีหลักฐานว่า HRM ใช้ได้กับงาน generative AI ทั่วไป
ผมกำลังอ่านบทความอยู่ แต่ดูเหมือนโครงสร้างนี้ก็ยังเหมาะกับงานแนวเดียวกับ HRM เช่นงานให้เหตุผลเชิงพื้นที่อย่าง ARC-AGI และยังต้องมีการรวมเข้ากับสถาปัตยกรรมที่ใช้งานได้กว้างกว่านี้
ผมคิดว่ากรณีนี้ใช้ Jevon’s paradox ได้
ถ้าต้นทุน AI/ค่าไฟลดลง ความต้องการก็จะยิ่งเพิ่มขึ้น
ภาพที่ฟองสบู่ AI แตกเพราะเทคโนโลยี AI ดีเกินไปจนประสิทธิภาพพุ่งสุดโต่ง ฟังดูสมเหตุสมผลดี
สำหรับประเด็นที่ว่าเงินลงทุนใน AI data center อาจไร้ความหมาย
งานคำนวณบน GPU ไม่ได้มีไว้เพื่อ inference ข้อความอย่างเดียว และโดยเฉพาะความต้องการด้านการสร้างวิดีโอน่าจะยังยากที่จะอิ่มตัวไปอีกพักใหญ่ แม้จะมีนวัตกรรมใหม่เกิดขึ้นก็ตาม
ถ้ามันได้ผลแบบนั้นจริง วงการก็คงแทบจะนำวิธีนี้ไปใช้ทันทีเพื่อฝึกโมเดลที่ใหญ่และทรงพลังยิ่งกว่าเดิม
“TRM ที่มี 7M พารามิเตอร์ ได้ความแม่นยำการทดสอบ 45% บน ARC-AGI-1 และ 8% บน ARC-AGI-2 ซึ่งสูงกว่า LLM ส่วนใหญ่ เช่น Deepseek R1, o3-mini และ Gemini 2.5 Pro โดยใช้พารามิเตอร์น้อยกว่า 0.01%”
น่าประทับใจจริง ๆ
ในเชิงโครงสร้าง มันให้ความรู้สึกคล้าย Hierarchical Temporal Memory ที่ Jeff Hawkins เสนอไว้ใน “On Intelligence”
(แน่นอนว่าไม่มีคุณสมบัติเรื่อง sparsity แต่ส่วนของลำดับชั้น/เชิงเวลาก็คล้ายกัน)
วิกิ HTM, Numenta
สรุป
Hierarchical Reasoning Model (HRM) เป็นแนวทางใหม่ที่ให้เครือข่ายประสาทขนาดเล็กสองตัวทำงานแบบ recursive ด้วยคาบที่ต่างกัน
มันได้รับแรงบันดาลใจจากชีววิทยา และด้วยโมเดลขนาดเล็ก (27M พารามิเตอร์) กับข้อมูลที่เล็กและมีน้อย (ราว 1000 ตัวอย่าง) ก็สามารถเอาชนะ LLM ขนาดใหญ่ในงานปริศนายาก ๆ อย่าง Sudoku, Maze และ ARC-AGI ได้
โครงสร้างนี้ยังไม่ถูกเข้าใจอย่างสมบูรณ์ และประสิทธิภาพอาจยังไม่ใช่จุดที่ดีที่สุด
เราเสนอวิธีให้เหตุผลแบบ recursive ที่ง่ายกว่ามากชื่อ TRM (Tiny Recursive Model) และโมเดลนี้แสดงความสามารถในการ generalize ที่ดีกว่า HRM อย่างมากด้วยเครือข่ายขนาดเล็กเพียง 2 เลเยอร์
ด้วยแค่ 7M พารามิเตอร์ มันก็เอาชนะ LLM ขนาดใหญ่ได้ (ความแม่นยำการทดสอบ ARC-AGI-1 45%, ARC-AGI-2 8%, ใช้พารามิเตอร์น้อยกว่า 0.01%)
แต่ก็สงสัยว่ามันอาจมีข้อจำกัดที่ซ่อนอยู่หรือเปล่า
น่าสนใจที่บนโจทย์ ARC การมี recurrence ให้ผลดี
ถ้าสนใจ recurrence ก็แนะนำให้ดูบทความเหล่านี้ที่นำโมเดลลักษณะนี้ไปใช้กับปัญหาอื่นด้วย
โดยรวมแล้วผมชอบสาย transformer RNN
โดยแก่นแล้วมันคือ EBM ที่เรียนรู้ energy landscape และค่อย ๆ ถูกดึงเข้าสู่คำตอบ
ให้ความรู้สึกเหมือนค่อย ๆ ทำให้ปัญหาแบบ discrete กลายเป็น convex มากขึ้น
มันชวนให้นึกถึง neural cellular automata, flow matching/diffusion และแนวทางอื่นที่คล้ายกัน
วิธีนี้ก็ดูมีความหวังกับปัญหาด้านการควบคุมด้วย
คือคอยเคลื่อนที่อยู่ใน state space แล้วเลือกเฉพาะ action ที่ใช้ได้ในแต่ละขั้น
ผมสงสัยว่านี่มันแทบจะเหมือน neuralese Chain-of-Thought (CoT) โดยเนื้อแท้ไม่ใช่หรือ
เขาเรียก z/z_L ว่า reasoning embedding อย่างชัดเจน และมันมีหน้าที่เปลี่ยนแปลงหรือคงอยู่ไปตามกระบวนการ recursive พร้อมกับค่อย ๆ ปรับ output embedding (z_H/y) ให้ดีขึ้น
มันดูเหมือน neuralese CoT/สายโซ่การให้เหตุผลจริง ๆ