เครื่องจักรแห่งความคิดต่อเนื่อง

(pub.sakana.ai)

2 คะแนน โดย GN⁺ 2025-05-13 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

Continuous Thought Machine(CTM) เป็นสถาปัตยกรรมใหม่ที่ใส่ พลวัตประสาทเชิงเวลา เข้าไปในการคำนวณของโครงข่ายประสาทอย่างชัดเจน เพื่อทำให้ “การคลี่คลายของความคิด” เกิดขึ้นภายในโมเดล ซึ่งยากจะจัดการได้ด้วยการประมวลผลแบบ static feed-forward เพียงอย่างเดียว
แกนหลักของโครงสร้างมี internal ticks ที่แยกออกจากลำดับของข้อมูล, neuron-level models ที่ MLP ของแต่ละนิวรอนประมวลผลประวัติ pre-activation ล่าสุด และวิธีที่ใช้การซิงโครไนซ์เชิงเวลาระหว่างคู่นิวรอนเป็น representation
แสดงให้เห็นความเป็นไปได้ในการประยุกต์ใช้กับการทดลอง ImageNet, เขาวงกต 2D, parity, Q&A MNIST, CIFAR-10/100, การเรียงลำดับจำนวนจริง และ reinforcement learning โดยคงโครงสร้างหลักไว้และเปลี่ยนเฉพาะโมดูลอินพุต/เอาต์พุต
ในการทดลองเขาวงกต โมเดลทำนายเส้นทาง L/R/U/D/W โดยตรงโดยไม่ใช้ position embedding และแสดงกรณีที่โมเดลซึ่งฝึกกับเขาวงกต 39×39 และเส้นทางยาวสูงสุด 100 สามารถ generalize ไปยังเขาวงกต 99×99 และเส้นทางที่ยาวกว่าราว 6 เท่าได้
CTM แสดงพฤติกรรมอย่างการเรียกคืนความจำ, adaptive computation, การเลื่อน attention ที่ตีความได้ และการก่อตัวของ internal world model ผ่าน synchronization representation แต่ไม่ใช่โมเดลที่จำลองนิวรอนจริงแบบตามตัวอักษร

ปัญหาที่ CTM มุ่งแก้

โครงข่ายประสาทแบบเดิมตั้งใจลดทอน พลวัตประสาทเชิงเวลา ที่พบในสมองชีวภาพ โดยประมวลผลบนค่าการกระตุ้นแบบ static เป็นหลักเพื่อให้เหมาะกับ deep learning ขนาดใหญ่
ในสมองมี spike-timing-dependent plasticity(STDP), การสั่นของระบบประสาท และ temporal coding ที่อิงกับ spike timing และ synchrony แต่โครงข่ายประสาทสมัยใหม่มักให้ความสำคัญกับความเรียบง่ายและประสิทธิภาพการคำนวณเป็นหลัก
เมื่อเทียบกับความยืดหยุ่นและความทั่วไปของการรับรู้แบบมนุษย์ AI ปัจจุบันยังมีส่วนที่ขาดอยู่ และบางส่วนอาจเกี่ยวข้องกับ การประมวลผลเวลา
การมีส่วนร่วมของ CTM สรุปได้เป็นสามองค์ประกอบ
- มิติภายในที่แยกออกมา: แกนเวลาที่ให้ความคิดคลี่คลายได้ในระบบประสาทประดิษฐ์
- neuron-level models(NLMs): แต่ละนิวรอนถูกกระตุ้นโดยประมวลผลประวัติสัญญาณอินพุต แทนที่จะใช้ฟังก์ชัน static อย่าง ReLU คงที่
- neural synchronization: latent representation ที่ใช้โดยตรงในการสังเกตและการทำนาย

โมเดล reasoning และ recurrence

วิธีขยายโมเดลแบบเดิมสร้างความก้าวหน้าได้มาก แต่ยังมีคำถามเรื่องความยั่งยืนระยะยาว เพราะต้องใช้ต้นทุนคำนวณและข้อมูลมากขึ้น
สำหรับข้อมูลลำดับ กลุ่ม RNN ถูกใช้มายาวนาน แต่ถูกแทนที่ไปมากด้วยแนวทางที่อิง Transformer และเมื่อเร็ว ๆ นี้ recurrence กลับมาได้รับความสนใจอีกครั้งในฐานะเส้นทางสำหรับขยายความซับซ้อนของโมเดล
reasoning models สำหรับการสร้างข้อความใช้ recurrence รูปแบบหนึ่งที่เพิ่มการคำนวณในช่วงทดสอบผ่านการสร้างผลลัพธ์ขั้นกลาง
CTM มองว่าแกนหลักไม่ใช่ recurrence เอง แต่เป็น timing ที่แม่นยำและปฏิสัมพันธ์ของกิจกรรมประสาท ที่ recurrence เปิดทางให้
ความแตกต่างจากแนวทางเดิมมีสามข้อ
- ทำให้เกิดความคิดแบบลำดับได้ในมิติภายในที่แยกจาก modality ของข้อมูล
- private model ของแต่ละนิวรอนจัดการ timing ของประสาทอย่างละเอียด
- ใช้ neural synchronization โดยตรงเป็น representation สำหรับแก้โจทย์

กลไกหลักสามอย่างของ CTM

CTM เป็นโครงสร้างที่คลี่กิจกรรมประสาทภายในออกไปหลาย tick ระหว่างประมวลผลข้อมูล
ในหนึ่ง internal tick จะรวบรวมประวัติ pre-activation ล่าสุด และ NLMs จะประมวลผลเพื่อสร้าง post-activation
ประวัติ post-activation ตามเวลาใช้คำนวณ synchronization ระหว่างนิวรอน และผลลัพธ์นี้กลายเป็น Synchronization Representation
รายละเอียดทางเทคนิคอยู่ใน Technical Report และมี GitHub repository เผยแพร่แล้ว
Internal ticks: มิติภายในที่ความคิดคลี่คลาย
- CTM นำมิติภายในแบบต่อเนื่องในรูป t ∈ {1, …, T} เข้ามาใช้
- แทนที่จะประมวลผลตามลำดับของข้อมูลเอง เช่น คำหรือเฟรม แบบ RNN หรือ Transformer โมเดลทำงานตาม internal ticks ที่สร้างขึ้นเอง
- การคลี่ภายในนี้ทำให้สามารถสร้างและปรับแต่ง representation ซ้ำ ๆ ได้ แม้กับข้อมูลที่เป็น static หรือไม่เป็นลำดับอย่างภาพหรือเขาวงกต
- เดโมเขาวงกตแบบ interactive ที่ด้านบนของหน้าใช้ 75 ticks
Recurrent weights และ neuron-level models
- synapse model ของ CTM เป็น recurrent MLP รูปแบบ U-NET และสร้าง pre-activation ในแต่ละ tick
- pre-activation ล่าสุดจำนวน M ค่าจะถูกรวมเป็นประวัติอินพุตของแต่ละนิวรอน
- นิวรอนแต่ละตัว d ประมวลผลประวัติ pre-activation ของตัวเองด้วย private MLP ที่มีพารามิเตอร์เฉพาะ θd และสร้าง post-activation
- post-activation ของนิวรอนทั้งหมดถูกผสานกับ attention output แล้วป้อนเข้าสู่การคำนวณ recurrent ของ tick ถัดไป
Synchronization representation
- CTM ถูกออกแบบให้บริโภคอินพุตและสร้างเอาต์พุตตาม พลวัตของกิจกรรมนิวรอน ตามเวลา ไม่ใช่ snapshot สถานะนิวรอน ณ ช่วงเวลาใดช่วงเวลาหนึ่ง
- คำนวณ synchronization matrix ระหว่างนิวรอนด้วยผลคูณภายใน St = Zt · (Zt)^T ของประวัติ post-activation Zt
- เนื่องจากเมทริกซ์นี้โตขึ้นเป็น O(D²) ในการใช้งานจริงจึงสุ่มตัวอย่างย่อยคู่ของนิวรอน (i, j) เพื่อสร้าง representation Sout และ Saction
- Sout ถูกฉายไปยัง output space เพื่อสร้างการทำนายอย่าง logits ส่วน Saction ใช้สำหรับการกระทำเพื่อการสังเกต เช่น attention query
- เมื่อความกว้างโมเดล D เพิ่มขึ้น synchronization representation ที่เป็นไปได้จะโตในระดับ D × (D+1) / 2
วิธีป้อนข้อมูล
- ข้อมูลถูกสังเกตด้วย attention ในแต่ละ internal tick โดยอิงกับ synchronization ปัจจุบัน
- การทดลองส่วนใหญ่ใช้ cross attention มาตรฐาน
- FeatureExtractor สร้าง local features จากข้อมูลเพื่อใช้เป็น key และ value แล้ว query ที่ฉายมาจาก synchronization จะไปค้นหา
- attention output ใช้ร่วมกับ post-activation ในรอบ recurrence ถัดไป

training loss: ปรับให้เหมาะสมตลอด internal ticks

CTM สร้างเอาต์พุตในทุก internal tick
คำนวณ loss มาตรฐาน เช่น cross-entropy สำหรับการทำนายของแต่ละ tick และคำนวณ certainty เป็น 1 - normalized entropy
loss สุดท้ายเลือกสอง tick แบบไดนามิกแล้วนำมาเฉลี่ย
- tick ที่ loss ต่ำสุด t1 = argmin(L)
- tick ที่ความมั่นใจสูงสุด t2 = argmax(C)
วิธีนี้ไม่พึ่งพาเพียง step สุดท้าย ทำให้เกิดการคำนวณที่มีความหมายในหลาย internal ticks
การออกแบบ loss สร้างผลแบบ curriculum ได้อย่างเป็นธรรมชาติ และทำให้ปรับปริมาณการคำนวณตามความยากของปัญหาได้

การทดลอง ImageNet

เป้าหมายของการทดลอง ImageNet ไม่ใช่การสร้าง state-of-the-art ใหม่ แต่เพื่อแสดง วิธีที่ CTM โต้ตอบกับข้อมูล
CTM สร้างการทำนายสะสมขณะสังเกตภาพ และใช้ neural synchronization เป็น representation โดยตรงในกระบวนการนี้
สามารถหยุด internal steps กลางคันได้ จึงทำ adaptive compute ได้
- หลังจากจุดหนึ่ง ความแม่นยำเพิ่มขึ้นเล็กน้อย แต่ยังมีประโยชน์เพิ่มเติมอยู่
เดโมแสดง attention weights ของ attention heads 16 หัว, การทำนายคลาส และ certainty ตามเวลา
กิจกรรมประสาทถูกแสดงภาพ 2D ด้วยการฉาย UMAP โดยนิวรอนแต่ละตัวแสดงเป็นจุด ขนาดบอกค่าสัมบูรณ์ ส่วนสีบอกเครื่องหมายและขนาดของค่า

การทดลองเขาวงกต 2D

การแก้เขาวงกตถูกตั้งเป็นโจทย์ที่โมเดลต้องสร้างเส้นทางจากจุดเริ่มไปยังจุดหมายทีละขั้น
CTM ถูกฝึกให้ทำนายเส้นทางโดยตรงเป็นลำดับขั้น L/R/U/D/W ไม่ใช่เป็นภาพ
ด้านบนของหน้ามีเดโม interactive เวอร์ชันเล็ก และมีเดโมของโมเดลที่ใหญ่กว่าด้วย
เดโมแสดงกระบวนการสร้างเส้นทางตลอด 75 internal ticks และการทำนายที่ทะลุกำแพงจะถูกตัดออกจากการแสดงเส้นทางที่ถูกต้อง
แสดงทั้งน้ำหนักของ attention heads 16 หัวและ attention เฉลี่ย ทำให้เห็นว่าโมเดลโฟกัสที่ใด
การ generalize และ world model
- นำ CTM ที่ฝึกให้แก้เส้นทางยาวสูงสุด 100 ในเขาวงกต 39×39 ไปใช้กับเขาวงกต 99×99 ที่ใหญ่กว่า
- เส้นทางเต็มของเขาวงกตตัวอย่างยาวกว่าสภาพการฝึกราว 6 เท่า
- CTM ไม่ได้ใช้ position embedding และต้องทำนายเส้นทางโดยตรงเป็นสตริงคลาส
- เพราะไม่มี position embedding CTM จึงต้องสร้าง internal world model เพื่อ query ข้อมูลและสำรวจเขาวงกต
- นักวิจัยระบุว่าอยากดูว่า CTM จะหาทางได้อย่างไรในสภาพแวดล้อมที่ซับซ้อนกว่า เช่น เกมหรือวิดีโอ โดยไม่มี explicit position encoding

การทดลอง Parity

parity task ถูกจัดเป็นโจทย์ทำนาย parity สะสมของลำดับไบนารีในแต่ละตำแหน่งจาก 64 ตำแหน่ง
binary vector ความยาว 64 ทั้งหมดถูกให้มาพร้อมกัน จึงเป็นการตั้งค่าที่ยากกว่าอินพุตลำดับแบบง่าย
CTM ถูกฝึกโดยเปลี่ยนจำนวน internal ticks และเปรียบเทียบกับ LSTM ที่ปรับจำนวนพารามิเตอร์ให้ใกล้กัน
CTM ที่มากกว่า 75 internal ticks สามารถแก้โจทย์นี้ได้อย่างเสถียร และบางรันถึงความแม่นยำ 100%
LSTM เริ่มเรียนรู้ได้ยากเมื่อเกิน 10 internal ticks และให้ผลลัพธ์ว่าไม่เหมาะกับการคลี่มิติความคิดภายใน
ในเดโมพบพฤติกรรมที่ตีความได้ เช่น attention heads บางหัวไล่ดูข้อมูล จากด้านหลังไปด้านหน้า และ attention head ตัวแรก attend เฉพาะตำแหน่ง negative parity
ตัวอย่าง CTM สองตัวเรียนรู้กลยุทธ์ต่างกัน
- ตัวหนึ่ง attend ข้อมูลแบบย้อนลำดับ แล้วทำนาย parity สะสมทั้งหมดในครั้งเดียว
- อีกตัว attend ไปข้างหน้าและทำนาย parity แบบค่อยเป็นค่อยไป
- ทั้งสองถึงความแม่นยำสมบูรณ์

การทดลอง Q&A MNIST

Q&A MNIST เป็นโจทย์สำหรับประเมินความสามารถด้านความจำและการเรียกคืนของ CTM
โมเดลดูลำดับ MNIST digit ก่อน จากนั้นได้รับ index และ operator embedding ที่ระบุว่าจะเรียกคืน digit ใดและใช้ modular operation ใด
หลังจากแสดง digit ทั้งหมดและ index/operator embedding แล้ว zero-tensor flag จะสั่งให้สร้างคำตอบสุดท้าย
ในการทดลอง memory length ของ CTM ถูกตั้งให้ MNIST digit อยู่นอก activation history window ของ neuron-level models
ดังนั้น CTM ต้องจัดระเบียบ activation เพื่อรักษาข้อมูลไว้ หากต้องการเรียกคืน digit ในภายหลัง
ผลลัพธ์และการ generalize
- LSTM มีประสิทธิภาพสูงกว่า CTM เมื่อมี internal tick หนึ่งครั้งต่อ input แต่จะไม่เสถียรมากขึ้นเมื่อ internal ticks เพิ่มขึ้น
- CTM แข็งแกร่งขึ้นเมื่อ internal ticks เพิ่มขึ้น และทำความแม่นยำได้ มากกว่า 95% ใน in-distribution task ที่ยากที่สุด
- CTM สามารถเรียกคืนค่า digit ที่เห็นใน timestep เก่าได้ และสิ่งนี้ตีความว่าเป็นผลจากการจัดระเบียบและ synchronization ของนิวรอน
- ในการทดลอง generalization วัดความแม่นยำเมื่อมีจำนวน digits หรือ index-operator embeddings มากกว่าตอนฝึก
- ทั้ง CTM และ LSTM baseline สามารถ generalize ต่อจำนวน operation ที่เพิ่มขึ้นได้
- จากผลเชิง empirical เมื่อมี index embedding ใหม่ถูกนำเสนอ โมเดลจะคำนวณและบันทึกผลของ operation ที่ระบุไว้ จึงประมวลผลต่อเนื่องได้โดยไม่ต้องรอ final answer flag
- CTM มีประสิทธิภาพเพิ่มขึ้นเมื่อ internal ticks มากขึ้น ส่วน LSTM แสดงแนวโน้มตรงกันข้าม

การทดลองเพิ่มเติม

CIFAR-10: เปรียบเทียบกับมนุษย์, feed-forward และ LSTM
- การทดลอง CIFAR-10 เป็นการตั้งค่าเพื่อเปรียบเทียบ CTM กับ human performance, feed-forward baseline และ LSTM baseline
- ใช้ backbone ที่จำกัดเพื่อให้เห็นความแตกต่าง
- ใช้ CIFAR-10D และ CIFAR-10H เป็นชุดข้อมูล label จากมนุษย์
- CIFAR-10D เกี่ยวข้องกับการปรับระดับความยาก
- CIFAR-10H เป็นชุดข้อมูลที่ใช้วัดปริมาณความไม่แน่นอนของมนุษย์
- CIFAR-10D อยู่ที่ นี่, CIFAR-10H อยู่ที่ นี่
- การคำนวณ calibration ใช้ความน่าจะเป็นจาก CIFAR-10H และ CTM แสดง calibration ที่ดีที่สุดแม้เมื่อเทียบกับมนุษย์
- กิจกรรมประสาทของ CTM มีความสมบูรณ์ หลากหลาย และแสดงพลวัตซับซ้อน โดยเกิด periodic behavior ได้แม้ไม่มี periodic driving function
- ความแตกต่างของกิจกรรมประสาทระหว่าง CTM กับ LSTM เป็นหลักฐานว่า neuron-level models และ synchronization representation ทำให้พลวัตประสาทเป็นกลไกคำนวณได้
CIFAR-100 ablation
- ในการทดลอง CIFAR-100 เปลี่ยนจำนวนนิวรอน หรือความกว้างของโมเดล โดยตรึงเงื่อนไขอื่นและเวลาเรียนรู้ไว้
- เครือข่ายที่กว้างขึ้นอาจต้องใช้เวลาฝึกนานขึ้นหรือ hyper-parameters ต่างออกไป จึงพบความแม่นยำลดลงบางส่วน
- เพื่อดูว่า neuron-level models มีความเฉพาะตัวมากเพียงใด จึงวัด cosine similarity ของพลวัตระหว่างนิวรอน
- พบว่าเมื่อความกว้างโมเดลเพิ่มขึ้น ความหลากหลายระหว่างนิวรอนไม่ได้ลดลง แต่กลับเพิ่มขึ้น
- ยังวิเคราะห์ความสัมพันธ์ระหว่างจำนวน internal ticks กับการทำนายด้วย
- ตรวจดูการกระจายของ step ที่ CTM มั่นใจที่สุดใน setting 25, 50, 100 internal ticks
- ในแต่ละ setting พบพื้นที่กระจุกตัวสองแห่ง และตีความว่า CTM ทำตามกระบวนการภายในที่แตกต่างกันตามข้อมูล
การเรียงลำดับจำนวนจริง
- CTM ถูกฝึกให้เรียงลำดับจำนวนจริง 30 ค่า ที่มาจาก N(0, I30)
- เป้าหมายคือดูว่า CTM ใช้การคำนวณมากหรือน้อยเมื่อใดในสภาพแวดล้อมที่ควบคุมได้ และตรวจสอบว่าสามารถเรียนรู้เอาต์พุตแบบลำดับด้วย CTC loss ได้หรือไม่
- CTM นี้สามารถเรียงลำดับลิสต์จำนวนจริงความยาว 30 ได้ด้วยความน่าจะเป็นประมาณ 80%
Reinforcement learning
- CTM ไม่เพียงใช้ continuous thought dimension เพื่อประมวลผลข้อมูลที่ไม่เป็นลำดับ แต่ยังถูกนำไปใช้กับโจทย์ที่มีปฏิสัมพันธ์กับสภาพแวดล้อมภายนอกด้วย
- ฝึก navigation task และรูปแบบดัดแปลงของ partially observable CartPole, Acrobot ด้วย proximal policy optimization
- ใน setting นี้ CTM รับ observation แล้วประมวลผลด้วย internal thought steps จำนวนคงที่ ก่อนส่ง action ถัดไป
- activation history ถูกคงไว้อย่างต่อเนื่องระหว่าง environment steps ทำให้ activation จาก environment step ในอดีตมีผลต่อการตัดสินใจปัจจุบันได้
- ผลลัพธ์คือ CTM ทำประสิทธิภาพได้เทียบเคียงกับ LSTM baseline และแสดงว่าสามารถเรียนรู้ใน continuous environment ได้

สรุปและข้อจำกัด

CTM แทนที่ pointwise activation function ด้วย private neuron-level models เพื่อสร้างพลวัตนิวรอนที่สมบูรณ์ขึ้น และใช้ neural synchronization เป็น representation ใหม่ แทน activation vector
แนวทางนี้ทำให้เกิดการสร้าง representation ตามเวลาในการจำแนกภาพ, attention ในเขาวงกตและการสร้างแผนที่ภายในโดยไม่มี position embedding, adaptive computation, และการจัดเก็บ/เรียกคืนความจำนอก activation history
สถาปัตยกรรม CTM หลักโดยทั่วไปยังคงเดิมในงานหลากหลาย และส่วนใหญ่ต้องปรับเพียงโมดูลอินพุต/เอาต์พุต
ในสถานการณ์ซับซ้อนอย่างการสำรวจเขาวงกต CTM ทำงานได้ด้วยการจูนเพียงเล็กน้อย ขณะที่ LSTM ยังประสบความยากลำบากแม้หลังจูนอย่างมาก
CTM ไม่ใช่โมเดลที่พยายามจำลองนิวรอนชีวภาพอย่างเคร่งครัดตามตัวอักษร
- นิวรอนจริงอาจไม่ได้เข้าถึง activation history แบบ CTM
- อย่างไรก็ตาม emergent phenomena อย่าง traveling waves ก็ปรากฏขึ้น
CTM เป็นแนวทางที่ยืมแนวคิดจากชีววิทยาเพื่อประนีประนอมระหว่างความใช้งานได้จริงกับแรงบันดาลใจทางชีวภาพ และอาจเป็นทิศทางวิจัยที่เปิดความสามารถซึ่ง AI ปัจจุบันยังขาดอยู่

เครื่องจักรแห่งความคิดต่อเนื่อง

ปัญหาที่ CTM มุ่งแก้

โมเดล reasoning และ recurrence

กลไกหลักสามอย่างของ CTM

Internal ticks: มิติภายในที่ความคิดคลี่คลาย

Recurrent weights และ neuron-level models

Synchronization representation

วิธีป้อนข้อมูล

training loss: ปรับให้เหมาะสมตลอด internal ticks

การทดลอง ImageNet

การทดลองเขาวงกต 2D

การ generalize และ world model

การทดลอง Parity

การทดลอง Q&A MNIST

ผลลัพธ์และการ generalize

การทดลองเพิ่มเติม

CIFAR-10: เปรียบเทียบกับมนุษย์, feed-forward และ LSTM

CIFAR-100 ablation

การเรียงลำดับจำนวนจริง

Reinforcement learning

สรุปและข้อจำกัด

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น