2 คะแนน โดย GN⁺ 2025-05-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • นักวิจัยชี้ว่าเซลล์ประสาทในสมองใช้จังหวะเวลาและการซิงโครไนซ์ในการคำนวณ ซึ่งเป็นแกนสำคัญที่ AI ยุคใหม่มองข้าม
  • ได้นำเสนอสถาปัตยกรรม Continuous Thought Machine(CTM) เพื่อผสาน พลวัตของระบบประสาทที่อิงเวลา ของสมองสัตว์เข้ากับโมเดลจริง
  • CTM ประมวลผลข้อมูลโดยใช้มิติความคิดภายในแบบอะซิงโครนัส โมเดลระดับนิวรอนรายตัว และการแทนค่าการซิงโครไนซ์ระหว่างนิวรอน
  • ในการทดลองหลากหลายรูปแบบ พบว่า CTM มี ความสามารถในการคำนวณแบบปรับตัวได้ ความจำที่อาศัยการซิงโครไนซ์ของระบบประสาท และความสามารถในการทำให้เป็นทั่วไปที่แข็งแกร่ง
  • มีการพิสูจน์ให้เห็นถึง ความง่ายต่อการตีความ ความสมเหตุสมผลทางชีววิทยา และความเหมาะสมกับงานที่หลากหลายของสถาปัตยกรรม CTM

tl;dr

  • คุณลักษณะด้าน จังหวะเวลาและการซิงโครไนซ์ ที่นิวรอนในสมองใช้ในการคำนวณ คือหัวใจของ ความยืดหยุ่น และความสามารถในการปรับตัวของสติปัญญาทางชีวภาพ
  • AI ยุคใหม่กำลังละทิ้ง คุณลักษณะที่อิงเวลาเหล่านี้ เพื่อแลกกับประสิทธิภาพและความเรียบง่าย
  • ทีมวิจัยได้ค้นพบแนวทางที่ช่วยลดช่องว่างระหว่างความสมเหตุสมผลทางชีววิทยาซึ่ง จังหวะเวลาของนิวรอน มีความสำคัญ กับการนำไปใช้งานอย่างมีประสิทธิภาพใน AI สมัยใหม่
  • ผลลัพธ์นี้แสดงให้เห็นว่าแนวทางดังกล่าว น่าประหลาดใจและมีอนาคตอย่างมาก

Introduction

  • Neural Network (NN) เดิมได้รับแรงบันดาลใจจากสมองชีวภาพ แต่ NN ในปัจจุบันมี โครงสร้าง และพลวัตที่ ต่างจากสมองจริงอย่างมาก
  • NN สมัยใหม่ทำให้การทำ deep learning ขนาดใหญ่เป็นไปได้ด้วยการ ตัดทอนพลวัตตามเวลาออกไป แต่ก็ทำให้ห่างไกลจากพื้นฐานทางชีววิทยา
  • สมองใช้พลวัตของระบบประสาทที่ซับซ้อน เช่น spike timing dependent plasticity(STDP) และการซิงโครไนซ์ของนิวรอน
  • หลักการประมวลผลเชิงเวลานี้ ยังขาดหายไปใน AI ยุคใหม่ และเป็นอุปสรรคต่อการพัฒนาไปสู่สติปัญญาที่ยืดหยุ่นในระดับมนุษย์
  • ดังนั้น ความสามารถในการประมวลผลตามเวลา ควรเป็นองค์ประกอบหลักของปัญญาประดิษฐ์

Why do this research?

  • แม้ AI สมัยใหม่จะมีประสิทธิภาพสูง แต่ก็ยังมี ความแตกต่างเชิงสาระสำคัญจากการรับรู้ที่ยืดหยุ่นและความเป็นทั่วไปแบบมนุษย์
  • หากปัญญาประดิษฐ์ต้องการบรรลุสิ่งที่เหนือกว่าสมองมนุษย์ ก็จำเป็นต้องจำลอง กิจกรรมของระบบประสาทและจังหวะเวลา อย่างจริงจัง
  • งานวิจัยนี้ได้นำ Continuous Thought Machine(CTM) มาใช้เพื่อใส่ จังหวะเวลาของนิวรอน เข้าไปเป็น องค์ประกอบหลัก
  • ผลงานสำคัญคือการแยกมิติความคิดภายใน โมเดลระบบประสาทระดับนิวรอนรายตัว และ โครงสร้างการแทนค่าที่อิงการซิงโครไนซ์

Reasoning models and recurrence

  • AI กำลังพัฒนาออกจากการแมปอินพุต-เอาต์พุตแบบง่าย ไปสู่ โมเดลการให้เหตุผล ที่ทำงานเชิงรุกมากขึ้น
  • โครงสร้างวนซ้ำตระกูล RNN เดิมถูกแทนที่ด้วย Transformer ในช่วงหลัง แต่ ความเป็นวนซ้ำเองยังมีประโยชน์ต่อการขยายความซับซ้อนของโมเดล
  • โมเดลสร้างข้อความสมัยใหม่และโมเดลอื่น ๆ ใช้การสร้างผลลัพธ์ขั้นกลาง(Recurrence) ใน test time ซึ่งช่วยเพิ่มการคำนวณและความยืดหยุ่น
  • CTM แตกต่างจากแนวทางเดิม โดยใช้มิติความคิดแบบค่อยเป็นค่อยไปที่แยกอยู่ภายใน จังหวะเวลาในระดับนิวรอนรายตัว และการซิงโครไนซ์เองเป็นการแทนค่าสำหรับการแก้ปัญหา

Method

โครงสร้างโดยรวม

  • CTM เป็นโครงสร้างที่กิจกรรมของระบบประสาทคลี่ตัวภายในเมื่อรับข้อมูล
  • ในแต่ละขั้นจะเก็บประวัติของ pre-activation แล้วป้อนเข้าสู่ Neuron Level Model(NLM)
  • จากประวัติ post-activation ของนิวรอนหลายตัว จะคำนวณ เมทริกซ์การซิงโครไนซ์ของนิวรอน เพื่อสร้าง การแทนค่าการซิงโครไนซ์ ที่ทรงพลัง
  • การแทนค่าการซิงโครไนซ์ถูกใช้เป็น เวกเตอร์แฝงหลักสำหรับการสังเกตและการพยากรณ์ของโมเดล

โครงสร้างรายละเอียด

1. Internal recurrence(การวนซ้ำภายใน)

  • ใช้มิติการวนซ้ำภายในเพื่อสร้างมิติแยกต่างหากที่ ความคิดดำเนินไป
  • แต่ละ internal tick ทำงานเป็น หน่วยความคิดของตัวเอง โดยไม่ขึ้นกับข้อมูลอนุกรมเวลาภายนอก

2. Neuron-level models(โมเดลระดับนิวรอน)

  • นิวรอนแต่ละตัวมี โครงสร้าง MLP เฉพาะตัว และรับประวัติระยะสั้นของ pre-activation เพื่อสร้าง post-activation

3. Synchronization as representation(การแทนค่าด้วยการซิงโครไนซ์)

  • คำนวณ เมทริกซ์การซิงโครไนซ์ของนิวรอน จาก post-activation ทั้งหมดภายในช่วงเวลาหนึ่ง และใช้สิ่งนี้เป็น การแทนค่าแฝงหลัก/เวกเตอร์พฤติกรรม

ความสัมพันธ์กับข้อมูลอินพุต

  • ข้อมูลถูกใช้ในลักษณะเสริมกันกับการประมวลผลที่เน้น การวนซ้ำภายในและการซิงโครไนซ์
  • มีการ สังเกตและพยากรณ์ข้อมูลอินพุตตามสถานะการซิงโครไนซ์

Internal ticks: มิติของความคิด

  • CTM มีไทม์ไลน์ความคิดของตัวเอง และทำการอัปเดตกับขัดเกลาข้อมูลซ้ำ ๆ ภายใน โดยไม่ขึ้นกับลำดับข้อมูล
  • ในมิตินี้เองที่ การดำเนินของกิจกรรมอันชาญฉลาด เกิดขึ้น

Recurrent weights: Synapses

  • ใช้ U-NET สไตล์ MLP เพื่อสร้าง pre-activation และเก็บค่าล่าสุดไว้ M ค่า
  • นิวรอนแต่ละตัวรับเวกเตอร์ประวัติ(อนุกรมเวลา pre-activation) ผ่าน MLP เฉพาะตัว เพื่อสร้าง post-activation

Synchronization as a representation

  • โมเดลโต้ตอบกับโลกภายนอกผ่าน เมทริกซ์การซิงโครไนซ์ระหว่างนิวรอน
  • ค่าการซิงโครไนซ์ถูกนำไปใช้โดยตรงกับตัวชี้วัดพฤติกรรมจริง เช่น เอาต์พุต การสังเกต และ attention query
  • เมื่อความกว้างของโมเดล D เพิ่มขึ้น จะมีลักษณะเด่นคือ พลังในการแทนค่าและปริมาณข้อมูลเพิ่มขึ้นแบบกำลังสอง
  • เมื่อรวมกับโมดูลข้อมูลอินพุตอย่าง attention ก็แสดง ความสามารถในการประมวลผลข้อมูลที่ทรงพลังยิ่งขึ้น

Loss function

  • ในแต่ละ internal tick โมเดลจะสร้างเอาต์พุต และคำนวณ loss กับระดับความมั่นใจ(1-entropy ที่ถูกทำ normalization) ที่สอดคล้องกัน
  • loss รวมจะถูกรวมแบบไดนามิกจาก ช่วงที่ loss ต่ำสุดและช่วงที่ความมั่นใจสูงสุด เพื่อกระตุ้น การเรียนรู้แบบปรับตัวตามความยากของปัญหา

Experiment: ImageNet

Demonstrations

  • CTM ใช้ attention head ที่หลากหลายและการซิงโครไนซ์ของระบบประสาท เพื่อทำนายข้อมูลภาพ
  • มีการแสดงภาพของ ความแม่นยำ calibration และตัวชี้วัดหลากหลายตามเกณฑ์ความมั่นใจ

Results

  • CTM ปรับจำนวนขั้นของความคิดผ่าน adaptive compute และพบว่าหลังจากระดับหนึ่งแล้ว ประโยชน์เพิ่มเติมมีเพียงเล็กน้อย
  • มีการแสดงภาพร่วมกันของ 16 attention head การพยากรณ์คลาส/ความแม่นยำในแต่ละขั้น และ neuron activity

Discussion

  • CTM เน้น ปฏิสัมพันธ์กับข้อมูลที่เป็นธรรมชาติและยืดหยุ่น
  • ด้วย การแทนค่าที่อิงการซิงโครไนซ์ของนิวรอน จึงแตกต่างจากแนวทางเดิมอย่างชัดเจนแม้ในงานการรับรู้ภาพ
  • สิ่งนี้ชี้ว่าองค์ประกอบของ เวลา(TIME) เชื่อมโยงอย่างลึกซึ้งกับวิธีที่มนุษย์ประมวลผลข้อมูล

Experiment: Solving 2D Mazes

The why and the how

  • การแก้เขาวงกต 2D เป็น งานที่ยากมากสำหรับโมเดลโครงข่ายประสาทหากไม่มีเครื่องมือช่วย
  • CTM ถูกฝึกด้วยวิธี ทำนายเส้นทางโดยตรง (L/R/U/D/W) และรูปแบบ attention ก็สอดคล้องกับเส้นทางจริงอย่างจงใจ
  • ใน การทดสอบการทำให้เป็นทั่วไป CTM สามารถแก้เขาวงกตที่ซับซ้อนและยาวได้ด้วยความแม่นยำและความสามารถในการทำให้เป็นทั่วไปที่สูง

Results & Discussion

  • CTM แสดง ประสิทธิภาพเหนือกว่า baseline เดิมอย่างถล่มทลาย แม้ในเส้นทางที่ยาวที่สุด
  • มันสร้าง world model ภายในเชิงกลยุทธ์ที่คล้ายมนุษย์ แสดงว่าไม่ได้อาศัยการท่องจำ แต่มีความสามารถด้าน reasoning จริง

A World Model

  • แม้ไม่มี position encoding ก็ยังสร้าง โมเดลสภาพแวดล้อมภายในจากข้อมูลภาพเพียงอย่างเดียว เพื่อแก้ปัญหาได้

Experiment: Parity

  • ฝึกให้ทำนาย parity แบบซ้อนของลำดับไบนารี (ผลรวมคู่/คี่) ภายใต้เงื่อนไขที่ให้ข้อมูลอินพุตทั้งหมด
  • เมื่อใช้ internal thought tick มากกว่า 75 ขั้น CTM สามารถทำความแม่นยำได้ถึง 100%
  • LSTM มีความไม่เสถียรในการเรียนรู้เมื่อจำนวน internal thought tick มากขึ้น

Learning sequential algorithms

  • จาก การเคลื่อนไหวของ attention head และรูปแบบการกระตุ้นของนิวรอน พบว่า CTM เรียนรู้กลยุทธ์การไล่ข้อมูลย้อนกลับ/เดินหน้าด้วยตัวเอง
  • นี่เป็นหลักฐานของความสามารถด้าน การวางแผนเชิงกลยุทธ์(Planning) และการดำเนินงานเป็นขั้นตอน

Experiment: Q&A MNIST

Memory via Synchronization

  • ใช้ งาน MNIST Q&A เพื่อทดสอบความสามารถด้านความจำระยะยาว/การดึงคืนของ CTM
  • แม้ภาพอินพุตจะหลุดพ้นจากหน้าต่างประวัติกิจกรรมของนิวรอนแล้ว ก็ยังเก็บและดึงคืน ข้อมูลความจำระยะยาวผ่านการซิงโครไนซ์ ได้

Results & Generalization

  • ประสิทธิภาพดีขึ้นเมื่อจำนวน internal thought tick เพิ่มขึ้น และมี ความสามารถในการทำให้เป็นทั่วไปยอดเยี่ยม ต่อคำถามที่ซับซ้อนและความยาวที่มากขึ้น
  • LSTM ไม่เสถียรเมื่อมี tick มากขึ้น ขณะที่ CTM เรียนรู้และอนุมานได้อย่างสม่ำเสมอ

Additional experiments

CTM versus humans

  • เปรียบเทียบประสิทธิภาพของ มนุษย์ ฟีดฟอร์เวิร์ด LSTM และ CTM บน CIFAR-10
  • ในด้าน Calibration (ความสอดคล้องของการพยากรณ์ความน่าจะเป็น) CTM ทำได้ดีกว่ามนุษย์
  • พลวัตของการซิงโครไนซ์ทางประสาทแสดง ลักษณะภายในที่หลากหลายและซับซ้อนมาก ต่างจากแนวทางเดิม

CIFAR-100, ablation studies

  • ยิ่งโมเดลมีความกว้างมากขึ้น ก็ยิ่งเห็น ความหลากหลาย/พลวัตของนิวรอนเพิ่มขึ้น
  • ตามจำนวน internal tick จะเผยให้เห็น กระบวนการคิดภายในที่แตกต่างกันไปตามโจทย์ (การกระจายแบบ ‘สองยอด’)

Sorting real numbers

  • ในการทดลองจัดเรียงจำนวนจริง 30 ค่า CTM แสดง พฤติกรรม emergent ที่เวลาคำนวณภายใน(จำนวน tick ที่รอ) เปลี่ยนไปตามระยะห่าง/ช่องว่างระหว่างค่า

Reinforcement Learning

  • ในสภาพแวดล้อม RL เช่น MiniGrid, CartPole CTM ใช้หน่วยความคิดต่อเนื่องภายในเพื่อ โต้ตอบกับสภาพแวดล้อมและตัดสินใจนโยบาย
  • ให้ประสิทธิภาพปลายทางใกล้เคียงกับ LSTM และพิสูจน์ ผลของการมีบันทึกความคิดอย่างต่อเนื่อง

Conclusion

  • CTM บรรลุการผสานระหว่างความสมเหตุสมผลทางชีววิทยาและประสิทธิภาพของ AI ด้วยวิธีใหม่
  • ด้วยการนำ โมเดลระดับนิวรอนและวิธีการแทนค่าใหม่ที่อิงการซิงโครไนซ์ของระบบประสาท มาใช้ จึงสร้างความสามารถในการแทนค่าที่ไม่เคยเห็นมาก่อน
  • แสดงให้เห็นถึง ความสม่ำเสมอของสถาปัตยกรรมและความสามารถในการปรับตัวสูง ในงานหลากหลาย เช่น การจำแนกภาพ การแก้เขาวงกต ความจำ การจัดเรียง และ RL
  • เป็นการพิสูจน์ถึง พลังเสริมกันของประสาทวิทยาและแมชชีนเลิร์นนิง รวมถึงความสำคัญของการออกแบบเครื่องจักรแห่งความคิดที่มีเวลาและการซิงโครไนซ์เป็นศูนย์กลาง

1 ความคิดเห็น

 
GN⁺ 2025-05-13
ความคิดเห็นจาก Hacker News
  • เหตุผลที่งานวิจัยนี้น่ากังวลคือ ในสาย machine learning เดิมมีงานเกี่ยวกับ spiking neural network ที่สอดคล้องทางชีววิทยาและ artificial neural network ที่พึ่งพาเวลาอยู่มากแล้ว แต่ถ้อยคำและแนวทางของงานนี้ให้ความรู้สึกว่าไม่ได้ยอมรับงานก่อนหน้าจำนวนมหาศาลนั้นอย่างเหมาะสม โดยเฉพาะการเรียกขั้นตอน synaptic integration ว่า “การคิด (thinking)” ซึ่งอาจทำให้คนสับสนได้ เพราะสำหรับคนทั่วไป การคิดคือกระบวนการวนซ้ำของการสร้าง ประเมิน และแก้ไขไอเดีย แต่งานนี้กลับเอาคำนี้ไปใช้ในระดับกระบวนการของยูนิตเดี่ยว ซึ่งห่างไกลมากจากคำศัพท์เดิมของ ANN หรือ machine learning จึงรู้สึกว่าการใช้คำว่า “การคิด” ไม่ค่อยเหมาะนัก ยังไม่ได้ไล่ดู citation ทั้งหมด นี่เป็นเพียงปฏิกิริยาในทันทีต่อถ้อยคำที่ใช้ในสายงานที่คุ้นเคย

    • ขออภัยด้วย เดิมทีตั้งใจจะตอบคอมเมนต์นี้ แต่ได้ไปเขียนคำตอบแยกไว้ใน parent thread แล้ว ความพยายามของงานนี้ที่จะเลียนแบบ biological spiking network ดูค่อนข้างหลวมมาก และที่จริงแล้วส่วนสำคัญคือการใช้ dot product กับ transpose ของ output matrix ส่วนที่เหลือคือเทคนิค diffusion/attention กับอินพุต เป็นรูปแบบที่รวม input attention และ output attention เข้าด้วยกันจนเป็นโมเดล recursive แบบเป็นชั้นๆ
    • ตลอด 10~20 ปีที่ผ่านมา ดูเหมือนนักวิจัย machine learning ที่ยกเครดิตให้งานด้านประสาทวิทยามักถูกวิจารณ์ว่าเป็นการสร้างภาพ เลยไม่ค่อยแปลกใจเท่าไร
    • งานนี้นำเสนอราวกับเป็นไอเดียใหม่ แต่แทบไม่กล่าวถึงงานวิจัยด้าน spiking neural net หรือสาขาใกล้เคียงที่มีมาหลายทศวรรษ
    • ถ้าแบ่งปันรายชื่อหนังสือหรือบทความวิชาการที่คิดว่าให้มุมมองลึกซึ้งที่สุดเกี่ยวกับแนวคิดและการนำอัลกอริทึมที่ได้แรงบันดาลใจจากชีววิทยาไปใช้ หรือจะเป็นรีวิวสั้นๆ ก็จะขอบคุณมาก
    • ผู้เขียนชี้แจงว่าไม่ได้เรียกการรวมสัญญาณที่ไซแนปส์เดี่ยวว่า “การคิด” แต่ใช้คำนี้กับลูปภายในของทั้งเครือข่ายสำหรับแต่ละอินพุตภายนอก โดยเรียกว่า “internal tick” และระบุไว้อย่างชัดเจนว่าคล้ายกับ “การคิด”
    • สงสัยว่างานนี้เขียนโดย Jürgen Schmidhuber หรือเปล่า
  • ยินดีมากที่ได้เห็นการกลับมาโฟกัสที่หัวข้อสำคัญนี้อีกครั้ง ในบริบทของสมองและร่างกายของสิ่งมีชีวิต เรามักคิดว่า “เวลา” เป็นเวลาแบบนิวตันเชิงเส้น แต่สิ่งสำคัญในระบบสมอง-ร่างกายคือการสร้างลำดับของพฤติกรรมและการคำนวณที่เป็นระเบียบ ภายใน “ปัจจุบัน” หลายชิ้น ตั้งแต่ “presentational present” ระดับ 300ms ไปจนถึงระดับ 50 microsecond ของเซลล์ที่ประเมินตำแหน่งเสียง หากอยากรู้เพิ่มเติมเรื่อง conditional temporality ลองดูบทความล่าสุดใน European Journal of Neuroscience ที่ John Bickle สัมภาษณ์ RW Williams

  • ความเห็นหลังอ่านงานของผมคือ มันแทบไม่เหมือน biological/spiking network เลย ในงานนี้มีการเก็บ history ของอินพุตไว้ และใช้ multi-head attention เพื่อสร้างโมเดลภายในว่าทำไมอินพุต “pre-synaptic” ในอดีตจึงสะท้อนมาที่เอาต์พุตปัจจุบัน โครงสร้างนี้เหมือน transformer ที่ดัดแปลงเล็กน้อย โดยเก็บประวัติอินพุตไว้แล้วใช้ attention สร้างเอาต์พุต สิ่งที่เรียกว่า “synchronization” ก็ได้มาจากการทำ inner product กับ post-activation ทั้งหมด แล้วฉาย projection ของเมทริกซ์ผลลัพธ์นี้ไปยัง output space เนื่องจากต้องคูณเอาต์พุตหลายตัวเข้าด้วยกันเพื่อให้ได้ค่าที่ถูกต้องในแต่ละ timestep ผู้เขียนจึงน่าจะเรียกการจับคู่นี้ว่า “synchronization” มันดูเหมือนการชักนำให้เกิด “sparsity” รูปแบบหนึ่ง โดยรวมค่าเอาต์พุตหลายค่าเป็นเมทริกซ์และเน้นความสำคัญของการผสมผสานมากกว่าความเป็นเอกเทศของแต่ละค่า ซึ่งจริงๆ แล้วก็คือกลไกพื้นฐานของ attention ที่รวมเอาต์พุตจากหลาย subsystem ด้วย inner product

    • จุดอ่อนของงานนี้คือเปรียบเทียบประสิทธิภาพกับแค่ LSTM (โมเดล recurrent แบบง่าย) เท่านั้น ดูเหมือนว่าเพียงใช้ input/output attention หลายชั้นก็น่าจะได้โครงสร้างและประสิทธิภาพใกล้เคียงกัน แม้ transformer จริงจะต่างออกไปเล็กน้อย แต่ก็ไม่ได้ต่างจากโครงสร้าง input attention + unet ที่งานนี้ใช้มากนัก
  • สุดสัปดาห์นี้มีสามเรื่องที่น่าสนใจ: 1) continuous thought machine (โครงข่ายประสาทเข้ารหัสอนุกรมเวลาที่คล้ายสมองชีวภาพ), 2) “zero data reasoning” (AI ที่เรียนรู้จากการลงมือทำโดยตรงแทนการ pretrain ด้วยข้อมูลมหาศาล), 3) Intellect-2 (โครงสร้าง reinforcement learning แบบกระจายทั่วโลก) จากมุมมองคนนอกวงการ รู้สึกเหมือนเข้าใกล้ singularity ไปอีกก้าว

    • ผมไม่รู้สึกไปถึงขนาดนั้น ด้วยจำนวนงานวิจัยมหาศาลและทิศทางการวิจัยที่หลากหลาย ทำให้คาดเดายากมากว่าอะไรจะกลายเป็นความสำเร็จใหญ่แบบ diffusion, transformer, AlphaZero, Chat GPT-3 ถึงจะดูเหมือนความก้าวหน้าแบบก้าวกระโดด แต่จริงๆ แล้วมันเกิดจากการสะสมของงานวิจัยและการลองผิดลองถูกมากมาย หวังว่าความก้าวหน้าทั้งสามอย่างจะเชื่อมกันได้ดี แต่ผมก็ไม่รู้เหมือนกัน
    • คิดว่าไม่ควรให้ความสำคัญกับงานวิจัยรายชิ้นมากเกินไป ในกรณีดีที่สุด มันทำให้มองข้ามงานพื้นฐานจำนวนมาก และในกรณีแย่ที่สุด ก็กลายเป็นการฝากความหวังเกินจริงไว้กับไอเดียเดียว
    • ทั้ง Intellect-2 และ zero data reasoning ต่างก็เป็นสถาปัตยกรรมที่ทำงานบน LLM (ชื่อ “zero data reasoning” เองก็อาจชวนให้เข้าใจผิด) ถ้าอยากเห็นนวัตกรรม LLM ที่แท้จริง ลองดูวิธีที่ InceptionLabs ใช้ diffusion model เพื่อเพิ่ม inference ได้ 16 เท่า ประสิทธิภาพของอัลกอริทึม reinforcement learning แบบอนุกรมเวลาของเรายังห่างจากโมเดล reasoning มาก แม้จะมี AI boom แต่ robotics และ autonomous driving ก็ยังติดคอขวดอยู่ เทคนิคในงานนี้ก็มีศักยภาพ แต่จะดีกว่านี้ถ้ามีใครขัดเกลาคำศัพท์ให้ย่อยง่ายขึ้น ตอนนี้ยังรู้สึกว่ายังอีกไกลกว่าจะได้ AI ที่มีประโยชน์ข้ามหลายสาขา เพราะยิ่งโมเดลใหญ่ก็มักยิ่งหาช่องโหว่ของ reward function ได้เก่ง
    • ถ้าลองรัน implementation ของงานวิจัยจริงๆ บ่อยครั้งผลลัพธ์ก็ไม่ได้ดีเท่าที่บทความโฆษณาไว้ หรือบางทีก็ไม่มีโค้ดให้เลย ถ้าไม่อยากถูกกระแส AI hype พาไป ควรมีนิสัยอ่านผลลัพธ์และข้อจำกัดอย่างละเอียด และถ้ามีโค้ดก็ควรดาวน์โหลดมาลองรัน รวมถึงทดสอบกับอินพุตนอกชุดฝึกด้วย
    • ผมเองก็ไม่ใช่ผู้เชี่ยวชาญ แต่รู้สึกว่ามันคล้ายการบอกว่าเพราะเราประดิษฐ์กล้อง actuator และแบตเตอรี่ได้แล้ว หุ่นยนต์ก็จะครองโลกในไม่ช้า กล่าวคือ นี่ไม่ใช่การกระโดดครั้งใหญ่ แต่เป็นก้าวเล็กแบบ baby step มากกว่า
    • คำวิจารณ์เหล่านี้ไม่ได้ถูกปัดตกง่ายๆ มีคนจำนวนมากอาจไม่เห็นด้วยว่าบทความและโปรเจกต์ที่เป็นที่รู้จักเหล่านี้คือความก้าวหน้าแบบ take-off หรือ AGI ที่พลิกเกม แต่บทความเหล่านี้อาจเป็นตัวแทนของทิศทางการวิจัยที่ใหญ่กว่านั้นก็ได้ ดังนั้นมันจึงให้ความรู้สึกเหมือน “กระต่ายน้อย” ที่กำลังกระโดดจุกจิกไปในทิศทางเดียวกันอย่างต่อเนื่อง จะเรียกช่วงไหนว่าเป็นการกระโดดก็ขึ้นอยู่กับคนมอง แต่ไม่ว่าอย่างไร กระต่ายก็กำลังเคลื่อนไปข้างหน้า
  • การทำให้กลไกการเข้ารหัสเชิงเวลาอย่าง spike timing และ synchronization ใช้งานได้จริงนั้นยากมาก ดังนั้นโครงข่ายประสาทสมัยใหม่จึงมุ่งที่ความเรียบง่ายและประสิทธิภาพเชิงคำนวณมากกว่าพลวัตเชิงเวลา การจำลอง time domain จริงเป็นปัญหาที่ยากมากในมุมฮาร์ดแวร์ด้วย โดยเฉพาะเมื่อมีแกน hyperparameter เพิ่มเข้ามาอีก ทำให้การหาชุดพารามิเตอร์ที่ใช้ได้แทบเป็นไปไม่ได้ การหาโครงสร้างที่มีประสิทธิภาพเชิงคำนวณทำได้เร็วกว่าเยอะ ดังนั้นถ้า spike เกิดขึ้นใน timestep อนาคต ก็จะเกิดโครงสร้าง event คล้าย priority queue และทำให้ปริมาณการคำนวณพุ่งขึ้นมาก เว้นแต่ว่าเป้าหมายคือ “hard realtime interaction” จริงๆ จากมุมมองเชิงปฏิบัติและเชิงผลิตภัณฑ์ ผมไม่คิดว่าการไล่ตามโครงสร้างแบบนี้จะมีความหมายมากนัก แม้ STDP (การเปลี่ยนน้ำหนักตามความต่างของเวลาการยิงสัญญาณ) จะยังน่าดึงดูดมากเพราะทำให้เกิด online unsupervised learning ได้ แต่บนซิลิคอนในระยะสั้นก็ดูยังไม่มีทางออก การใช้ฮาร์ดแวร์เฉพาะทางก็เหมือนเอา hyperparameter บางส่วนไปฝังเป็นค่าคงที่ในโค้ด ซึ่งยากจะรับประกันความแน่นอนและยังทำให้เงินทุนไม่เพียงพอด้วย

    • เช่น ถ้าสถาปัตยกรรม FF (feedforward) ขนาดกลางใช้เวลา 100ms ในการประมวลผลอินพุตหนึ่ง batch แล้วถ้าในโครงสร้าง CTM ใช้ 10ms กับแกน FF และคูณด้วย “tick” ภายใน 10 ครั้งจะเป็นอย่างไร? ตัวเลขอาจคร่าวๆ แต่สุดท้ายมันคือคำถามว่า inductive bias ต่อแกนเวลาแบบชัดแจ้งนั้นมีความหมายจริงหรือไม่ ผมคิดว่าโครงสร้างแบบนั้นอาจเผชิญความยากของการค้นหาไม่ต่างกัน
  • ไอเดียของเครื่องลักษณะนี้ไม่ใช่ของใหม่ทั้งหมด ในบทความปี 2002 มีการเสนอ Liquid State Machines (LSM) ซึ่งป้อนอินพุตต่อเนื่องเข้าไปใน spiking neural network แล้วอ่าน liquid state ผ่าน dense layer ที่เชื่อมกับนิวรอนทั้งเครือข่าย และในบทความปี 2019 ก็มีการใช้ LSM เล่นเกม Atari ซึ่งบางครั้งทำได้ดีกว่ามนุษย์แต่ก็ไม่สม่ำเสมอ และยังพบแนวโน้มการล้มเหลวคล้ายข้อจำกัดของ neural network แบบเดิม ประสิทธิภาพไม่ได้เหนือกว่าโครงข่ายประสาทแบบดั้งเดิมอย่างมีนัยสำคัญ ผมอยากเห็นความสนใจต่อการวิจัย neural network ที่ประมวลผลอินพุตอย่างต่อเนื่องและให้เอาต์พุตอย่างต่อเนื่อง โดยอาศัยเพียงหลัก plasticity ของสมอง (ไม่ใช้ backpropagation) มากกว่านี้ ผมเองก็เคยลองทำ แต่ยังไม่รู้คำตอบที่สมบูรณ์ บางทีอาจเป็นเพราะเรายังไม่เข้าใจการทำงานของสมองดีพอ

  • น่าขำตรงที่หน้าเว็บนี้รีเฟรชอยู่เรื่อยๆ บน firefox iOS

    • บนเบราว์เซอร์ของผมเปิดไม่ขึ้นเลยด้วยซ้ำ
  • หัวใจของโมเดลรุ่นถัดไปน่าจะเป็นหลักการ “neurons that fire together wire together” และผมคิดว่า spiking neural network นำเสนอแนวทางทางเลือกที่น่าสนใจมาก