สถาปัตยกรรม Titans และกรอบงาน MIRAS ช่วยพัฒนา AI ให้มีความจำระยะยาว

(research.google)

9 คะแนน โดย GN⁺ 2025-12-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สถาปัตยกรรม Titans และกรอบงาน MIRAS ถูกออกแบบให้โมเดล AI อัปเดตความจำหลักได้ตลอดเวลาที่ทำงาน และประมวลผลบริบทขนาดใหญ่ได้อย่างรวดเร็ว
Titans ผสานความเร็วของ RNN กับความแม่นยำของ Transformer โดยเก็บข้อมูลที่มีค่า “ความประหลาดใจ (surprise)” สูงไว้ในความจำระยะยาวแบบคัดเลือก
MIRAS ทำหน้าที่เป็นผังการออกแบบเชิงทฤษฎีที่ตีความโมเดลลำดับต่าง ๆ อย่างบูรณาการ โดยจัดระบบโครงสร้างความจำ, อคติ, การลืม และกระบวนการเพิ่มประสิทธิภาพอย่างเป็นระบบ
ผลการทดลองพบว่า Titans และโมเดลดัดแปลงของ MIRAS (YAAD, MONETA, MEMORA) ให้ผลลัพธ์ที่ดีกว่าในด้านการจัดการบริบทยาวและประสิทธิภาพเมื่อเทียบกับโมเดลล่าสุดอย่าง Transformer++ และ Mamba-2
งานวิจัยนี้ชี้ให้เห็นการเปลี่ยนผ่านสู่ยุคโมเดล AI ความจำระยะยาวรุ่นใหม่ โดยการผสาน ประสิทธิภาพของ RNN กับ ความสามารถในการแทนข้อมูลของ Transformer

ภาพรวม Titans และ MIRAS

สถาปัตยกรรม Titans และกรอบงาน MIRAS ถูกออกแบบให้ AI อัปเดตหน่วยความจำแบบเรียลไทม์ขณะทำงาน และจัดการบริบทขนาดใหญ่ได้อย่างมีประสิทธิภาพ
- กลไก การให้ความสนใจ (attention) ของ Transformer แบบดั้งเดิมมีต้นทุนการคำนวณเพิ่มขึ้นอย่างมากตามความยาวของลำดับ
- Titans และ MIRAS ช่วยเอาชนะข้อจำกัดนี้ ทำให้สามารถเข้าใจบริบทยาวและปรับตัวได้แบบเรียลไทม์
Titans เป็นรูปแบบสถาปัตยกรรมโมเดลที่เฉพาะเจาะจง ส่วน MIRAS ทำหน้าที่เป็นแผนผังเชิงทฤษฎีที่ทำให้แนวคิดนี้เป็นรูปแบบทั่วไป
- ทั้งสองระบบพัฒนาความคิดเรื่อง การจดจำในช่วงทดสอบ (test-time memorization) ให้ก้าวหน้า โดยผสานข้อมูลใหม่เข้าไปได้ขณะทำงานโดยไม่ต้องฝึกซ้ำ

Titans: การเรียนรู้บริบทแบบเรียลไทม์

Titans แยก ความจำระยะสั้น (กลไกการให้ความสนใจ) และ ความจำระยะยาว (โมดูลอิงเครือข่ายประสาท) ออกเป็นสองส่วน เพื่อเลียนแบบโครงสร้างความจำของมนุษย์
- โมดูลความจำระยะยาวมีรูปแบบเป็น มัลติเพอร์เซ็ปโทรน (MLP) โดยใช้เครือข่ายประสาทเชิงลึกแทนเวกเตอร์คงที่ ทำให้สรุปข้อมูลได้ละเอียดกว่า
แนวคิดหลักคือ ‘ตัวชี้วัดความประหลาดใจ (surprise metric)’
- หากอินพุตแตกต่างจากความจำเดิมมาก จะถูกตีความว่ามีความประหลาดใจสูง และถูกเก็บเข้าสู่ความจำระยะยาว
- ตัวอย่าง: คำที่คาดการณ์ได้ (‘cat’) มีความประหลาดใจต่ำ, ส่วนอินพุตที่ไม่คาดคิด (‘banana peel’) มีความประหลาดใจสูง
Titans ผสาน โมเมนตัม (momentum) กับ การลืม (weight decay) เข้าด้วยกัน
- โมเมนตัมสะท้อนความต่อเนื่องของบริบทล่าสุด ทำให้ข้อมูลที่เกี่ยวข้องถูกเก็บไว้ด้วยกัน
- การลืมช่วยคัดกรองข้อมูลที่ไม่จำเป็น เพื่อลดขนาดหน่วยความจำและใช้ทรัพยากรได้มีประสิทธิภาพ

MIRAS: มุมมองเชิงบูรณาการของโมเดลลำดับ

MIRAS อธิบายโมเดลลำดับทั้งหมดว่าเป็นระบบ ความจำเชื่อมโยง (associative memory)
- ระบุว่าโมเดลต่าง ๆ ล้วนแก้ปัญหาเดียวกัน คือการผสมผสานข้อมูลใหม่เข้ากับความจำเดิมอย่างมีประสิทธิภาพ
MIRAS กำหนดโมเดลด้วยองค์ประกอบการออกแบบสี่ด้าน
- โครงสร้างความจำ: รูปแบบการเก็บข้อมูล (เวกเตอร์, เมทริกซ์, MLP ฯลฯ)
- อคติการให้ความสนใจ: ตัดสินใจว่าโมเดลจะให้ความสำคัญกับข้อมูลใดก่อน
- เกตการคงความจำ (retention gate): วิธีการทำ regularization เพื่อควบคุมการลืม
- อัลกอริทึมความจำ: วิธีเพิ่มประสิทธิภาพการอัปเดตความจำ
แทนการยึดติดกับข้อจำกัดของโมเดลเดิมที่พึ่งพา ค่าเฉลี่ยกำลังสองของความคลาดเคลื่อน (MSE) หรือ ความคล้ายคลึงเชิงผลคูณภายใน มากเกินไป MIRAS ได้สำรวจฟังก์ชันวัตถุประสงค์และ regularization แบบ ไม่เป็นยูคลิเดียน (non-Euclidean)

โมเดล MIRAS ที่พัฒนาต่อยอด

YAAD: สถาปัตยกรรมที่ใช้ Huber loss ทำให้รับมือข้อผิดพลาดของอินพุตหรือค่าผิดปกติได้ดีขึ้น
MONETA: ใช้เกณฑ์ generalized norms เพื่อรักษาความจำระยะยาวอย่างเสถียร
MEMORA: จำกัดความจำในลักษณะแผนที่ความน่าจะเป็น ช่วยรับประกันการรวมข้อมูลอย่างสมดุล
ทั้งสามโมเดลสามารถทำงานได้ทรงพลังในงานความจำระยะยาว แม้ไม่มีการใช้ attention

ผลการทดลองและประสิทธิภาพ

Titans และโมเดลที่พัฒนาจาก MIRAS ถูกประเมินเปรียบเทียบกับโครงสร้างล่าสุดอย่าง Transformer++, Mamba-2, และ Gated DeltaNet
- ใน language modeling (C4, WikiText) และ zero-shot reasoning (HellaSwag, PIQA) ทำได้ทั้งความแม่นยำสูงขึ้นและ perplexity ต่ำลง
- ใน การจำลอง DNA และ การพยากรณ์อนุกรมเวลา ก็ยืนยันความสามารถในการทั่วไปได้ดี
ความลึกความจำ (Depth) มีผลโดยตรงต่อประสิทธิภาพ
- แม้ขนาดความจำเท่ากัน โครงสร้างที่ลึกยิ่งขึ้นให้ perplexity ต่ำกว่าและความสามารถในการขยายขนาดดีกว่า
ด้านประสิทธิผล Titans รักษาความเร็วการฝึกแบบขนานและการอนุมานเชิงเส้น ทำให้ประมวลผลได้เร็วกว่าโมเดลเดิม
ใน BABILong benchmark Titans ทำได้ดีในการอนุมานบริบทยาวได้เหนือกว่าที่ GPT-4 ทำได้ แม้มีจำนวนนับพารามิเตอร์น้อยกว่า
- จัดการหน้าต่างบริบทได้อย่างมีประสิทธิภาพที่ยาวเกิน 2 ล้านโทเค็น

บทสรุป

Titans และ MIRAS ทลายข้อจำกัดของ สถานะวนซ้ำขนาดคงที่ และเสนอโครงสร้างความจำใหม่ที่เรียนรู้แบบเรียลไทม์ในขณะรับข้อมูล
MIRAS มอบกรอบทฤษฎีที่ทรงพลังโดยผสาน การเพิ่มประสิทธิภาพออนไลน์, ความจำเชื่อมโยง และการออกแบบสถาปัตยกรรม เข้าด้วยกัน
ผ่าน ปริมาณการออกแบบที่ไม่เป็นยูคลิเดียน ระบบได้วางรากฐานสำหรับยุคโมเดล AI ความจำระยะยาวที่ผสานความคล่องตัวของ RNN และความสามารถในการแทนข้อมูลของ Transformer

1 ความคิดเห็น

GN⁺ 2025-12-08

ความเห็นจาก Hacker News

แนะนำงานวิจัย Titans: Learning to Memorize at Test Time
ต้นฉบับอยู่ที่ ลิงก์ arXiv
- สงสัยว่าจะมีบริษัทอื่นที่ เปิดเผยงานวิจัย AI ในระดับนี้แบบ Google หรือไม่
  งานวิจัยที่เกี่ยวข้องดูได้จาก ฉบับแรก และ ฉบับที่สอง คิดว่า Google สมควรได้รับ ความเชื่อถือ มากจากความโปร่งใสแบบนี้
  - บริษัทจีนอย่าง DeepSeek ก็เผยแพร่งานวิจัยอย่างคึกคัก และยังพิสูจน์ได้จริงผ่าน open model
    งานวิจัยจากแล็บใหญ่ในสหรัฐฯ มักห่างจากประสิทธิภาพในการใช้งานจริง โดยยก งานนี้ และ งานนี้ เป็นตัวอย่างของ DeepSeek
  - การเปิดเผยงานวิจัยเป็นเรื่องดี แต่ผ่านไป 11 เดือนแล้วก็ยังไม่สามารถดาวน์โหลด โค้ดโมเดลหรือค่าน้ำหนัก ของสถาปัตยกรรม Titans ได้
    Meta, Qwen และ DeepSeek นำหน้าไปไกลกว่ามาก ตอนนี้ที่มีให้ใช้ได้มีเพียง implementation อย่างไม่เป็นทางการ
  - Bytedance เองก็ออกงานวิจัยอย่างจริงจังมาก
    โครงการที่ประทับใจล่าสุดคือ lumine และได้แชร์ ลิงก์งานวิจัย กับ หน้า research อย่างเป็นทางการ
  - Meta เองก็ แบ่งปันงานวิจัยอย่างเปิดเผย เช่นกัน และช่วงหลังบริษัทจีนก็ดูจะไปในทิศทางคล้ายกัน
  - 80% ของ ecosystem นี้สร้างอยู่บนงานวิจัยที่หลายบริษัทและบุคคลเปิดเผยไว้แล้ว
    จึงไม่คิดว่า Google มีเหตุผลพิเศษที่จะได้รับเครดิตมากกว่าคนอื่น
มีการเล่นมุกว่า “ในที่สุดเราก็สร้าง ‘Torment Nexus’ ได้แล้ว”
โดยพูดถึงว่าในจักรวาล Eclipse Phase นั้น TITAN คือ เครือข่าย AI ที่ทำลายมนุษยชาติ
แก่นของสถาปัตยกรรม Titans คือใช้ สัญญาณข้อผิดพลาดภายใน (gradient) เพื่อตัดสินความน่าประหลาดใจและความสำคัญ แล้วอัปเดตความทรงจำระยะยาวตามนั้น
จึงสงสัยว่าโครงสร้างแบบนี้อาจถูกรบกวนด้วย อินพุต noise แบบสุ่ม ได้หรือไม่
- นี่เป็นการตีความกลไกการทำงานของ Titans แบบย่อ
  โมเดลเรียนรู้แม้ระหว่างการอนุมาน และในช่วงฝึกก็เรียนรู้ว่า “ควรเรียนรู้อะไร”
  อินพุตที่ไม่มีความหมายจะได้รับ surprise embedding ต่ำ จึงแทบไม่ถูกนำไปสะท้อนในการเรียนรู้
- จริง ๆ แล้ว AI แบบไหนก็ตามก็อาจทำให้การตอบสนองพังได้ด้วย อินพุตแบบสุ่ม
- นักวิจัยก็น่าจะตระหนักถึงปัญหานั้นตั้งแต่แรกแล้ว และดูเหมือนความเข้าใจผิดจะเกิดจากคำอธิบายแบบผิวเผินเท่านั้น
- คิดว่า AI ก็ควรมีกลไกความจำที่อิงอารมณ์ เหมือน ระบบอารมณ์ของมนุษย์ (limbic system)
  มนุษย์จดจำตามความเข้มข้นทางอารมณ์มากกว่าความแปลกใหม่ AI เองก็ควรมีสภาวะภายในว่าตนเอง ‘ต้องการอะไร’
- เหมือนกับที่มนุษย์ถ้าถูกขังอยู่ในสภาพแวดล้อมแบบ ล้างสมอง ก็อาจพูดซ้ำข้อมูลที่ผิดพลาดได้ AI เองหากถูกจำกัดสตรีมอินพุตก็อาจเกิดปรากฏการณ์คล้ายกัน
  แต่ในสภาพแวดล้อมที่รักษาบริบทไว้ได้ เช่น การพัฒนา codebase ก็น่าจะจดจำ การตัดสินใจด้านการออกแบบและเนื้อหาการอภิปราย ในอดีตเพื่อใช้ตัดสินใจได้ดีขึ้น
ตอนอ่านงานวิจัย Titans ครั้งแรก รู้สึกว่า “นี่จะเป็นก้าวใหญ่”
แม้ไม่ได้ทำงานในวงการ AI แต่ก็ครุ่นคิดเรื่อง AI ที่คิดแบบมนุษย์ มานาน
LLM ยังห่างจากเกณฑ์นั้นมาก แต่ Titans ดูเหมือนจะขยับไปในทิศทางนั้นอีกก้าว
อยากเขียนสรุปความคิดนี้ลงบล็อก แต่ไม่มั่นใจว่าจะมีคนสนใจเพราะไม่ใช่คนที่เป็นที่รู้จัก
ถึงอย่างนั้น หาก implementation จริงของ Titans ออกมา ก็น่าจะทำให้ทุกคนประหลาดใจ
- ถ้าเขียนบล็อกอย่างสม่ำเสมอ สุดท้ายก็อาจกลายเป็น คนที่เป็นที่รู้จัก ได้
- ทุกวันนี้บทความ AI มักหมกมุ่นอยู่กับรายละเอียดทางเทคนิคมากเกินไป
  บทความที่ชี้ให้เห็นภาพใหญ่กลับอาจให้ มุมมองที่มีประโยชน์ มากกว่า
- มีคนเสนอว่าอาจลองแชร์โพสต์นี้บน HN เพื่อรับ feedback
เคยเขียน โพสต์บล็อก เกี่ยวกับ Titans ไว้แล้ว
- แต่ตอนนี้ยังไม่มี โมเดลที่ pre-train ไว้ล่วงหน้า
  นอกจากคำกล่าวอ้างของ Google ก็ยังไม่มี implementation ที่ตรวจสอบได้ และแทบไม่มีงานวิจัยต่อยอดตามมา
สงสัยว่าโครงสร้าง Titans จะเปราะบางต่อ prompt injection มากขึ้นหรือน้อยลง
การเรียนรู้แบบเรียลไทม์อาจเพิ่มความสามารถในการป้องกัน แต่ในทางกลับกันก็อาจทำให้อินพุตที่เป็นอันตรายฝังลึกกว่าเดิมได้
ระหว่างอ่านคำอธิบายเรื่อง attention mechanism ของ Transformer ก็สงสัยว่า IDE อย่าง Cursor จัดการ หน่วยความจำ อย่างไร
ดูเหมือนมันจะเข้าใจ codebase และบริบทได้ดีขึ้นเรื่อย ๆ
- แต่งานวิจัยนี้ไม่ได้เกี่ยวกับการจัดการหน่วยความจำของ IDE แบบนั้น
  เป็นเพียงส่วนที่อธิบายวิธีทำงานของ context window ของ Transformer เท่านั้น
ถามว่าสามารถจินตนาการ Titans ว่าเป็นโครงสร้างที่ปรับตัวต่อเนื่องเหมือน LoRA ได้หรือไม่
ถ้าเป็นเช่นนั้น จะมีขั้นตอนรวม LoRA กลับเข้าไปในโมเดลหลักอีกทีหรือเปล่า ซึ่งอธิบายว่าเหมือน กระบวนการนอนหลับ
- โดยปกติ LoRA คือ low-rank adapter ที่ต่อเพิ่มจากภายนอก จึงต่างจาก Titans
  Titans ไม่มีโครงสร้าง low-rank แบบนั้น
- ในทางทฤษฎีก็อาจใช้ LoRA ได้ แต่เพราะ ข้อจำกัดด้านความจุ จึงยากที่จะทดแทนได้อย่างสมบูรณ์
  แนวทางที่ใช้คือเรียนรู้ MLP ทั้งก้อน ไปพร้อมกับการประมวลผลแต่ละ input chunk
สงสัยว่าการเรียนรู้บนฐานของความน่าประหลาดใจจะช่วยทำให้โมเดล align กับพรอมป์ต์ของผู้ใช้ได้อย่างแม่นยำยิ่งขึ้นหรือไม่

สถาปัตยกรรม Titans และกรอบงาน MIRAS ช่วยพัฒนา AI ให้มีความจำระยะยาว

ภาพรวม Titans และ MIRAS

Titans: การเรียนรู้บริบทแบบเรียลไทม์

MIRAS: มุมมองเชิงบูรณาการของโมเดลลำดับ

โมเดล MIRAS ที่พัฒนาต่อยอด

ผลการทดลองและประสิทธิภาพ

บทสรุป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News