- สถาปัตยกรรม Titans และกรอบงาน MIRAS ถูกออกแบบให้โมเดล AI อัปเดตความจำหลักได้ตลอดเวลาที่ทำงาน และประมวลผลบริบทขนาดใหญ่ได้อย่างรวดเร็ว
- Titans ผสานความเร็วของ RNN กับความแม่นยำของ Transformer โดยเก็บข้อมูลที่มีค่า “ความประหลาดใจ (surprise)” สูงไว้ในความจำระยะยาวแบบคัดเลือก
- MIRAS ทำหน้าที่เป็นผังการออกแบบเชิงทฤษฎีที่ตีความโมเดลลำดับต่าง ๆ อย่างบูรณาการ โดยจัดระบบโครงสร้างความจำ, อคติ, การลืม และกระบวนการเพิ่มประสิทธิภาพอย่างเป็นระบบ
- ผลการทดลองพบว่า Titans และโมเดลดัดแปลงของ MIRAS (YAAD, MONETA, MEMORA) ให้ผลลัพธ์ที่ดีกว่าในด้านการจัดการบริบทยาวและประสิทธิภาพเมื่อเทียบกับโมเดลล่าสุดอย่าง Transformer++ และ Mamba-2
- งานวิจัยนี้ชี้ให้เห็นการเปลี่ยนผ่านสู่ยุคโมเดล AI ความจำระยะยาวรุ่นใหม่ โดยการผสาน ประสิทธิภาพของ RNN กับ ความสามารถในการแทนข้อมูลของ Transformer
ภาพรวม Titans และ MIRAS
- สถาปัตยกรรม Titans และกรอบงาน MIRAS ถูกออกแบบให้ AI อัปเดตหน่วยความจำแบบเรียลไทม์ขณะทำงาน และจัดการบริบทขนาดใหญ่ได้อย่างมีประสิทธิภาพ
- กลไก การให้ความสนใจ (attention) ของ Transformer แบบดั้งเดิมมีต้นทุนการคำนวณเพิ่มขึ้นอย่างมากตามความยาวของลำดับ
- Titans และ MIRAS ช่วยเอาชนะข้อจำกัดนี้ ทำให้สามารถเข้าใจบริบทยาวและปรับตัวได้แบบเรียลไทม์
- Titans เป็นรูปแบบสถาปัตยกรรมโมเดลที่เฉพาะเจาะจง ส่วน MIRAS ทำหน้าที่เป็นแผนผังเชิงทฤษฎีที่ทำให้แนวคิดนี้เป็นรูปแบบทั่วไป
- ทั้งสองระบบพัฒนาความคิดเรื่อง การจดจำในช่วงทดสอบ (test-time memorization) ให้ก้าวหน้า โดยผสานข้อมูลใหม่เข้าไปได้ขณะทำงานโดยไม่ต้องฝึกซ้ำ
Titans: การเรียนรู้บริบทแบบเรียลไทม์
- Titans แยก ความจำระยะสั้น (กลไกการให้ความสนใจ) และ ความจำระยะยาว (โมดูลอิงเครือข่ายประสาท) ออกเป็นสองส่วน เพื่อเลียนแบบโครงสร้างความจำของมนุษย์
- โมดูลความจำระยะยาวมีรูปแบบเป็น มัลติเพอร์เซ็ปโทรน (MLP) โดยใช้เครือข่ายประสาทเชิงลึกแทนเวกเตอร์คงที่ ทำให้สรุปข้อมูลได้ละเอียดกว่า
- แนวคิดหลักคือ ‘ตัวชี้วัดความประหลาดใจ (surprise metric)’
- หากอินพุตแตกต่างจากความจำเดิมมาก จะถูกตีความว่ามีความประหลาดใจสูง และถูกเก็บเข้าสู่ความจำระยะยาว
- ตัวอย่าง: คำที่คาดการณ์ได้ (‘cat’) มีความประหลาดใจต่ำ, ส่วนอินพุตที่ไม่คาดคิด (‘banana peel’) มีความประหลาดใจสูง
- Titans ผสาน โมเมนตัม (momentum) กับ การลืม (weight decay) เข้าด้วยกัน
- โมเมนตัมสะท้อนความต่อเนื่องของบริบทล่าสุด ทำให้ข้อมูลที่เกี่ยวข้องถูกเก็บไว้ด้วยกัน
- การลืมช่วยคัดกรองข้อมูลที่ไม่จำเป็น เพื่อลดขนาดหน่วยความจำและใช้ทรัพยากรได้มีประสิทธิภาพ
MIRAS: มุมมองเชิงบูรณาการของโมเดลลำดับ
- MIRAS อธิบายโมเดลลำดับทั้งหมดว่าเป็นระบบ ความจำเชื่อมโยง (associative memory)
- ระบุว่าโมเดลต่าง ๆ ล้วนแก้ปัญหาเดียวกัน คือการผสมผสานข้อมูลใหม่เข้ากับความจำเดิมอย่างมีประสิทธิภาพ
- MIRAS กำหนดโมเดลด้วยองค์ประกอบการออกแบบสี่ด้าน
- โครงสร้างความจำ: รูปแบบการเก็บข้อมูล (เวกเตอร์, เมทริกซ์, MLP ฯลฯ)
- อคติการให้ความสนใจ: ตัดสินใจว่าโมเดลจะให้ความสำคัญกับข้อมูลใดก่อน
- เกตการคงความจำ (retention gate): วิธีการทำ regularization เพื่อควบคุมการลืม
- อัลกอริทึมความจำ: วิธีเพิ่มประสิทธิภาพการอัปเดตความจำ
- แทนการยึดติดกับข้อจำกัดของโมเดลเดิมที่พึ่งพา ค่าเฉลี่ยกำลังสองของความคลาดเคลื่อน (MSE) หรือ ความคล้ายคลึงเชิงผลคูณภายใน มากเกินไป MIRAS ได้สำรวจฟังก์ชันวัตถุประสงค์และ regularization แบบ ไม่เป็นยูคลิเดียน (non-Euclidean)
โมเดล MIRAS ที่พัฒนาต่อยอด
- YAAD: สถาปัตยกรรมที่ใช้ Huber loss ทำให้รับมือข้อผิดพลาดของอินพุตหรือค่าผิดปกติได้ดีขึ้น
- MONETA: ใช้เกณฑ์ generalized norms เพื่อรักษาความจำระยะยาวอย่างเสถียร
- MEMORA: จำกัดความจำในลักษณะแผนที่ความน่าจะเป็น ช่วยรับประกันการรวมข้อมูลอย่างสมดุล
- ทั้งสามโมเดลสามารถทำงานได้ทรงพลังในงานความจำระยะยาว แม้ไม่มีการใช้ attention
ผลการทดลองและประสิทธิภาพ
- Titans และโมเดลที่พัฒนาจาก MIRAS ถูกประเมินเปรียบเทียบกับโครงสร้างล่าสุดอย่าง Transformer++, Mamba-2, และ Gated DeltaNet
- ใน language modeling (C4, WikiText) และ zero-shot reasoning (HellaSwag, PIQA) ทำได้ทั้งความแม่นยำสูงขึ้นและ perplexity ต่ำลง
- ใน การจำลอง DNA และ การพยากรณ์อนุกรมเวลา ก็ยืนยันความสามารถในการทั่วไปได้ดี
- ความลึกความจำ (Depth) มีผลโดยตรงต่อประสิทธิภาพ
- แม้ขนาดความจำเท่ากัน โครงสร้างที่ลึกยิ่งขึ้นให้ perplexity ต่ำกว่าและความสามารถในการขยายขนาดดีกว่า
- ด้านประสิทธิผล Titans รักษาความเร็วการฝึกแบบขนานและการอนุมานเชิงเส้น ทำให้ประมวลผลได้เร็วกว่าโมเดลเดิม
- ใน BABILong benchmark Titans ทำได้ดีในการอนุมานบริบทยาวได้เหนือกว่าที่ GPT-4 ทำได้ แม้มีจำนวนนับพารามิเตอร์น้อยกว่า
- จัดการหน้าต่างบริบทได้อย่างมีประสิทธิภาพที่ยาวเกิน 2 ล้านโทเค็น
บทสรุป
- Titans และ MIRAS ทลายข้อจำกัดของ สถานะวนซ้ำขนาดคงที่ และเสนอโครงสร้างความจำใหม่ที่เรียนรู้แบบเรียลไทม์ในขณะรับข้อมูล
- MIRAS มอบกรอบทฤษฎีที่ทรงพลังโดยผสาน การเพิ่มประสิทธิภาพออนไลน์, ความจำเชื่อมโยง และการออกแบบสถาปัตยกรรม เข้าด้วยกัน
- ผ่าน ปริมาณการออกแบบที่ไม่เป็นยูคลิเดียน ระบบได้วางรากฐานสำหรับยุคโมเดล AI ความจำระยะยาวที่ผสานความคล่องตัวของ RNN และความสามารถในการแทนข้อมูลของ Transformer
1 ความคิดเห็น
ความเห็นจาก Hacker News
แนะนำงานวิจัย Titans: Learning to Memorize at Test Time
ต้นฉบับอยู่ที่ ลิงก์ arXiv
งานวิจัยที่เกี่ยวข้องดูได้จาก ฉบับแรก และ ฉบับที่สอง คิดว่า Google สมควรได้รับ ความเชื่อถือ มากจากความโปร่งใสแบบนี้
งานวิจัยจากแล็บใหญ่ในสหรัฐฯ มักห่างจากประสิทธิภาพในการใช้งานจริง โดยยก งานนี้ และ งานนี้ เป็นตัวอย่างของ DeepSeek
Meta, Qwen และ DeepSeek นำหน้าไปไกลกว่ามาก ตอนนี้ที่มีให้ใช้ได้มีเพียง implementation อย่างไม่เป็นทางการ
โครงการที่ประทับใจล่าสุดคือ lumine และได้แชร์ ลิงก์งานวิจัย กับ หน้า research อย่างเป็นทางการ
จึงไม่คิดว่า Google มีเหตุผลพิเศษที่จะได้รับเครดิตมากกว่าคนอื่น
มีการเล่นมุกว่า “ในที่สุดเราก็สร้าง ‘Torment Nexus’ ได้แล้ว”
โดยพูดถึงว่าในจักรวาล Eclipse Phase นั้น TITAN คือ เครือข่าย AI ที่ทำลายมนุษยชาติ
แก่นของสถาปัตยกรรม Titans คือใช้ สัญญาณข้อผิดพลาดภายใน (gradient) เพื่อตัดสินความน่าประหลาดใจและความสำคัญ แล้วอัปเดตความทรงจำระยะยาวตามนั้น
จึงสงสัยว่าโครงสร้างแบบนี้อาจถูกรบกวนด้วย อินพุต noise แบบสุ่ม ได้หรือไม่
โมเดลเรียนรู้แม้ระหว่างการอนุมาน และในช่วงฝึกก็เรียนรู้ว่า “ควรเรียนรู้อะไร”
อินพุตที่ไม่มีความหมายจะได้รับ surprise embedding ต่ำ จึงแทบไม่ถูกนำไปสะท้อนในการเรียนรู้
มนุษย์จดจำตามความเข้มข้นทางอารมณ์มากกว่าความแปลกใหม่ AI เองก็ควรมีสภาวะภายในว่าตนเอง ‘ต้องการอะไร’
แต่ในสภาพแวดล้อมที่รักษาบริบทไว้ได้ เช่น การพัฒนา codebase ก็น่าจะจดจำ การตัดสินใจด้านการออกแบบและเนื้อหาการอภิปราย ในอดีตเพื่อใช้ตัดสินใจได้ดีขึ้น
ตอนอ่านงานวิจัย Titans ครั้งแรก รู้สึกว่า “นี่จะเป็นก้าวใหญ่”
แม้ไม่ได้ทำงานในวงการ AI แต่ก็ครุ่นคิดเรื่อง AI ที่คิดแบบมนุษย์ มานาน
LLM ยังห่างจากเกณฑ์นั้นมาก แต่ Titans ดูเหมือนจะขยับไปในทิศทางนั้นอีกก้าว
อยากเขียนสรุปความคิดนี้ลงบล็อก แต่ไม่มั่นใจว่าจะมีคนสนใจเพราะไม่ใช่คนที่เป็นที่รู้จัก
ถึงอย่างนั้น หาก implementation จริงของ Titans ออกมา ก็น่าจะทำให้ทุกคนประหลาดใจ
บทความที่ชี้ให้เห็นภาพใหญ่กลับอาจให้ มุมมองที่มีประโยชน์ มากกว่า
เคยเขียน โพสต์บล็อก เกี่ยวกับ Titans ไว้แล้ว
นอกจากคำกล่าวอ้างของ Google ก็ยังไม่มี implementation ที่ตรวจสอบได้ และแทบไม่มีงานวิจัยต่อยอดตามมา
สงสัยว่าโครงสร้าง Titans จะเปราะบางต่อ prompt injection มากขึ้นหรือน้อยลง
การเรียนรู้แบบเรียลไทม์อาจเพิ่มความสามารถในการป้องกัน แต่ในทางกลับกันก็อาจทำให้อินพุตที่เป็นอันตรายฝังลึกกว่าเดิมได้
ระหว่างอ่านคำอธิบายเรื่อง attention mechanism ของ Transformer ก็สงสัยว่า IDE อย่าง Cursor จัดการ หน่วยความจำ อย่างไร
ดูเหมือนมันจะเข้าใจ codebase และบริบทได้ดีขึ้นเรื่อย ๆ
เป็นเพียงส่วนที่อธิบายวิธีทำงานของ context window ของ Transformer เท่านั้น
ถามว่าสามารถจินตนาการ Titans ว่าเป็นโครงสร้างที่ปรับตัวต่อเนื่องเหมือน LoRA ได้หรือไม่
ถ้าเป็นเช่นนั้น จะมีขั้นตอนรวม LoRA กลับเข้าไปในโมเดลหลักอีกทีหรือเปล่า ซึ่งอธิบายว่าเหมือน กระบวนการนอนหลับ
Titans ไม่มีโครงสร้าง low-rank แบบนั้น
แนวทางที่ใช้คือเรียนรู้ MLP ทั้งก้อน ไปพร้อมกับการประมวลผลแต่ละ input chunk
สงสัยว่าการเรียนรู้บนฐานของความน่าประหลาดใจจะช่วยทำให้โมเดล align กับพรอมป์ต์ของผู้ใช้ได้อย่างแม่นยำยิ่งขึ้นหรือไม่