9 คะแนน โดย GN⁺ 2025-12-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สถาปัตยกรรม Titans และกรอบงาน MIRAS ถูกออกแบบให้โมเดล AI อัปเดตความจำหลักได้ตลอดเวลาที่ทำงาน และประมวลผลบริบทขนาดใหญ่ได้อย่างรวดเร็ว
  • Titans ผสานความเร็วของ RNN กับความแม่นยำของ Transformer โดยเก็บข้อมูลที่มีค่า “ความประหลาดใจ (surprise)” สูงไว้ในความจำระยะยาวแบบคัดเลือก
  • MIRAS ทำหน้าที่เป็นผังการออกแบบเชิงทฤษฎีที่ตีความโมเดลลำดับต่าง ๆ อย่างบูรณาการ โดยจัดระบบโครงสร้างความจำ, อคติ, การลืม และกระบวนการเพิ่มประสิทธิภาพอย่างเป็นระบบ
  • ผลการทดลองพบว่า Titans และโมเดลดัดแปลงของ MIRAS (YAAD, MONETA, MEMORA) ให้ผลลัพธ์ที่ดีกว่าในด้านการจัดการบริบทยาวและประสิทธิภาพเมื่อเทียบกับโมเดลล่าสุดอย่าง Transformer++ และ Mamba-2
  • งานวิจัยนี้ชี้ให้เห็นการเปลี่ยนผ่านสู่ยุคโมเดล AI ความจำระยะยาวรุ่นใหม่ โดยการผสาน ประสิทธิภาพของ RNN กับ ความสามารถในการแทนข้อมูลของ Transformer

ภาพรวม Titans และ MIRAS

  • สถาปัตยกรรม Titans และกรอบงาน MIRAS ถูกออกแบบให้ AI อัปเดตหน่วยความจำแบบเรียลไทม์ขณะทำงาน และจัดการบริบทขนาดใหญ่ได้อย่างมีประสิทธิภาพ
    • กลไก การให้ความสนใจ (attention) ของ Transformer แบบดั้งเดิมมีต้นทุนการคำนวณเพิ่มขึ้นอย่างมากตามความยาวของลำดับ
    • Titans และ MIRAS ช่วยเอาชนะข้อจำกัดนี้ ทำให้สามารถเข้าใจบริบทยาวและปรับตัวได้แบบเรียลไทม์
  • Titans เป็นรูปแบบสถาปัตยกรรมโมเดลที่เฉพาะเจาะจง ส่วน MIRAS ทำหน้าที่เป็นแผนผังเชิงทฤษฎีที่ทำให้แนวคิดนี้เป็นรูปแบบทั่วไป
    • ทั้งสองระบบพัฒนาความคิดเรื่อง การจดจำในช่วงทดสอบ (test-time memorization) ให้ก้าวหน้า โดยผสานข้อมูลใหม่เข้าไปได้ขณะทำงานโดยไม่ต้องฝึกซ้ำ

Titans: การเรียนรู้บริบทแบบเรียลไทม์

  • Titans แยก ความจำระยะสั้น (กลไกการให้ความสนใจ) และ ความจำระยะยาว (โมดูลอิงเครือข่ายประสาท) ออกเป็นสองส่วน เพื่อเลียนแบบโครงสร้างความจำของมนุษย์
    • โมดูลความจำระยะยาวมีรูปแบบเป็น มัลติเพอร์เซ็ปโทรน (MLP) โดยใช้เครือข่ายประสาทเชิงลึกแทนเวกเตอร์คงที่ ทำให้สรุปข้อมูลได้ละเอียดกว่า
  • แนวคิดหลักคือ ‘ตัวชี้วัดความประหลาดใจ (surprise metric)’
    • หากอินพุตแตกต่างจากความจำเดิมมาก จะถูกตีความว่ามีความประหลาดใจสูง และถูกเก็บเข้าสู่ความจำระยะยาว
    • ตัวอย่าง: คำที่คาดการณ์ได้ (‘cat’) มีความประหลาดใจต่ำ, ส่วนอินพุตที่ไม่คาดคิด (‘banana peel’) มีความประหลาดใจสูง
  • Titans ผสาน โมเมนตัม (momentum) กับ การลืม (weight decay) เข้าด้วยกัน
    • โมเมนตัมสะท้อนความต่อเนื่องของบริบทล่าสุด ทำให้ข้อมูลที่เกี่ยวข้องถูกเก็บไว้ด้วยกัน
    • การลืมช่วยคัดกรองข้อมูลที่ไม่จำเป็น เพื่อลดขนาดหน่วยความจำและใช้ทรัพยากรได้มีประสิทธิภาพ

MIRAS: มุมมองเชิงบูรณาการของโมเดลลำดับ

  • MIRAS อธิบายโมเดลลำดับทั้งหมดว่าเป็นระบบ ความจำเชื่อมโยง (associative memory)
    • ระบุว่าโมเดลต่าง ๆ ล้วนแก้ปัญหาเดียวกัน คือการผสมผสานข้อมูลใหม่เข้ากับความจำเดิมอย่างมีประสิทธิภาพ
  • MIRAS กำหนดโมเดลด้วยองค์ประกอบการออกแบบสี่ด้าน
    • โครงสร้างความจำ: รูปแบบการเก็บข้อมูล (เวกเตอร์, เมทริกซ์, MLP ฯลฯ)
    • อคติการให้ความสนใจ: ตัดสินใจว่าโมเดลจะให้ความสำคัญกับข้อมูลใดก่อน
    • เกตการคงความจำ (retention gate): วิธีการทำ regularization เพื่อควบคุมการลืม
    • อัลกอริทึมความจำ: วิธีเพิ่มประสิทธิภาพการอัปเดตความจำ
  • แทนการยึดติดกับข้อจำกัดของโมเดลเดิมที่พึ่งพา ค่าเฉลี่ยกำลังสองของความคลาดเคลื่อน (MSE) หรือ ความคล้ายคลึงเชิงผลคูณภายใน มากเกินไป MIRAS ได้สำรวจฟังก์ชันวัตถุประสงค์และ regularization แบบ ไม่เป็นยูคลิเดียน (non-Euclidean)

โมเดล MIRAS ที่พัฒนาต่อยอด

  • YAAD: สถาปัตยกรรมที่ใช้ Huber loss ทำให้รับมือข้อผิดพลาดของอินพุตหรือค่าผิดปกติได้ดีขึ้น
  • MONETA: ใช้เกณฑ์ generalized norms เพื่อรักษาความจำระยะยาวอย่างเสถียร
  • MEMORA: จำกัดความจำในลักษณะแผนที่ความน่าจะเป็น ช่วยรับประกันการรวมข้อมูลอย่างสมดุล
  • ทั้งสามโมเดลสามารถทำงานได้ทรงพลังในงานความจำระยะยาว แม้ไม่มีการใช้ attention

ผลการทดลองและประสิทธิภาพ

  • Titans และโมเดลที่พัฒนาจาก MIRAS ถูกประเมินเปรียบเทียบกับโครงสร้างล่าสุดอย่าง Transformer++, Mamba-2, และ Gated DeltaNet
    • ใน language modeling (C4, WikiText) และ zero-shot reasoning (HellaSwag, PIQA) ทำได้ทั้งความแม่นยำสูงขึ้นและ perplexity ต่ำลง
    • ใน การจำลอง DNA และ การพยากรณ์อนุกรมเวลา ก็ยืนยันความสามารถในการทั่วไปได้ดี
  • ความลึกความจำ (Depth) มีผลโดยตรงต่อประสิทธิภาพ
    • แม้ขนาดความจำเท่ากัน โครงสร้างที่ลึกยิ่งขึ้นให้ perplexity ต่ำกว่าและความสามารถในการขยายขนาดดีกว่า
  • ด้านประสิทธิผล Titans รักษาความเร็วการฝึกแบบขนานและการอนุมานเชิงเส้น ทำให้ประมวลผลได้เร็วกว่าโมเดลเดิม
  • ใน BABILong benchmark Titans ทำได้ดีในการอนุมานบริบทยาวได้เหนือกว่าที่ GPT-4 ทำได้ แม้มีจำนวนนับพารามิเตอร์น้อยกว่า
    • จัดการหน้าต่างบริบทได้อย่างมีประสิทธิภาพที่ยาวเกิน 2 ล้านโทเค็น

บทสรุป

  • Titans และ MIRAS ทลายข้อจำกัดของ สถานะวนซ้ำขนาดคงที่ และเสนอโครงสร้างความจำใหม่ที่เรียนรู้แบบเรียลไทม์ในขณะรับข้อมูล
  • MIRAS มอบกรอบทฤษฎีที่ทรงพลังโดยผสาน การเพิ่มประสิทธิภาพออนไลน์, ความจำเชื่อมโยง และการออกแบบสถาปัตยกรรม เข้าด้วยกัน
  • ผ่าน ปริมาณการออกแบบที่ไม่เป็นยูคลิเดียน ระบบได้วางรากฐานสำหรับยุคโมเดล AI ความจำระยะยาวที่ผสานความคล่องตัวของ RNN และความสามารถในการแทนข้อมูลของ Transformer

1 ความคิดเห็น

 
GN⁺ 2025-12-08
ความเห็นจาก Hacker News
  • แนะนำงานวิจัย Titans: Learning to Memorize at Test Time
    ต้นฉบับอยู่ที่ ลิงก์ arXiv

    • สงสัยว่าจะมีบริษัทอื่นที่ เปิดเผยงานวิจัย AI ในระดับนี้แบบ Google หรือไม่
      งานวิจัยที่เกี่ยวข้องดูได้จาก ฉบับแรก และ ฉบับที่สอง คิดว่า Google สมควรได้รับ ความเชื่อถือ มากจากความโปร่งใสแบบนี้
      • บริษัทจีนอย่าง DeepSeek ก็เผยแพร่งานวิจัยอย่างคึกคัก และยังพิสูจน์ได้จริงผ่าน open model
        งานวิจัยจากแล็บใหญ่ในสหรัฐฯ มักห่างจากประสิทธิภาพในการใช้งานจริง โดยยก งานนี้ และ งานนี้ เป็นตัวอย่างของ DeepSeek
      • การเปิดเผยงานวิจัยเป็นเรื่องดี แต่ผ่านไป 11 เดือนแล้วก็ยังไม่สามารถดาวน์โหลด โค้ดโมเดลหรือค่าน้ำหนัก ของสถาปัตยกรรม Titans ได้
        Meta, Qwen และ DeepSeek นำหน้าไปไกลกว่ามาก ตอนนี้ที่มีให้ใช้ได้มีเพียง implementation อย่างไม่เป็นทางการ
      • Bytedance เองก็ออกงานวิจัยอย่างจริงจังมาก
        โครงการที่ประทับใจล่าสุดคือ lumine และได้แชร์ ลิงก์งานวิจัย กับ หน้า research อย่างเป็นทางการ
      • Meta เองก็ แบ่งปันงานวิจัยอย่างเปิดเผย เช่นกัน และช่วงหลังบริษัทจีนก็ดูจะไปในทิศทางคล้ายกัน
      • 80% ของ ecosystem นี้สร้างอยู่บนงานวิจัยที่หลายบริษัทและบุคคลเปิดเผยไว้แล้ว
        จึงไม่คิดว่า Google มีเหตุผลพิเศษที่จะได้รับเครดิตมากกว่าคนอื่น
  • มีการเล่นมุกว่า “ในที่สุดเราก็สร้าง ‘Torment Nexus’ ได้แล้ว”
    โดยพูดถึงว่าในจักรวาล Eclipse Phase นั้น TITAN คือ เครือข่าย AI ที่ทำลายมนุษยชาติ

  • แก่นของสถาปัตยกรรม Titans คือใช้ สัญญาณข้อผิดพลาดภายใน (gradient) เพื่อตัดสินความน่าประหลาดใจและความสำคัญ แล้วอัปเดตความทรงจำระยะยาวตามนั้น
    จึงสงสัยว่าโครงสร้างแบบนี้อาจถูกรบกวนด้วย อินพุต noise แบบสุ่ม ได้หรือไม่

    • นี่เป็นการตีความกลไกการทำงานของ Titans แบบย่อ
      โมเดลเรียนรู้แม้ระหว่างการอนุมาน และในช่วงฝึกก็เรียนรู้ว่า “ควรเรียนรู้อะไร”
      อินพุตที่ไม่มีความหมายจะได้รับ surprise embedding ต่ำ จึงแทบไม่ถูกนำไปสะท้อนในการเรียนรู้
    • จริง ๆ แล้ว AI แบบไหนก็ตามก็อาจทำให้การตอบสนองพังได้ด้วย อินพุตแบบสุ่ม
    • นักวิจัยก็น่าจะตระหนักถึงปัญหานั้นตั้งแต่แรกแล้ว และดูเหมือนความเข้าใจผิดจะเกิดจากคำอธิบายแบบผิวเผินเท่านั้น
    • คิดว่า AI ก็ควรมีกลไกความจำที่อิงอารมณ์ เหมือน ระบบอารมณ์ของมนุษย์ (limbic system)
      มนุษย์จดจำตามความเข้มข้นทางอารมณ์มากกว่าความแปลกใหม่ AI เองก็ควรมีสภาวะภายในว่าตนเอง ‘ต้องการอะไร’
    • เหมือนกับที่มนุษย์ถ้าถูกขังอยู่ในสภาพแวดล้อมแบบ ล้างสมอง ก็อาจพูดซ้ำข้อมูลที่ผิดพลาดได้ AI เองหากถูกจำกัดสตรีมอินพุตก็อาจเกิดปรากฏการณ์คล้ายกัน
      แต่ในสภาพแวดล้อมที่รักษาบริบทไว้ได้ เช่น การพัฒนา codebase ก็น่าจะจดจำ การตัดสินใจด้านการออกแบบและเนื้อหาการอภิปราย ในอดีตเพื่อใช้ตัดสินใจได้ดีขึ้น
  • ตอนอ่านงานวิจัย Titans ครั้งแรก รู้สึกว่า “นี่จะเป็นก้าวใหญ่”
    แม้ไม่ได้ทำงานในวงการ AI แต่ก็ครุ่นคิดเรื่อง AI ที่คิดแบบมนุษย์ มานาน
    LLM ยังห่างจากเกณฑ์นั้นมาก แต่ Titans ดูเหมือนจะขยับไปในทิศทางนั้นอีกก้าว
    อยากเขียนสรุปความคิดนี้ลงบล็อก แต่ไม่มั่นใจว่าจะมีคนสนใจเพราะไม่ใช่คนที่เป็นที่รู้จัก
    ถึงอย่างนั้น หาก implementation จริงของ Titans ออกมา ก็น่าจะทำให้ทุกคนประหลาดใจ

    • ถ้าเขียนบล็อกอย่างสม่ำเสมอ สุดท้ายก็อาจกลายเป็น คนที่เป็นที่รู้จัก ได้
    • ทุกวันนี้บทความ AI มักหมกมุ่นอยู่กับรายละเอียดทางเทคนิคมากเกินไป
      บทความที่ชี้ให้เห็นภาพใหญ่กลับอาจให้ มุมมองที่มีประโยชน์ มากกว่า
    • มีคนเสนอว่าอาจลองแชร์โพสต์นี้บน HN เพื่อรับ feedback
  • เคยเขียน โพสต์บล็อก เกี่ยวกับ Titans ไว้แล้ว

    • แต่ตอนนี้ยังไม่มี โมเดลที่ pre-train ไว้ล่วงหน้า
      นอกจากคำกล่าวอ้างของ Google ก็ยังไม่มี implementation ที่ตรวจสอบได้ และแทบไม่มีงานวิจัยต่อยอดตามมา
  • สงสัยว่าโครงสร้าง Titans จะเปราะบางต่อ prompt injection มากขึ้นหรือน้อยลง
    การเรียนรู้แบบเรียลไทม์อาจเพิ่มความสามารถในการป้องกัน แต่ในทางกลับกันก็อาจทำให้อินพุตที่เป็นอันตรายฝังลึกกว่าเดิมได้

  • ระหว่างอ่านคำอธิบายเรื่อง attention mechanism ของ Transformer ก็สงสัยว่า IDE อย่าง Cursor จัดการ หน่วยความจำ อย่างไร
    ดูเหมือนมันจะเข้าใจ codebase และบริบทได้ดีขึ้นเรื่อย ๆ

    • แต่งานวิจัยนี้ไม่ได้เกี่ยวกับการจัดการหน่วยความจำของ IDE แบบนั้น
      เป็นเพียงส่วนที่อธิบายวิธีทำงานของ context window ของ Transformer เท่านั้น
  • ถามว่าสามารถจินตนาการ Titans ว่าเป็นโครงสร้างที่ปรับตัวต่อเนื่องเหมือน LoRA ได้หรือไม่
    ถ้าเป็นเช่นนั้น จะมีขั้นตอนรวม LoRA กลับเข้าไปในโมเดลหลักอีกทีหรือเปล่า ซึ่งอธิบายว่าเหมือน กระบวนการนอนหลับ

    • โดยปกติ LoRA คือ low-rank adapter ที่ต่อเพิ่มจากภายนอก จึงต่างจาก Titans
      Titans ไม่มีโครงสร้าง low-rank แบบนั้น
    • ในทางทฤษฎีก็อาจใช้ LoRA ได้ แต่เพราะ ข้อจำกัดด้านความจุ จึงยากที่จะทดแทนได้อย่างสมบูรณ์
      แนวทางที่ใช้คือเรียนรู้ MLP ทั้งก้อน ไปพร้อมกับการประมวลผลแต่ละ input chunk
  • สงสัยว่าการเรียนรู้บนฐานของความน่าประหลาดใจจะช่วยทำให้โมเดล align กับพรอมป์ต์ของผู้ใช้ได้อย่างแม่นยำยิ่งขึ้นหรือไม่