Mamba คือโมเดล State Space Model (SSM) ที่ท้าทาย Transformer

  • ตอนนี้ AI กำลังครองโลก และศูนย์กลางของมันคือ Transformer
  • Mamba อยู่ในคลาสโมเดลทางเลือกที่เรียกว่า State Space Model (SSM)
  • Mamba มีทั้งประสิทธิภาพและความสามารถในการขยายระบบใกล้เคียงกับ Transformer ขณะเดียวกันก็สามารถทำงานกับลำดับข้อมูลที่ยาวได้
  • จุดที่น่าสนใจคือ Mamba ขจัด 'คอขวดกำลังสอง' ของ 'attention mechanism' ทำให้รองรับคอนเท็กซ์ที่ยาวได้
  • Mamba ทำงานได้เร็วกว่า Transformer สูงสุด 5 เท่า

ปัญหาของ Transformer - attention เพียงอย่างเดียวอาจไม่เพียงพอ

  • Transformer เปิดให้ทุกโทเคนอ้างอิงโทเคนก่อนหน้าได้ทั้งหมด จึงยิ่งช้าลงเมื่อคอนเท็กซ์ใหญ่ขึ้น
  • การเก็บ KV cache แบบนี้ยังต้องใช้ความซับซ้อนด้านพื้นที่ระดับ O(n)
  • แม้จะมีเทคนิคที่ช่วยบรรเทาคอขวดของ Transformer แบบเดิม แต่หากต้องการแก้ปัญหาที่ต้นตอ ก็จำเป็นต้องมีแนวทางที่ต่างออกไป

แกนสถาปัตยกรรมของ foundation model

  • องค์ประกอบสำคัญ 2 อย่างของ backbone สถาปัตยกรรม ML ที่ดี
    • การสื่อสาร (Communication) ระหว่างโทเคน
    • การคำนวณ (Computation) ภายในโทเคน
  • บล็อกของ Transformer ประกอบด้วย attention และ MLPs
  • Mamba ใช้ SSM ที่ได้แรงบันดาลใจจาก control theory สำหรับการสื่อสาร และยังคงใช้การโปรเจกชันแบบ MLP สำหรับการคำนวณ

แรงจูงใจของ Mamba - กลับไปที่ Temple Run

  • สถานะ (state) หมายถึงตัวแปรที่จำเป็นต่อการกำหนดพฤติกรรมในอนาคตของระบบ
  • สถานะคือการบีบอัดทุกสิ่งที่ต้องรู้เกี่ยวกับอดีต และเปลี่ยนให้เป็นกระบวนการตัดสินใจแบบมาร์คอฟ

การทำให้ไม่ต่อเนื่อง - ใช้ชีวิตอยู่ในโลกที่ถูก quantize

  • กระบวนการแปลงสมการเชิงอนุพันธ์เวลาแบบต่อเนื่องให้เป็นสมการผลต่างเวลาแบบไม่ต่อเนื่องเรียกว่า discretisation
  • Mamba ใช้การทำให้ไม่ต่อเนื่องแบบ zero-order hold (ZOH)

ทำความเข้าใจเมทริกซ์ SSM

  • เมทริกซ์ A, B, C, D ทำหน้าที่เป็นการเปลี่ยนผ่านสถานะ การแมปอินพุตใหม่เข้าสู่สถานะ การแมปสถานะไปยังเอาต์พุตของ SSM และการส่งอินพุตใหม่ตรงไปยังเอาต์พุต ตามลำดับ

ประสิทธิภาพเชิงทรัพยากร vs ประสิทธิผล: Attention is Focus, Selectivity is Prioritisation (attention คือการโฟกัส ส่วน selectivity คือการจัดลำดับความสำคัญ)

  • Transformer มี ประสิทธิผล สูงมาก แต่ไม่ได้ มีประสิทธิภาพเชิงทรัพยากร เท่าไร
  • สถาปัตยกรรม Mamba นำเสนอโซลูชันที่ขยับเส้นพาเรโตฟรอนเทียร์ของประสิทธิภาพและประสิทธิผลออกไปอีก

กลไกการเลือก

  • Selectivity ทำให้แต่ละโทเคนสามารถแปลงตัวเองเป็นสถานะให้เหมาะกับความต้องการของมันได้
  • Mamba ทำให้เมทริกซ์ A, B, C เป็นฟังก์ชันของ x จึงไม่เป็นค่าคงที่ แต่ขึ้นกับคอนเท็กซ์

ปัญหาของ selectivity

  • เมื่อใช้กลไกการเลือก การคำนวณอาจช้ากว่า SSM แบบไม่เลือก
  • ด้วยการเพิ่มประสิทธิภาพระดับฮาร์ดแวร์ Mamba สามารถทำงานได้เร็วกว่า Transformer ที่มีขนาดใกล้เคียงกัน

Machine Learning และเศรษฐศาสตร์การเมือง - ขนาดของ state ควรใหญ่แค่ไหน?

  • trade-off ระหว่างประสิทธิภาพและประสิทธิผลของโมเดลลำดับข้อมูล มีลักษณะสำคัญอยู่ที่มันบีบอัดสถานะได้ดีแค่ไหน
  • การแทนสถานะมีความสำคัญ และหัวใจสำคัญคือการบีบอัดสถานะแบบเลือกได้และแบบไดนามิก

การไหลของข้อมูลระหว่าง Transformer กับ Mamba

  • Transformer เรียนรู้ผ่านข้อมูลฝึกและข้อมูลคอนเท็กซ์
  • ใน Mamba ข้อมูลฝึกและข้อมูลคอนเท็กซ์จะถูกบีบอัด/กรองก่อนจึงเข้าถึงได้

การแทนที่ state ในฐานะพาราไดม์การ prompting แบบใหม่

  • เมื่อใช้โมเดลอย่าง Mamba เราสามารถแชร์ไลบรารีของสถานะที่สร้างจากข้อมูลเฉพาะทางได้
  • สถานะสามารถนำการเรียนรู้จากคอนเท็กซ์แบบไม่จำกัดมาใช้ในช่วง inference ได้โดยไม่ต้องใช้ backprop

Mamba กับการตีความเชิงกลไก

  • ความสามารถในการตีความของ Mamba มุ่งเน้นไปที่การทำความเข้าใจการเคลื่อนย้ายข้อมูลระหว่างโทเคน

สิ่งถัดไปที่ Mamba และ SSM จะทำ

  • โมเดลอย่าง Mamba มีแนวโน้มจะแสดงประสิทธิภาพโดดเด่นในสถานการณ์ที่ต้องใช้คอนเท็กซ์ยาวมากและความจำระยะยาว

เอเจนต์และความปลอดภัยของ AI

  • โมเดลภาษามีความปลอดภัยโดยเนื้อแท้ แต่ความเป็นไปได้ของการให้เหตุผลกับลำดับระยะยาวกำลังทำให้ความสำคัญของ AI safety แบบอิงเอเจนต์กลับมาอีกครั้ง

ความร่วมมือที่ดีที่สุดของ Transformer และ Mamba

  • การผสานคอนเท็กซ์ยาวของ Mamba เข้ากับความละเอียดสูงของ Transformer สำหรับลำดับสั้นมีคุณค่าอย่างมาก

ความเห็นของ GN⁺

  • Mamba แก้คอขวดของ Transformer และนำเสนอทางเลือกที่มีประสิทธิภาพสำหรับการประมวลผลลำดับข้อมูลที่ยาว
  • เทคโนโลยีนี้อาจมีประโยชน์อย่างยิ่งในสาขาที่ลำดับข้อมูลยาวมีความสำคัญ เช่น การแพทย์ พันธุศาสตร์ และการประมวลผลภาษาธรรมชาติ
  • ยังจำเป็นต้องมีงานวิจัยเพิ่มเติมว่ากลไกการเลือกของ Mamba มีประสิทธิผลจริงหรือไม่
  • Selectivity ของ Mamba อาจช่วยหาสมดุลระหว่างความแม่นยำสูงและประสิทธิภาพที่ Transformer มอบให้ได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น