Mamba คือโมเดล State Space Model (SSM) ที่ท้าทาย Transformer
- ตอนนี้ AI กำลังครองโลก และศูนย์กลางของมันคือ Transformer
- Mamba อยู่ในคลาสโมเดลทางเลือกที่เรียกว่า State Space Model (SSM)
- Mamba มีทั้งประสิทธิภาพและความสามารถในการขยายระบบใกล้เคียงกับ Transformer ขณะเดียวกันก็สามารถทำงานกับลำดับข้อมูลที่ยาวได้
- จุดที่น่าสนใจคือ Mamba ขจัด 'คอขวดกำลังสอง' ของ 'attention mechanism' ทำให้รองรับคอนเท็กซ์ที่ยาวได้
- Mamba ทำงานได้เร็วกว่า Transformer สูงสุด 5 เท่า
ปัญหาของ Transformer - attention เพียงอย่างเดียวอาจไม่เพียงพอ
- Transformer เปิดให้ทุกโทเคนอ้างอิงโทเคนก่อนหน้าได้ทั้งหมด จึงยิ่งช้าลงเมื่อคอนเท็กซ์ใหญ่ขึ้น
- การเก็บ KV cache แบบนี้ยังต้องใช้ความซับซ้อนด้านพื้นที่ระดับ O(n)
- แม้จะมีเทคนิคที่ช่วยบรรเทาคอขวดของ Transformer แบบเดิม แต่หากต้องการแก้ปัญหาที่ต้นตอ ก็จำเป็นต้องมีแนวทางที่ต่างออกไป
แกนสถาปัตยกรรมของ foundation model
- องค์ประกอบสำคัญ 2 อย่างของ backbone สถาปัตยกรรม ML ที่ดี
- การสื่อสาร (Communication) ระหว่างโทเคน
- การคำนวณ (Computation) ภายในโทเคน
- บล็อกของ Transformer ประกอบด้วย attention และ MLPs
- Mamba ใช้ SSM ที่ได้แรงบันดาลใจจาก control theory สำหรับการสื่อสาร และยังคงใช้การโปรเจกชันแบบ MLP สำหรับการคำนวณ
แรงจูงใจของ Mamba - กลับไปที่ Temple Run
- สถานะ (state) หมายถึงตัวแปรที่จำเป็นต่อการกำหนดพฤติกรรมในอนาคตของระบบ
- สถานะคือการบีบอัดทุกสิ่งที่ต้องรู้เกี่ยวกับอดีต และเปลี่ยนให้เป็นกระบวนการตัดสินใจแบบมาร์คอฟ
การทำให้ไม่ต่อเนื่อง - ใช้ชีวิตอยู่ในโลกที่ถูก quantize
- กระบวนการแปลงสมการเชิงอนุพันธ์เวลาแบบต่อเนื่องให้เป็นสมการผลต่างเวลาแบบไม่ต่อเนื่องเรียกว่า discretisation
- Mamba ใช้การทำให้ไม่ต่อเนื่องแบบ zero-order hold (ZOH)
ทำความเข้าใจเมทริกซ์ SSM
- เมทริกซ์ A, B, C, D ทำหน้าที่เป็นการเปลี่ยนผ่านสถานะ การแมปอินพุตใหม่เข้าสู่สถานะ การแมปสถานะไปยังเอาต์พุตของ SSM และการส่งอินพุตใหม่ตรงไปยังเอาต์พุต ตามลำดับ
ประสิทธิภาพเชิงทรัพยากร vs ประสิทธิผล: Attention is Focus, Selectivity is Prioritisation (attention คือการโฟกัส ส่วน selectivity คือการจัดลำดับความสำคัญ)
- Transformer มี ประสิทธิผล สูงมาก แต่ไม่ได้ มีประสิทธิภาพเชิงทรัพยากร เท่าไร
- สถาปัตยกรรม Mamba นำเสนอโซลูชันที่ขยับเส้นพาเรโตฟรอนเทียร์ของประสิทธิภาพและประสิทธิผลออกไปอีก
กลไกการเลือก
- Selectivity ทำให้แต่ละโทเคนสามารถแปลงตัวเองเป็นสถานะให้เหมาะกับความต้องการของมันได้
- Mamba ทำให้เมทริกซ์ A, B, C เป็นฟังก์ชันของ x จึงไม่เป็นค่าคงที่ แต่ขึ้นกับคอนเท็กซ์
ปัญหาของ selectivity
- เมื่อใช้กลไกการเลือก การคำนวณอาจช้ากว่า SSM แบบไม่เลือก
- ด้วยการเพิ่มประสิทธิภาพระดับฮาร์ดแวร์ Mamba สามารถทำงานได้เร็วกว่า Transformer ที่มีขนาดใกล้เคียงกัน
Machine Learning และเศรษฐศาสตร์การเมือง - ขนาดของ state ควรใหญ่แค่ไหน?
- trade-off ระหว่างประสิทธิภาพและประสิทธิผลของโมเดลลำดับข้อมูล มีลักษณะสำคัญอยู่ที่มันบีบอัดสถานะได้ดีแค่ไหน
- การแทนสถานะมีความสำคัญ และหัวใจสำคัญคือการบีบอัดสถานะแบบเลือกได้และแบบไดนามิก
การไหลของข้อมูลระหว่าง Transformer กับ Mamba
- Transformer เรียนรู้ผ่านข้อมูลฝึกและข้อมูลคอนเท็กซ์
- ใน Mamba ข้อมูลฝึกและข้อมูลคอนเท็กซ์จะถูกบีบอัด/กรองก่อนจึงเข้าถึงได้
การแทนที่ state ในฐานะพาราไดม์การ prompting แบบใหม่
- เมื่อใช้โมเดลอย่าง Mamba เราสามารถแชร์ไลบรารีของสถานะที่สร้างจากข้อมูลเฉพาะทางได้
- สถานะสามารถนำการเรียนรู้จากคอนเท็กซ์แบบไม่จำกัดมาใช้ในช่วง inference ได้โดยไม่ต้องใช้ backprop
Mamba กับการตีความเชิงกลไก
- ความสามารถในการตีความของ Mamba มุ่งเน้นไปที่การทำความเข้าใจการเคลื่อนย้ายข้อมูลระหว่างโทเคน
สิ่งถัดไปที่ Mamba และ SSM จะทำ
- โมเดลอย่าง Mamba มีแนวโน้มจะแสดงประสิทธิภาพโดดเด่นในสถานการณ์ที่ต้องใช้คอนเท็กซ์ยาวมากและความจำระยะยาว
เอเจนต์และความปลอดภัยของ AI
- โมเดลภาษามีความปลอดภัยโดยเนื้อแท้ แต่ความเป็นไปได้ของการให้เหตุผลกับลำดับระยะยาวกำลังทำให้ความสำคัญของ AI safety แบบอิงเอเจนต์กลับมาอีกครั้ง
ความร่วมมือที่ดีที่สุดของ Transformer และ Mamba
- การผสานคอนเท็กซ์ยาวของ Mamba เข้ากับความละเอียดสูงของ Transformer สำหรับลำดับสั้นมีคุณค่าอย่างมาก
ความเห็นของ GN⁺
- Mamba แก้คอขวดของ Transformer และนำเสนอทางเลือกที่มีประสิทธิภาพสำหรับการประมวลผลลำดับข้อมูลที่ยาว
- เทคโนโลยีนี้อาจมีประโยชน์อย่างยิ่งในสาขาที่ลำดับข้อมูลยาวมีความสำคัญ เช่น การแพทย์ พันธุศาสตร์ และการประมวลผลภาษาธรรมชาติ
- ยังจำเป็นต้องมีงานวิจัยเพิ่มเติมว่ากลไกการเลือกของ Mamba มีประสิทธิผลจริงหรือไม่
- Selectivity ของ Mamba อาจช่วยหาสมดุลระหว่างความแม่นยำสูงและประสิทธิภาพที่ Transformer มอบให้ได้
ยังไม่มีความคิดเห็น