Jamba - โมเดล AI ระดับโปรดักชันที่ใช้ Mamba

xguru · 2024-03-30T09:46:02+09:00

AI21 Labs เปิดตัว Jamba โมเดล AI ระดับโปรดักชันตัวแรกของโลกที่สร้างบนสถาปัตยกรรม Mamba Jamba ผสานจุดแข็งของ Mamba SSM (Structured State Space Model) และสถาปัตยกรรม Transformer แบบดั้งเดิม เพื่อมอบประสิทธิภาพที่น่าประทับใจและเพิ่มความคุ้มค่าในการประมวลผล มี context window ขนาดใหญ่ 256K โทเค็น และประมวลผลได้สูงสุด 140K โทเค็นบน GPU 80GB เพียงตัวเดียว สถาปัตยกรรมแบบไฮบริดและประสิทธิภาพของ Jamba Jamba ใช้เลเยอร์ Mixture of Experts (MoE) ผ่านสถาปัตยกรรมไฮบริด SSM-Transformer โดยใช้เพียง 12B จากทั้งหมด 52B พารามิเตอร์ในระหว่างการทำอนุมาน สามารถจัดการคอนเท็กซ์ที่ยาวกว่ารุ่นคู่แข่งอย่าง Meta Llama 2 ได้มาก ขณะเดียวกันก็ยังรักษา throughput และประสิทธิภาพในระดับสูง ให้ throughput สูงขึ้น 3 เท่าเมื่อทำงานกับคอนเท็กซ์ยาว และมีประสิทธิภาพมากกว่าโมเดลแบบ Transformer ที่มีขนาดใกล้เคียงกัน มีแนวทางแบบ block และ layer โดยแต่ละบล็อกของ Jamba จะประกอบด้วยเลเยอร์ attention หรือ Mamba แล้วตามด้วย multilayer perceptron (MLP) โครงสร้างนี้ใช้เลเยอร์ Transformer หนึ่งชั้นจากทุก ๆ 8 เลเยอร์ในสัดส่วนรวม แสดงผลลัพธ์ที่โดดเด่นในหลากหลาย benchmark และทำผลงานได้ดีกว่าหรือเทียบเท่ากับโมเดลล้ำสมัยขนาดเดียวกันในงานที่ครอบคลุมหลากหลายประเภท ใบอนุญาต Jamba เปิดตัวแบบ open weights ภายใต้สัญญาอนุญาต Apache 2.0 และใช้งานได้บน Hugging Face ขณะนี้ Jamba ยังเปิดตัวในฐานะโมเดลวิจัยโดยไม่มีมาตรการความปลอดภัยที่จำเป็นสำหรับการใช้งานเชิงพาณิชย์ แต่ AI21 Labs มีแผนจะปล่อยเวอร์ชันที่ปลอดภัยยิ่งขึ้นภายในไม่กี่สัปดาห์ข้างหน้า

(maginative.com)

11 คะแนน โดย xguru 2024-03-30 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

AI21 Labs เปิดตัว Jamba โมเดล AI ระดับโปรดักชันตัวแรกของโลกที่สร้างบนสถาปัตยกรรม Mamba
Jamba ผสานจุดแข็งของ Mamba SSM (Structured State Space Model) และสถาปัตยกรรม Transformer แบบดั้งเดิม เพื่อมอบประสิทธิภาพที่น่าประทับใจและเพิ่มความคุ้มค่าในการประมวลผล
มี context window ขนาดใหญ่ 256K โทเค็น และประมวลผลได้สูงสุด 140K โทเค็นบน GPU 80GB เพียงตัวเดียว

สถาปัตยกรรมแบบไฮบริดและประสิทธิภาพของ Jamba

Jamba ใช้เลเยอร์ Mixture of Experts (MoE) ผ่านสถาปัตยกรรมไฮบริด SSM-Transformer โดยใช้เพียง 12B จากทั้งหมด 52B พารามิเตอร์ในระหว่างการทำอนุมาน
สามารถจัดการคอนเท็กซ์ที่ยาวกว่ารุ่นคู่แข่งอย่าง Meta Llama 2 ได้มาก ขณะเดียวกันก็ยังรักษา throughput และประสิทธิภาพในระดับสูง
ให้ throughput สูงขึ้น 3 เท่าเมื่อทำงานกับคอนเท็กซ์ยาว และมีประสิทธิภาพมากกว่าโมเดลแบบ Transformer ที่มีขนาดใกล้เคียงกัน
มีแนวทางแบบ block และ layer โดยแต่ละบล็อกของ Jamba จะประกอบด้วยเลเยอร์ attention หรือ Mamba แล้วตามด้วย multilayer perceptron (MLP)
โครงสร้างนี้ใช้เลเยอร์ Transformer หนึ่งชั้นจากทุก ๆ 8 เลเยอร์ในสัดส่วนรวม
แสดงผลลัพธ์ที่โดดเด่นในหลากหลาย benchmark และทำผลงานได้ดีกว่าหรือเทียบเท่ากับโมเดลล้ำสมัยขนาดเดียวกันในงานที่ครอบคลุมหลากหลายประเภท

ใบอนุญาต

Jamba เปิดตัวแบบ open weights ภายใต้สัญญาอนุญาต Apache 2.0 และใช้งานได้บน Hugging Face
ขณะนี้ Jamba ยังเปิดตัวในฐานะโมเดลวิจัยโดยไม่มีมาตรการความปลอดภัยที่จำเป็นสำหรับการใช้งานเชิงพาณิชย์ แต่ AI21 Labs มีแผนจะปล่อยเวอร์ชันที่ปลอดภัยยิ่งขึ้นภายในไม่กี่สัปดาห์ข้างหน้า

1 ความคิดเห็น

xguru 2024-03-30

ความคิดเห็นจาก Hacker News

แชร์ลิงก์ไปยังเธรดล่าสุดที่มีคำอธิบายเกี่ยวกับ Mamba
- ให้ลิงก์สองลิงก์ไปยัง เธรดอธิบาย Mamba และ เธรดที่ดีกว่า
แนะนำวิดีโอของ Sasha Rush สำหรับผู้ที่สนใจเรื่อง trade-off ระหว่างเลเยอร์ transformer และ state space model
- วิดีโอ ของ Sasha Rush ช่วยให้เข้าใจความแตกต่างระหว่างเลเยอร์ transformer และ state space model ได้ดีขึ้น
แชร์ปัญหาที่เกี่ยวข้องกับความพยายามจะรันบน Linux โดยใช้ GPU 4090 หนึ่งหรือสองตัว
- ระหว่างโหลด checkpoint โดยใช้ GPU 4090 บน Linux เกิดปัญหา แม้ VRAM จะดูเพียงพอ แต่ก็ยังล้มเหลว พร้อมแสดงความสนใจต่อการทดลองนี้
ยินดีกับการมาถึงของโมเดลระดับ production เต็มรูปแบบที่ใช้ Mamba พร้อมแสดงความสนใจทั้งด้านประสิทธิภาพและ throughput บน benchmark ของ context window ยาว
- มีความรู้สึกว่าเมื่อ Mamba ใช้ context ที่ยาวขึ้น throughput จะเพิ่มขึ้นมาก แต่ความแม่นยำจะลดลงเล็กน้อย
ชี้ให้เห็นถึงความไม่มีประสิทธิภาพของ LLM (Large Language Models)
- กล่าวถึงความไม่มีประสิทธิภาพของ LLM ที่ต้องใช้หน่วยความจำ GPU 80GB และหวังว่ายังมีพื้นที่อีกมากสำหรับการปรับปรุงอัลกอริทึม
ตั้งคำถามถึงความจำเป็นของเลเยอร์ self-attention
- ถามว่าทำไมจึงต้องมีเลเยอร์ self-attention แทนที่จะสลับใช้เพียงเลเยอร์ SSM และ MLP
อธิบายการปรับปรุงด้านประสิทธิภาพของโมเดล Jamba-v0.1-hybrid-MoE
- มีความเห็นว่าโมเดล Jamba-v0.1-hybrid-MoE ให้ context ที่ยาวกว่า เร็วกว่า และต้นทุนต่ำกว่าโมเดลเดิม และจะเป็นจุดจบของแนวคิดที่ว่า "โมเดลเดียวครองทุกอย่าง"
ชี้ปัญหาเรื่องชื่อ Mamba ซ้ำกัน
- เน้นย้ำความสำคัญของการตั้งชื่อ เพราะชื่อ Mamba ถูกใช้เป็นแพ็กเกจ Python ยอดนิยมอยู่แล้ว
กล่าวถึงชื่อ Sparabo และความน่าสนุกของการที่ชื่อเก่าถูกนำมาใช้กับสิ่งใหม่
- ถามว่ามีชื่อ Sparabo อยู่หรือไม่ และแสดงความสนใจต่อการที่ชื่อเก่าถูกนำมาใช้กับสิ่งใหม่
กล่าวว่างานด้าน context ยาวมีความเกี่ยวข้องกับ MemGPT พร้อมเสนอว่าแนวคิดคล้ายกันอาจนำไปใช้กับโมเดลสถาปัตยกรรม Mamba ได้
- กล่าวถึงงานด้าน context ยาวที่เกี่ยวข้องกับ MemGPT และเสนอความเห็นว่าน่าจะนำไปใช้กับโมเดลสถาปัตยกรรม Mamba ได้เช่นกัน