- AI21 Labs เปิดตัว Jamba โมเดล AI ระดับโปรดักชันตัวแรกของโลกที่สร้างบนสถาปัตยกรรม Mamba
- Jamba ผสานจุดแข็งของ Mamba SSM (Structured State Space Model) และสถาปัตยกรรม Transformer แบบดั้งเดิม เพื่อมอบประสิทธิภาพที่น่าประทับใจและเพิ่มความคุ้มค่าในการประมวลผล
- มี context window ขนาดใหญ่ 256K โทเค็น และประมวลผลได้สูงสุด 140K โทเค็นบน GPU 80GB เพียงตัวเดียว
สถาปัตยกรรมแบบไฮบริดและประสิทธิภาพของ Jamba
- Jamba ใช้เลเยอร์ Mixture of Experts (MoE) ผ่านสถาปัตยกรรมไฮบริด SSM-Transformer โดยใช้เพียง 12B จากทั้งหมด 52B พารามิเตอร์ในระหว่างการทำอนุมาน
- สามารถจัดการคอนเท็กซ์ที่ยาวกว่ารุ่นคู่แข่งอย่าง Meta Llama 2 ได้มาก ขณะเดียวกันก็ยังรักษา throughput และประสิทธิภาพในระดับสูง
- ให้ throughput สูงขึ้น 3 เท่าเมื่อทำงานกับคอนเท็กซ์ยาว และมีประสิทธิภาพมากกว่าโมเดลแบบ Transformer ที่มีขนาดใกล้เคียงกัน
- มีแนวทางแบบ block และ layer โดยแต่ละบล็อกของ Jamba จะประกอบด้วยเลเยอร์ attention หรือ Mamba แล้วตามด้วย multilayer perceptron (MLP)
- โครงสร้างนี้ใช้เลเยอร์ Transformer หนึ่งชั้นจากทุก ๆ 8 เลเยอร์ในสัดส่วนรวม
- แสดงผลลัพธ์ที่โดดเด่นในหลากหลาย benchmark และทำผลงานได้ดีกว่าหรือเทียบเท่ากับโมเดลล้ำสมัยขนาดเดียวกันในงานที่ครอบคลุมหลากหลายประเภท
ใบอนุญาต
- Jamba เปิดตัวแบบ open weights ภายใต้สัญญาอนุญาต Apache 2.0 และใช้งานได้บน Hugging Face
- ขณะนี้ Jamba ยังเปิดตัวในฐานะโมเดลวิจัยโดยไม่มีมาตรการความปลอดภัยที่จำเป็นสำหรับการใช้งานเชิงพาณิชย์ แต่ AI21 Labs มีแผนจะปล่อยเวอร์ชันที่ปลอดภัยยิ่งขึ้นภายในไม่กี่สัปดาห์ข้างหน้า
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News