- เป็น โมเดล omnimodal แบบเนทีฟ ที่ประมวลผลข้อความ รูปภาพ วิดีโอ และเสียงแบบบูรณาการบน สถาปัตยกรรมเดียว โดย ออกแบบมาเฉพาะสำหรับงานเอเจนต์
- ใช้ไลเซนส์ MIT จึงสามารถนำไปใช้งานเชิงพาณิชย์และทำ fine-tuning ได้ทั้งหมด โดย ไม่ต้องขออนุญาตเพิ่มเติม
- โครงสร้าง Sparse MoE ทำให้เปิดใช้งานเพียง 15B จากพารามิเตอร์ทั้งหมด 310B เพื่อการอนุมานที่มีประสิทธิภาพ (เวอร์ชัน Pro คือ 1.02T/42B)
- Hybrid Attention (SWA + GA อัตราส่วน 5:1, หน้าต่าง 128) ช่วยลดปริมาณการจัดเก็บ KV-cache ได้ราว 6 เท่า พร้อมรองรับคอนเท็กซ์สูงสุด 1M โทเคน
- มาพร้อม vision encoder เฉพาะทาง (ViT 729M พารามิเตอร์, hybrid window attention) และ audio encoder (261M พารามิเตอร์, อิงตาม MiMo-Audio-Tokenizer)
- โมดูล Multi-Token Prediction(MTP) แบบ 3 เลเยอร์ ช่วยเร่งการอนุมานด้วย speculative decoding และเพิ่มประสิทธิภาพการฝึก RL
- ฝึกด้วยโทเคนรวมประมาณ 48T โทเคน ในรูปแบบ FP8 mixed precision และในขั้นตอน post-training มีการใช้ SFT, เอเจนต์ RL ขนาดใหญ่, Multi-Teacher On-Policy Distillation(MOPD) เพื่อเสริมประสิทธิภาพบนเบนช์มาร์กด้านเอเจนต์และมัลติโหมด
- ไปป์ไลน์ 5 ขั้นตอน (pretraining ข้อความ → projector warmup → multimodal pretraining → post-training แบบ SFT/เอเจนต์ → RL/MOPD)
- รองรับ SGLang(FP8 quantization, dp/tp parallel) และ การเผยแพร่อย่างเป็นทางการบน vLLM
- มีให้เลือก 2 เวอร์ชันคือ Base(256K) และ Full(1M)
ยังไม่มีความคิดเห็น