• เป็น โมเดล omnimodal แบบเนทีฟ ที่ประมวลผลข้อความ รูปภาพ วิดีโอ และเสียงแบบบูรณาการบน สถาปัตยกรรมเดียว โดย ออกแบบมาเฉพาะสำหรับงานเอเจนต์
  • ใช้ไลเซนส์ MIT จึงสามารถนำไปใช้งานเชิงพาณิชย์และทำ fine-tuning ได้ทั้งหมด โดย ไม่ต้องขออนุญาตเพิ่มเติม
  • โครงสร้าง Sparse MoE ทำให้เปิดใช้งานเพียง 15B จากพารามิเตอร์ทั้งหมด 310B เพื่อการอนุมานที่มีประสิทธิภาพ (เวอร์ชัน Pro คือ 1.02T/42B)
  • Hybrid Attention (SWA + GA อัตราส่วน 5:1, หน้าต่าง 128) ช่วยลดปริมาณการจัดเก็บ KV-cache ได้ราว 6 เท่า พร้อมรองรับคอนเท็กซ์สูงสุด 1M โทเคน
  • มาพร้อม vision encoder เฉพาะทาง (ViT 729M พารามิเตอร์, hybrid window attention) และ audio encoder (261M พารามิเตอร์, อิงตาม MiMo-Audio-Tokenizer)
  • โมดูล Multi-Token Prediction(MTP) แบบ 3 เลเยอร์ ช่วยเร่งการอนุมานด้วย speculative decoding และเพิ่มประสิทธิภาพการฝึก RL
  • ฝึกด้วยโทเคนรวมประมาณ 48T โทเคน ในรูปแบบ FP8 mixed precision และในขั้นตอน post-training มีการใช้ SFT, เอเจนต์ RL ขนาดใหญ่, Multi-Teacher On-Policy Distillation(MOPD) เพื่อเสริมประสิทธิภาพบนเบนช์มาร์กด้านเอเจนต์และมัลติโหมด
    • ไปป์ไลน์ 5 ขั้นตอน (pretraining ข้อความ → projector warmup → multimodal pretraining → post-training แบบ SFT/เอเจนต์ → RL/MOPD)
  • รองรับ SGLang(FP8 quantization, dp/tp parallel) และ การเผยแพร่อย่างเป็นทางการบน vLLM
  • มีให้เลือก 2 เวอร์ชันคือ Base(256K) และ Full(1M)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น