MiMo-V2.5 — โมเดล AI แบบโอเพนซอร์ส Omnimodal ของ Xiaomi

(huggingface.co)

7 คะแนน โดย xguru 23 시간 전 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เป็น โมเดล omnimodal แบบเนทีฟ ที่ประมวลผลข้อความ รูปภาพ วิดีโอ และเสียงแบบบูรณาการบน สถาปัตยกรรมเดียว โดย ออกแบบมาเฉพาะสำหรับงานเอเจนต์
ใช้ไลเซนส์ MIT จึงสามารถนำไปใช้งานเชิงพาณิชย์และทำ fine-tuning ได้ทั้งหมด โดย ไม่ต้องขออนุญาตเพิ่มเติม
โครงสร้าง Sparse MoE ทำให้เปิดใช้งานเพียง 15B จากพารามิเตอร์ทั้งหมด 310B เพื่อการอนุมานที่มีประสิทธิภาพ (เวอร์ชัน Pro คือ 1.02T/42B)
Hybrid Attention (SWA + GA อัตราส่วน 5:1, หน้าต่าง 128) ช่วยลดปริมาณการจัดเก็บ KV-cache ได้ราว 6 เท่า พร้อมรองรับคอนเท็กซ์สูงสุด 1M โทเคน
มาพร้อม vision encoder เฉพาะทาง (ViT 729M พารามิเตอร์, hybrid window attention) และ audio encoder (261M พารามิเตอร์, อิงตาม MiMo-Audio-Tokenizer)
โมดูล Multi-Token Prediction(MTP) แบบ 3 เลเยอร์ ช่วยเร่งการอนุมานด้วย speculative decoding และเพิ่มประสิทธิภาพการฝึก RL
ฝึกด้วยโทเคนรวมประมาณ 48T โทเคน ในรูปแบบ FP8 mixed precision และในขั้นตอน post-training มีการใช้ SFT, เอเจนต์ RL ขนาดใหญ่, Multi-Teacher On-Policy Distillation(MOPD) เพื่อเสริมประสิทธิภาพบนเบนช์มาร์กด้านเอเจนต์และมัลติโหมด
- ไปป์ไลน์ 5 ขั้นตอน (pretraining ข้อความ → projector warmup → multimodal pretraining → post-training แบบ SFT/เอเจนต์ → RL/MOPD)
รองรับ SGLang(FP8 quantization, dp/tp parallel) และ การเผยแพร่อย่างเป็นทางการบน vLLM
มีให้เลือก 2 เวอร์ชันคือ Base(256K) และ Full(1M)

MiMo-V2.5 — โมเดล AI แบบโอเพนซอร์ส Omnimodal ของ Xiaomi

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น