MiMo-V2.5 — โมเดล AI แบบโอเพนซอร์สออมนิโมเดลของ Xiaomi
(huggingface.co)- เป็น โมเดลออมนิโหมดแบบเนทีฟ ที่รวมการประมวลผลข้อความ ภาพ วิดีโอ และเสียงไว้ใน สถาปัตยกรรมเดียว โดย ออกแบบมาเฉพาะสำหรับงานเอเจนต์
- ใช้ไลเซนส์ MIT จึงสามารถแจกจ่ายเชิงพาณิชย์และทำฟाइनจูนได้ทั้งหมด โดยไม่ต้องขออนุญาตเพิ่มเติม
- ใช้สถาปัตยกรรม Sparse MoE โดยเปิดใช้งานเพียง 15B จากพารามิเตอร์ทั้งหมด 310B เพื่อให้ทำ inference ได้อย่างมีประสิทธิภาพ (เวอร์ชัน Pro คือ 1.02T/42B)
- ใช้ Hybrid Attention (SWA + GA อัตราส่วน 5:1, หน้าต่าง 128) เพื่อลดปริมาณการจัดเก็บ KV-cache ลงได้ราว 6 เท่า พร้อมรองรับคอนเท็กซ์ได้สูงสุด 1M โทเค็น
- มาพร้อม vision encoder เฉพาะทาง (ViT 729M พารามิเตอร์, hybrid window attention) และ audio encoder (261M พารามิเตอร์, อิงตาม MiMo-Audio-Tokenizer)
- มีโมดูล Multi-Token Prediction(MTP) จำนวน 3 เลเยอร์ เพื่อเร่ง inference แบบ speculative decoding และเพิ่มประสิทธิภาพการฝึก RL
- ฝึกด้วยข้อมูลรวมประมาณ 48T โทเค็น ด้วย FP8 mixed precision และในขั้นตอน post-training ได้ใช้ SFT, เอเจนต์ RL ขนาดใหญ่, Multi-Teacher On-Policy Distillation(MOPD) เพื่อยกระดับประสิทธิภาพบนเบนช์มาร์กด้านเอเจนต์และมัลติโหมด
- ไปป์ไลน์ 5 ขั้นตอน (พรีเทรนข้อความ → วอร์มอัปโปรเจ็กเตอร์ → พรีเทรนมัลติโหมด → SFT/โพสต์โปรเซสสำหรับเอเจนต์ → RL/MOPD)
- รองรับ SGLang(FP8 quantization, dp/tp parallel) และ การแจกจ่ายอย่างเป็นทางการบน vLLM
- มีให้เลือกสองเวอร์ชันคือ Base(256K) และ Full(1M)
2 ความคิดเห็น
อันนี้ VentureBeat ทดสอบแล้วบอกว่าค่อนข้างเหมาะกับ OpenClaw
https://venturebeat.com/ai/…
เมื่อคิดถึงธุรกิจหลักของ Xiaomi ก็เป็นไปได้เหมือนกันว่าโมเดลนี้อาจถูกสร้างขึ้นโดยคำนึงถึงเอเจนต์อย่าง OpenClaw และ Hermes ด้วย