โมเดลอนุมาน MiMo ของ Xiaomi
(github.com/XiaomiMiMo)- MiMo-7B เป็นซีรีส์โมเดลที่พัฒนาขึ้นเพื่อดึง ศักยภาพด้านการอนุมานของโมเดลภาษา ออกมาให้ได้มากที่สุด
- แสดงประสิทธิภาพโดดเด่นในงานอนุมานด้านคณิตศาสตร์และโค้ด ผ่านกลยุทธ์ การฝึกล่วงหน้า และ การฝึกภายหลัง
- แม้ MiMo-7B จะเป็น โมเดลขนาดเล็ก แต่ก็ให้ ประสิทธิภาพที่เทียบเคียงได้ กับโมเดลที่มีขนาดใหญ่กว่า
- เปิดให้ใช้งานแบบ โอเพนซอร์ส จึงมีศักยภาพในการมีส่วนร่วมกับชุมชน
- ปรับปรุงความเร็วในการฝึกและการตรวจสอบได้อย่างมากผ่าน โครงสร้างพื้นฐาน RL
I. บทนำ
- งานวิจัยด้านการเรียนรู้แบบเสริมกำลัง (RL) ที่ประสบความสำเร็จส่วนใหญ่อาศัย โมเดลขนาดใหญ่ และเป็นเรื่องยากที่จะยกระดับความสามารถด้านคณิตศาสตร์และโค้ดพร้อมกันในโมเดลขนาดเล็ก
- MiMo-7B เป็นโมเดลที่ฝึกขึ้นใหม่ตั้งแต่ต้นสำหรับ งานอนุมาน และมี ศักยภาพด้านการอนุมาน ที่เหนือกว่าโมเดลขนาดใหญ่กว่า
- ซีรีส์ MiMo-7B เปิดให้ใช้งานแบบ โอเพนซอร์ส และสามารถมีส่วนช่วยให้ชุมชนพัฒนาโมเดลภาษาสำหรับการอนุมานที่ทรงพลังได้
🌟 ประเด็นสำคัญ
-
การฝึกล่วงหน้า: โมเดลพื้นฐานสำหรับการอนุมาน
- ปรับแต่งไปป์ไลน์การประมวลผลข้อมูลล่วงหน้าเพื่อเพิ่ม ความหนาแน่นของรูปแบบการอนุมาน
- ใช้หลายกลยุทธ์เพื่อสร้าง ข้อมูลการอนุมานสังเคราะห์ที่หลากหลาย
- เพิ่ม การทำนายหลายโทเคน เป็นเป้าหมายการฝึกเพิ่มเติมเพื่อยกระดับประสิทธิภาพของโมเดล
-
สูตรการฝึกภายหลัง: โมเดลอนุมานแนวบุกเบิก
- ใช้โจทย์คณิตศาสตร์และโค้ดจำนวน 130K เป็นข้อมูลฝึกสำหรับ RL
- นำ รางวัลโค้ดตามระดับความยากของการทดสอบ มาใช้เพื่อทำ policy optimization ได้อย่างมีประสิทธิภาพ
- ใช้ กลยุทธ์การสุ่มตัวอย่างข้อมูลซ้ำ สำหรับโจทย์ง่ายเพื่อทำให้การอัปเดตนโยบายมีเสถียรภาพ
-
โครงสร้างพื้นฐาน RL
- พัฒนา Seamless Rollout Engine เพื่อเร่งการฝึกและการตรวจสอบของ RL
- รองรับ MTP บน vLLM และเสริมความแข็งแกร่งของเอนจินอนุมานในระบบ RL
II. รายละเอียดโมเดล
- ซีรีส์ MiMo-7B มี โมเดลเช็กพอยต์ หลายแบบให้ใช้งาน และสามารถดาวน์โหลดได้จาก HuggingFace
III. ผลการประเมิน
- MiMo-7B-RL แสดง ประสิทธิภาพยอดเยี่ยม ในงานอนุมานด้านคณิตศาสตร์และโค้ด
- ทำได้ ผลลัพธ์ที่แข่งขันได้ ในหลายเบนช์มาร์ก
IV. การใช้งาน
- รองรับ การอนุมาน ผ่าน vLLM และ HuggingFace
- สามารถดึงประสิทธิภาพได้ดีที่สุดผ่าน สภาพแวดล้อมที่แนะนำ และการใช้พรอมป์ต์ที่เหมาะสม
V. การอ้างอิง
- มีข้อมูลการอ้างอิงสำหรับ MiMo-7B
VI. ติดต่อ
- หากมีข้อสงสัย สามารถติดต่อได้ที่ mimo@xiaomi.com หรือผ่าน GitHub Issues
1 ความคิดเห็น
ความเห็นบน Hacker News
วิธีจัดการขั้นตอน reinforcement learning (RL) สำหรับข้อมูลโค้ดในงานวิจัยนี้น่าสนใจมาก ฝึกกับงานสร้างโค้ดที่สามารถตรวจคำตอบได้ด้วยการรัน unit test เลยสงสัยว่าโมเดลอื่น ๆ ทำขั้นตอนการฝึกแบบนี้ด้วยหรือไม่
สงสัยว่าทำไมในจีนถึงมีโมเดล AI ที่เน้นภาษาอังกฤษเป็นหลักเยอะมาก เป็นเพราะไม่สนใจผู้ใช้ในประเทศตัวเอง หรือเพราะคิดว่าถ้าปล่อยโมเดลที่เน้นภาษาจีนก่อนจะไม่ได้รับความสนใจจากโลกตะวันตกกันแน่
ความสามารถด้านการเขียนโค้ดของโมเดล 7B แข็งแกร่งมาก ตอนนี้ใช้ Gemini Pro 2.5 ซึ่งได้ 67.8 คะแนน ส่วนโมเดลนี้ได้ 57.8 คะแนน ซึ่งใกล้กับ 60.6 คะแนนของ Gemini 2.5 Flash มาก
MiMo-7B อ้างว่าทำได้ดีกว่าโมเดลขนาดใหญ่กว่าอย่าง Qwen-32B และมีประสิทธิภาพทัดเทียมกับ OpenAI o1-mini บนเบนช์มาร์กด้านคณิตศาสตร์/โค้ด เลยสงสัยว่านี่เป็นสัญญาณว่าการปรับแต่ง pretraining + RLHF เริ่มเอาชนะเรื่องขนาดได้แล้ว หรือแค่วงการเก่งขึ้นในการทำเบนช์มาร์กความสามารถเฉพาะทางที่แคบลง
ตลกดีที่ได้เห็นเบนช์มาร์กที่ละโมเดลระดับท็อปอย่าง O3 ออกไป ทั้งที่ตอนนี้มันเป็นโมเดลที่ดีที่สุดในหลายเบนช์มาร์ก ยังมี Gemini Pro/Claude 3.7 อีกด้วย
เวลาจะใช้ไฟล์ gguf ใน ollama ปกติคนจะสร้าง modelfile สำหรับโมเดลใหม่ไปด้วยเลยไหม หรือแค่หวังว่า ollama พื้นฐานจะใช้งานกับโมเดลใหม่ได้เอง
ใน README เขียนแค่ "RL" โดยไม่ได้ระบุว่าใช้ RL ประเภทไหน ถึงนักวิจัยทั้งหลาย: เข้าใจว่ายุ่ง แต่ช่วยอย่าละรายละเอียดแบบนี้เลย
ลองทดสอบนิดหน่อยแล้ว โดยรวมถือว่าเสถียรพอสมควร แต่เพราะใช้เวลาคิดนานจึงต้องรอนานพอควร นานกว่าพวกโมเดลใหญ่กว่าอย่าง qwen moe รุ่นล่าสุดเสียอีก
สงสัยว่าจะใช้โมเดลนี้เป็น AI assistant บนมือถือ Xiaomi 15 series หรือไม่ น่าจะใช้มั้ง แต่ก็ยังไม่แน่ใจว่าควรคาดหวังอะไร
ว้าว เบนช์มาร์กยอดเยี่ยมมาก รอคุยกับโมเดลนี้ไม่ไหวแล้ว