1 คะแนน โดย GN⁺ 2025-05-01 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • MiMo-7B เป็นซีรีส์โมเดลที่พัฒนาขึ้นเพื่อดึง ศักยภาพด้านการอนุมานของโมเดลภาษา ออกมาให้ได้มากที่สุด
  • แสดงประสิทธิภาพโดดเด่นในงานอนุมานด้านคณิตศาสตร์และโค้ด ผ่านกลยุทธ์ การฝึกล่วงหน้า และ การฝึกภายหลัง
  • แม้ MiMo-7B จะเป็น โมเดลขนาดเล็ก แต่ก็ให้ ประสิทธิภาพที่เทียบเคียงได้ กับโมเดลที่มีขนาดใหญ่กว่า
  • เปิดให้ใช้งานแบบ โอเพนซอร์ส จึงมีศักยภาพในการมีส่วนร่วมกับชุมชน
  • ปรับปรุงความเร็วในการฝึกและการตรวจสอบได้อย่างมากผ่าน โครงสร้างพื้นฐาน RL

I. บทนำ

  • งานวิจัยด้านการเรียนรู้แบบเสริมกำลัง (RL) ที่ประสบความสำเร็จส่วนใหญ่อาศัย โมเดลขนาดใหญ่ และเป็นเรื่องยากที่จะยกระดับความสามารถด้านคณิตศาสตร์และโค้ดพร้อมกันในโมเดลขนาดเล็ก
  • MiMo-7B เป็นโมเดลที่ฝึกขึ้นใหม่ตั้งแต่ต้นสำหรับ งานอนุมาน และมี ศักยภาพด้านการอนุมาน ที่เหนือกว่าโมเดลขนาดใหญ่กว่า
  • ซีรีส์ MiMo-7B เปิดให้ใช้งานแบบ โอเพนซอร์ส และสามารถมีส่วนช่วยให้ชุมชนพัฒนาโมเดลภาษาสำหรับการอนุมานที่ทรงพลังได้

🌟 ประเด็นสำคัญ

  • การฝึกล่วงหน้า: โมเดลพื้นฐานสำหรับการอนุมาน

    • ปรับแต่งไปป์ไลน์การประมวลผลข้อมูลล่วงหน้าเพื่อเพิ่ม ความหนาแน่นของรูปแบบการอนุมาน
    • ใช้หลายกลยุทธ์เพื่อสร้าง ข้อมูลการอนุมานสังเคราะห์ที่หลากหลาย
    • เพิ่ม การทำนายหลายโทเคน เป็นเป้าหมายการฝึกเพิ่มเติมเพื่อยกระดับประสิทธิภาพของโมเดล
  • สูตรการฝึกภายหลัง: โมเดลอนุมานแนวบุกเบิก

    • ใช้โจทย์คณิตศาสตร์และโค้ดจำนวน 130K เป็นข้อมูลฝึกสำหรับ RL
    • นำ รางวัลโค้ดตามระดับความยากของการทดสอบ มาใช้เพื่อทำ policy optimization ได้อย่างมีประสิทธิภาพ
    • ใช้ กลยุทธ์การสุ่มตัวอย่างข้อมูลซ้ำ สำหรับโจทย์ง่ายเพื่อทำให้การอัปเดตนโยบายมีเสถียรภาพ
  • โครงสร้างพื้นฐาน RL

    • พัฒนา Seamless Rollout Engine เพื่อเร่งการฝึกและการตรวจสอบของ RL
    • รองรับ MTP บน vLLM และเสริมความแข็งแกร่งของเอนจินอนุมานในระบบ RL

II. รายละเอียดโมเดล

  • ซีรีส์ MiMo-7B มี โมเดลเช็กพอยต์ หลายแบบให้ใช้งาน และสามารถดาวน์โหลดได้จาก HuggingFace

III. ผลการประเมิน

  • MiMo-7B-RL แสดง ประสิทธิภาพยอดเยี่ยม ในงานอนุมานด้านคณิตศาสตร์และโค้ด
  • ทำได้ ผลลัพธ์ที่แข่งขันได้ ในหลายเบนช์มาร์ก

IV. การใช้งาน

  • รองรับ การอนุมาน ผ่าน vLLM และ HuggingFace
  • สามารถดึงประสิทธิภาพได้ดีที่สุดผ่าน สภาพแวดล้อมที่แนะนำ และการใช้พรอมป์ต์ที่เหมาะสม

V. การอ้างอิง

  • มีข้อมูลการอ้างอิงสำหรับ MiMo-7B

VI. ติดต่อ

  • หากมีข้อสงสัย สามารถติดต่อได้ที่ mimo@xiaomi.com หรือผ่าน GitHub Issues

1 ความคิดเห็น

 
GN⁺ 2025-05-01
ความเห็นบน Hacker News
  • วิธีจัดการขั้นตอน reinforcement learning (RL) สำหรับข้อมูลโค้ดในงานวิจัยนี้น่าสนใจมาก ฝึกกับงานสร้างโค้ดที่สามารถตรวจคำตอบได้ด้วยการรัน unit test เลยสงสัยว่าโมเดลอื่น ๆ ทำขั้นตอนการฝึกแบบนี้ด้วยหรือไม่

    • ข้อมูลโค้ด: มีการคัดชุดข้อมูลฝึกคุณภาพสูงที่รวมทั้งโอเพนซอร์สดาต้าเซ็ตและชุดโจทย์ที่รวบรวมขึ้นใหม่สำหรับปัญหาการเขียนโค้ด โดยตัดโจทย์ที่ไม่มี test case ออกไป สำหรับโจทย์ที่มี golden solution หากไม่สามารถผ่าน test case ได้ทั้งหมดก็จะถูกตัดออก ส่วนโจทย์ที่ไม่มี golden solution จะถูกตัดออกหากไม่สามารถแก้ได้ในการ rollout 16 ครั้งของโมเดลให้เหตุผลขั้นสูง เช่นเดียวกับข้อมูลคณิตศาสตร์ มีการใช้ MiMo-7B เวอร์ชัน SFT กรองโจทย์ง่าย ๆ ที่แก้ได้สมบูรณ์แบบในการ rollout ทั้ง 16 ครั้งออกไป กระบวนการคัดกรองอย่างเข้มงวดนี้ทำให้ได้โจทย์โค้ด 30,000 ข้อ
    • ในแต่ละรอบของ RL มีการประเมินโจทย์หลายพันข้อเพื่อคำนวณรางวัล โดยแต่ละข้ออาจมี test case หลายร้อยรายการ เพื่อเพิ่มประสิทธิภาพการคำนวณรางวัลและกำจัดเวลาที่ GPU ว่างงาน จึงพัฒนาสภาพแวดล้อม online judge ที่สามารถรัน unit test ปริมาณสูงมากแบบขนานได้
  • สงสัยว่าทำไมในจีนถึงมีโมเดล AI ที่เน้นภาษาอังกฤษเป็นหลักเยอะมาก เป็นเพราะไม่สนใจผู้ใช้ในประเทศตัวเอง หรือเพราะคิดว่าถ้าปล่อยโมเดลที่เน้นภาษาจีนก่อนจะไม่ได้รับความสนใจจากโลกตะวันตกกันแน่

  • ความสามารถด้านการเขียนโค้ดของโมเดล 7B แข็งแกร่งมาก ตอนนี้ใช้ Gemini Pro 2.5 ซึ่งได้ 67.8 คะแนน ส่วนโมเดลนี้ได้ 57.8 คะแนน ซึ่งใกล้กับ 60.6 คะแนนของ Gemini 2.5 Flash มาก

    • เพราะสิ่งที่ได้ยินเกี่ยวกับ llama4 ทำให้เริ่มสงสัยผลการประเมินอยู่บ้าง แต่จะรอดูว่ามันจะอยู่ตรงไหนในการประเมินแบบปิด อย่างไรก็ตามก็น่าประทับใจมาก
  • MiMo-7B อ้างว่าทำได้ดีกว่าโมเดลขนาดใหญ่กว่าอย่าง Qwen-32B และมีประสิทธิภาพทัดเทียมกับ OpenAI o1-mini บนเบนช์มาร์กด้านคณิตศาสตร์/โค้ด เลยสงสัยว่านี่เป็นสัญญาณว่าการปรับแต่ง pretraining + RLHF เริ่มเอาชนะเรื่องขนาดได้แล้ว หรือแค่วงการเก่งขึ้นในการทำเบนช์มาร์กความสามารถเฉพาะทางที่แคบลง

  • ตลกดีที่ได้เห็นเบนช์มาร์กที่ละโมเดลระดับท็อปอย่าง O3 ออกไป ทั้งที่ตอนนี้มันเป็นโมเดลที่ดีที่สุดในหลายเบนช์มาร์ก ยังมี Gemini Pro/Claude 3.7 อีกด้วย

  • เวลาจะใช้ไฟล์ gguf ใน ollama ปกติคนจะสร้าง modelfile สำหรับโมเดลใหม่ไปด้วยเลยไหม หรือแค่หวังว่า ollama พื้นฐานจะใช้งานกับโมเดลใหม่ได้เอง

  • ใน README เขียนแค่ "RL" โดยไม่ได้ระบุว่าใช้ RL ประเภทไหน ถึงนักวิจัยทั้งหลาย: เข้าใจว่ายุ่ง แต่ช่วยอย่าละรายละเอียดแบบนี้เลย

  • ลองทดสอบนิดหน่อยแล้ว โดยรวมถือว่าเสถียรพอสมควร แต่เพราะใช้เวลาคิดนานจึงต้องรอนานพอควร นานกว่าพวกโมเดลใหญ่กว่าอย่าง qwen moe รุ่นล่าสุดเสียอีก

    • โดยรวมแล้ว moe ดูเหมือนจะเป็นจุดสมดุลที่ดีกว่า
  • สงสัยว่าจะใช้โมเดลนี้เป็น AI assistant บนมือถือ Xiaomi 15 series หรือไม่ น่าจะใช้มั้ง แต่ก็ยังไม่แน่ใจว่าควรคาดหวังอะไร

  • ว้าว เบนช์มาร์กยอดเยี่ยมมาก รอคุยกับโมเดลนี้ไม่ไหวแล้ว

    • มีอยู่สองสามจุดที่สะดุดตา อย่างแรกคือโมเดล 7B ถูกฝึกด้วยโทเคน 25T (!). นี่คือสเกลการฝึกระดับ Meta เลย Llama 4 Maverick ฝึกมาประมาณ 22T (ส่วน Scout ซึ่งเป็นโมเดลที่เล็กกว่า: 40T)
    • อย่างที่สองคือมันเป็นเส้นทางที่น่าสนใจไปสู่โมเดล RL ที่มีความสามารถในการให้เหตุผลฝังมาแต่ต้น ไม่ใช่โมเดลกลั่นจากโมเดลอื่นหรือชั้น RL เพิ่มภายหลังเพื่อดึงความสามารถด้าน reasoning ออกมา ซึ่งอ้างว่าวิธีนี้ให้ประสิทธิภาพต่อพารามิเตอร์เพิ่มขึ้นมาก
    • ไม่มีประสบการณ์กับโมเดลของ Xiaomi เลยยังระวังกับโมเดลนี้อยู่ แต่ในเชิงสถิติดูเป็นโมเดล reasoning แบบรันในเครื่องที่มีอนาคตมาก