- MiniMax-M1 คือ โมเดลอนุมานแบบไฮบริดแอทเทนชันขนาดใหญ่แบบโอเพนเวตตัวแรกของโลก
- โครงสร้าง Hybrid MoE ขนาด 456 พันล้านพารามิเตอร์ และกลไก Lightning Attention ทำให้โดดเด่นในการประมวลผลคอนเท็กซ์ยาว
- ด้วยการฝึกแบบอิง RL และการนำ อัลกอริทึม CISPO มาใช้ จึงสามารถแก้ปัญหาหลากหลายได้อย่างมีประสิทธิภาพ
- ในการทดสอบเบนช์มาร์ก เมื่อเทียบกับ DeepSeek-R1, Qwen3-235B และรุ่นอื่น ๆ พบว่าให้ประสิทธิภาพยอดเยี่ยมในงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน การใช้เครื่องมือ และอินพุตข้อความยาว
- มีสภาพแวดล้อมการอนุมาน เครื่องมือสนับสนุน API และแชตบอตที่หลากหลาย จึงมีคุณค่าสูงสำหรับใช้เป็นฐานของ เอเจนต์โมเดลภาษายุคถัดไป
ภาพรวมโปรเจ็กต์โอเพนซอร์ส MiniMax-M1
- MiniMax-M1 เป็น โมเดลอนุมานแบบไฮบริดแอทเทนชันขนาดใหญ่แบบโอเพนเวตตัวแรกของโลก ซึ่งแสดงให้เห็นถึงจุดแข็งและความพร้อมใช้งานจริงที่เหนือกว่าเมื่อเทียบกับทั้งโมเดลเชิงพาณิชย์และโอเพนโมเดลที่มีอยู่
- ออกแบบมาให้เหมาะกับคอนเท็กซ์ยาว การอนุมานที่ซับซ้อน และการแก้ปัญหาในสภาพแวดล้อมซอฟต์แวร์ ด้วยการผสานโครงสร้าง Mixture-of-Experts (MoE) แบบไฮบริดขนาดใหญ่เข้ากับกลไก Lightning Attention
- รองรับบริบทยาวได้อย่างมีประสิทธิภาพ (สูงสุด 1 ล้านโทเค็น) และลดปริมาณการคำนวณระหว่างการทดสอบลงอย่างมาก (ที่ 100K ใช้ FLOPs เพียง 25% เมื่อเทียบกับ DeepSeek-R1)
- ยกระดับทั้งความสามารถในการขยายระบบและประสิทธิภาพการอนุมานให้สูงสุดด้วยเทคโนโลยี RL รุ่นล่าสุด อัลกอริทึม CISPO แบบใหม่ และการออกแบบไฮบริดแอทเทนชัน
1. ภาพรวมโมเดล
- MiniMax-M1 มาพร้อม โครงสร้าง Mixture-of-Experts (MoE) แบบไฮบริด และ Lightning Attention
- พัฒนาต่อยอดจาก MiniMax-Text-01 รุ่นก่อนหน้า (456 พันล้านพารามิเตอร์, เปิดใช้งาน 45.9 พันล้านพารามิเตอร์ต่อโทเค็น)
- รองรับ ความยาวคอนเท็กซ์ 1 ล้านโทเค็น (มากกว่า DeepSeek R1 อยู่ 8 เท่า)
- ลดปริมาณการคำนวณระหว่างทดสอบได้อย่างมากด้วย Lightning Attention (25% เมื่อเทียบกับ DeepSeek R1)
- เหมาะกับงานที่ต้องใช้อินพุตยาวและการอนุมานที่ซับซ้อน
- ฝึกกับโจทย์หลากหลายผ่าน RL ขนาดใหญ่ เช่น การอนุมานทางคณิตศาสตร์และงานวิศวกรรมซอฟต์แวร์ในสถานการณ์จริง
- นำเสนอเฟรมเวิร์กการสเกล RL เฉพาะของ MiniMax-M1
- เทคนิค CISPO: นำ อัลกอริทึม clipping น้ำหนัก importance sampling ที่เหนือกว่าวิธี RL แบบเดิมมาใช้
- เสริมประสิทธิภาพและความสามารถในการขยายของ RL ด้วยไฮบริดแอทเทนชัน
- ฝึกและเผยแพร่ 2 รุ่นตาม งบประมาณการคิด 40K, 80K
- ให้ ประสิทธิภาพยอดเยี่ยม เหนือกว่าโอเพนโมเดลสมรรถนะสูงเดิมอย่าง DeepSeek-R1 และ Qwen3-235B ในงานวิศวกรรมซอฟต์แวร์ การใช้เครื่องมือ และงานคอนเท็กซ์ยาว
- วางรากฐานสำหรับสร้างเอเจนต์โมเดลภาษายุคถัดไปเพื่อแก้โจทย์ท้าทายในโลกจริง
2. การประเมินผล (Evaluation)
ประเด็นสำคัญจากผลเบนช์มาร์ก
- ทำผลงานระดับ SOTA ในด้าน คณิตศาสตร์ โค้ด วิศวกรรมซอฟต์แวร์ และคอนเท็กซ์ข้อความยาว
- ได้คะแนนสูงโดยรวมเมื่อเทียบกับโอเพนโมเดลอื่น โดยเฉพาะใน ซอฟต์แวร์เบนช์ (SWE-bench) และ งานคอนเท็กซ์ยาว ที่มีความได้เปรียบชัดเจน
- ตัวอย่างรายการที่น่าสนใจ
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- มีความแข็งแกร่งในงานพัฒนาซอฟต์แวร์ที่เกี่ยวข้อง เช่น LiveCodeBench, FullStackBench
- สภาพแวดล้อมการรัน: ประเมินที่ temperature 1.0, top_p 0.95
- สำหรับเบนช์มาร์กอย่าง SWE-bench และ TAU-bench ได้ทำการประเมินด้วยขั้นตอนและการตั้งค่าของตนเอง (เช่น การ localization แบบสองขั้นระดับไฟล์, ไม่ใช้ embedding)
3. คู่มือการใช้งานโมเดล MiniMax-M1
การตั้งค่าที่แนะนำเพื่อประสิทธิภาพสูงสุด
3.1. พารามิเตอร์การอนุมาน
- Temperature: 1.0
- Top_p: 0.95
ชุดค่านี้ช่วยให้ได้ทั้งความหลากหลายของข้อความและความสอดคล้องเชิงตรรกะ
3.2. System Prompt
- งานทั่วไป: "You are a helpful assistant."
- การพัฒนาเว็บ: มีพรอมป์ต์เฉพาะทางสำหรับงานหน้าเว็บที่ซับซ้อน เช่น การสร้างโค้ดแบบรวม UI ไว้ครบถ้วน
- การอนุมานทางคณิตศาสตร์: ให้แสดงวิธีทำทีละขั้น แล้วใส่คำตอบสุดท้ายใน \boxed{}
4. คู่มือการดีพลอย
- ดาวน์โหลดโมเดล MiniMax-M1-40k, MiniMax-M1-80k ได้จาก HuggingFace
- ในการให้บริการจริง แนะนำให้ดีพลอยบน vLLM
- เหมาะกับการเสิร์ฟโมเดลขนาดใหญ่ด้วยการจัดการหน่วยความจำอย่างมีประสิทธิภาพ การประมวลผลแบบแบตช์ที่ยอดเยี่ยม และการปรับแต่งประสิทธิภาพ
- รองรับการดีพลอยบน Transformers แยกต่างหากเช่นกัน
5. Function Calling (อินเทอร์เฟซเชิงฟังก์ชัน)
- MiniMax-M1 รองรับความสามารถด้าน function calling
- เมื่อจำเป็นต้องใช้ฟังก์ชันภายนอก จะส่งออกพารามิเตอร์ในรูปแบบที่มีโครงสร้างโดยอัตโนมัติ
- มี คู่มือ function calling ให้ใช้งาน
6. Chatbot & API
- MiniMax Chatbot: มีอินเทอร์เฟซแชตที่รวมการค้นหาออนไลน์ไว้ด้วย
- API: มี API ออนไลน์สำหรับนักพัฒนา และเครื่องมือสำหรับนักพัฒนา เช่น MiniMax MCP Server
- รวมถึงการสร้างวิดีโอ ภาพ และเสียงด้วย AI ตลอดจนการโคลนเสียง
1 ความคิดเห็น
ความเห็นจาก Hacker News
ถ้าสงสัยว่าต้องใช้อะไรถึงจะรันตัวนี้ได้ ต้องใช้ H200 141GB จำนวน 8 ตัว และราคาก็อยู่ราว ๆ 250,000 ดอลลาร์
ประเด็นถกเถียงบน GitHub / ข้อมูลราคาสินค้าบน eBay
มีข้อมูลว่าสัปดาห์นี้คือ 'launch week' ของ MiniMax
วันจันทร์เปิดตัว M1 และวันอังคารเปิดตัว Hailuo 2
ข่าวเกี่ยวกับโมเดลจากจีน
ยังไม่แน่ชัดว่าจะมีประกาศแบบนี้ต่อเนื่องไปทั้งสัปดาห์หรือไม่ และตอนนี้บริษัทนี้เป็นที่รู้จักหลัก ๆ จาก LLM และโมเดลวิดีโอ
ตรวจสอบประกาศอย่างเป็นทางการได้ที่ X ของ MiniMax (เดิมคือ Twitter)
อีกอย่าง รายงานทางเทคนิคของ MiniMax M1 ก็มีประโยชน์มาก
PDF รายงานทางเทคนิค
แม้จะไม่ใช่โมเดล open-weight ระดับ SOTA แต่มีข้ออ้างที่น่าสนใจและหนักแน่นมากเกี่ยวกับ lightning attention และรูปแบบดัดแปลงของ GRPO (CISPO)
(ฉันไม่ได้เกี่ยวข้องกับบริษัทนี้ แค่แชร์ข้อมูลที่ได้มา)
พอเห็นประโยคในบทความ arXiv ว่า "We publicly release MiniMax-M1 at this https url" ก็ทำให้ชอบบริษัทนี้ เพราะเป็นการปล่อยโค้ดจริง ไม่ใช่รีโพว่างเปล่า
ความเห็นของฉัน
ถ้าใครรู้จักผู้เชี่ยวชาญที่น่าเชื่อถือหรือคนที่ถกประเด็นนี้ได้น่าสนใจ อยากให้แนะนำ
และยังมีแผนจะเข้าจดทะเบียนในตลาดหลักทรัพย์ฮ่องกง (HKEX) เร็ว ๆ นี้
บทความที่เกี่ยวข้อง
แม้หน้าเพจทางการจะไม่ได้ระบุไว้ชัดเจน แต่ MiniMax เป็นบริษัทจีน
ดูได้จาก Wikipedia
อยากให้ตั้งชื่อโมเดลแบบนี้ให้ดีกว่านี้หน่อย
ฟังเหมือนโปรเซสเซอร์ของ Mac Studio
ชื่อนี้ก็มาจากอัลกอริทึม AI คลาสสิกชื่อดังนั่นเอง
ในงานวิจัยมีประโยคว่า "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
นั่นแปลว่า 87.5% ของทั้งหมดเป็น linear attention และ 12.5% เป็น full attention
จริง ๆ แล้วคำว่า 'linear attention' ทำให้สับสน
softmax attention เป็นวิธี routing ข้อมูล โดยตอนคำนวณโทเคน k จะรับข้อมูลจาก 1 ถึง k แต่ต้องผ่านช่องสัญญาณที่มีขนาดคงที่
ส่วน linear attention นั้น แต่ละเลเยอร์มีเพียง 'register bank' ขนาดคงที่เท่านั้น
มันไม่ได้โดดเด่นว่าเป็น attention จริง ๆ เท่าไร นอกจากเข้ากันได้กับการคำนวณแบบ layer-at-once
มีข่าวลือว่า MiniMax กำลังปูทางสำหรับการ IPO
บทความที่เกี่ยวข้อง
ถ้าฝึกโมเดลขนาดนี้ได้โดยไม่พึ่งโครงสร้างพื้นฐานคลาวด์ฝั่งตะวันตก ก็สงสัยว่าโครงสร้างการประมวลผลโทเคนเป็นอย่างไร
ดูจาก xcancel