MiniMax-M1 โอเพนเวต โมเดลอนุมานแบบไฮบริดแอทเทนชันขนาดใหญ่

(github.com/MiniMax-AI)

5 คะแนน โดย GN⁺ 2025-06-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

MiniMax-M1 คือ โมเดลอนุมานแบบไฮบริดแอทเทนชันขนาดใหญ่แบบโอเพนเวตตัวแรกของโลก
โครงสร้าง Hybrid MoE ขนาด 456 พันล้านพารามิเตอร์ และกลไก Lightning Attention ทำให้โดดเด่นในการประมวลผลคอนเท็กซ์ยาว
ด้วยการฝึกแบบอิง RL และการนำ อัลกอริทึม CISPO มาใช้ จึงสามารถแก้ปัญหาหลากหลายได้อย่างมีประสิทธิภาพ
ในการทดสอบเบนช์มาร์ก เมื่อเทียบกับ DeepSeek-R1, Qwen3-235B และรุ่นอื่น ๆ พบว่าให้ประสิทธิภาพยอดเยี่ยมในงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน การใช้เครื่องมือ และอินพุตข้อความยาว
มีสภาพแวดล้อมการอนุมาน เครื่องมือสนับสนุน API และแชตบอตที่หลากหลาย จึงมีคุณค่าสูงสำหรับใช้เป็นฐานของ เอเจนต์โมเดลภาษายุคถัดไป

ภาพรวมโปรเจ็กต์โอเพนซอร์ส MiniMax-M1

MiniMax-M1 เป็น โมเดลอนุมานแบบไฮบริดแอทเทนชันขนาดใหญ่แบบโอเพนเวตตัวแรกของโลก ซึ่งแสดงให้เห็นถึงจุดแข็งและความพร้อมใช้งานจริงที่เหนือกว่าเมื่อเทียบกับทั้งโมเดลเชิงพาณิชย์และโอเพนโมเดลที่มีอยู่
ออกแบบมาให้เหมาะกับคอนเท็กซ์ยาว การอนุมานที่ซับซ้อน และการแก้ปัญหาในสภาพแวดล้อมซอฟต์แวร์ ด้วยการผสานโครงสร้าง Mixture-of-Experts (MoE) แบบไฮบริดขนาดใหญ่เข้ากับกลไก Lightning Attention
รองรับบริบทยาวได้อย่างมีประสิทธิภาพ (สูงสุด 1 ล้านโทเค็น) และลดปริมาณการคำนวณระหว่างการทดสอบลงอย่างมาก (ที่ 100K ใช้ FLOPs เพียง 25% เมื่อเทียบกับ DeepSeek-R1)
ยกระดับทั้งความสามารถในการขยายระบบและประสิทธิภาพการอนุมานให้สูงสุดด้วยเทคโนโลยี RL รุ่นล่าสุด อัลกอริทึม CISPO แบบใหม่ และการออกแบบไฮบริดแอทเทนชัน

1. ภาพรวมโมเดล

MiniMax-M1 มาพร้อม โครงสร้าง Mixture-of-Experts (MoE) แบบไฮบริด และ Lightning Attention
พัฒนาต่อยอดจาก MiniMax-Text-01 รุ่นก่อนหน้า (456 พันล้านพารามิเตอร์, เปิดใช้งาน 45.9 พันล้านพารามิเตอร์ต่อโทเค็น)
รองรับ ความยาวคอนเท็กซ์ 1 ล้านโทเค็น (มากกว่า DeepSeek R1 อยู่ 8 เท่า)
ลดปริมาณการคำนวณระหว่างทดสอบได้อย่างมากด้วย Lightning Attention (25% เมื่อเทียบกับ DeepSeek R1)
เหมาะกับงานที่ต้องใช้อินพุตยาวและการอนุมานที่ซับซ้อน
ฝึกกับโจทย์หลากหลายผ่าน RL ขนาดใหญ่ เช่น การอนุมานทางคณิตศาสตร์และงานวิศวกรรมซอฟต์แวร์ในสถานการณ์จริง
นำเสนอเฟรมเวิร์กการสเกล RL เฉพาะของ MiniMax-M1
- เทคนิค CISPO: นำ อัลกอริทึม clipping น้ำหนัก importance sampling ที่เหนือกว่าวิธี RL แบบเดิมมาใช้
- เสริมประสิทธิภาพและความสามารถในการขยายของ RL ด้วยไฮบริดแอทเทนชัน
ฝึกและเผยแพร่ 2 รุ่นตาม งบประมาณการคิด 40K, 80K
ให้ ประสิทธิภาพยอดเยี่ยม เหนือกว่าโอเพนโมเดลสมรรถนะสูงเดิมอย่าง DeepSeek-R1 และ Qwen3-235B ในงานวิศวกรรมซอฟต์แวร์ การใช้เครื่องมือ และงานคอนเท็กซ์ยาว
วางรากฐานสำหรับสร้างเอเจนต์โมเดลภาษายุคถัดไปเพื่อแก้โจทย์ท้าทายในโลกจริง

2. การประเมินผล (Evaluation)

ประเด็นสำคัญจากผลเบนช์มาร์ก

ทำผลงานระดับ SOTA ในด้าน คณิตศาสตร์ โค้ด วิศวกรรมซอฟต์แวร์ และคอนเท็กซ์ข้อความยาว
ได้คะแนนสูงโดยรวมเมื่อเทียบกับโอเพนโมเดลอื่น โดยเฉพาะใน ซอฟต์แวร์เบนช์ (SWE-bench) และ งานคอนเท็กซ์ยาว ที่มีความได้เปรียบชัดเจน
ตัวอย่างรายการที่น่าสนใจ
- SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
- OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
- มีความแข็งแกร่งในงานพัฒนาซอฟต์แวร์ที่เกี่ยวข้อง เช่น LiveCodeBench, FullStackBench
สภาพแวดล้อมการรัน: ประเมินที่ temperature 1.0, top_p 0.95
สำหรับเบนช์มาร์กอย่าง SWE-bench และ TAU-bench ได้ทำการประเมินด้วยขั้นตอนและการตั้งค่าของตนเอง (เช่น การ localization แบบสองขั้นระดับไฟล์, ไม่ใช้ embedding)

3. คู่มือการใช้งานโมเดล MiniMax-M1

การตั้งค่าที่แนะนำเพื่อประสิทธิภาพสูงสุด

3.1. พารามิเตอร์การอนุมาน

Temperature: 1.0
Top_p: 0.95
ชุดค่านี้ช่วยให้ได้ทั้งความหลากหลายของข้อความและความสอดคล้องเชิงตรรกะ

3.2. System Prompt

งานทั่วไป: "You are a helpful assistant."
การพัฒนาเว็บ: มีพรอมป์ต์เฉพาะทางสำหรับงานหน้าเว็บที่ซับซ้อน เช่น การสร้างโค้ดแบบรวม UI ไว้ครบถ้วน
การอนุมานทางคณิตศาสตร์: ให้แสดงวิธีทำทีละขั้น แล้วใส่คำตอบสุดท้ายใน \boxed{}

4. คู่มือการดีพลอย

ดาวน์โหลดโมเดล MiniMax-M1-40k, MiniMax-M1-80k ได้จาก HuggingFace
ในการให้บริการจริง แนะนำให้ดีพลอยบน vLLM
- เหมาะกับการเสิร์ฟโมเดลขนาดใหญ่ด้วยการจัดการหน่วยความจำอย่างมีประสิทธิภาพ การประมวลผลแบบแบตช์ที่ยอดเยี่ยม และการปรับแต่งประสิทธิภาพ
รองรับการดีพลอยบน Transformers แยกต่างหากเช่นกัน

5. Function Calling (อินเทอร์เฟซเชิงฟังก์ชัน)

MiniMax-M1 รองรับความสามารถด้าน function calling
- เมื่อจำเป็นต้องใช้ฟังก์ชันภายนอก จะส่งออกพารามิเตอร์ในรูปแบบที่มีโครงสร้างโดยอัตโนมัติ
- มี คู่มือ function calling ให้ใช้งาน

6. Chatbot & API

MiniMax Chatbot: มีอินเทอร์เฟซแชตที่รวมการค้นหาออนไลน์ไว้ด้วย
API: มี API ออนไลน์สำหรับนักพัฒนา และเครื่องมือสำหรับนักพัฒนา เช่น MiniMax MCP Server
- รวมถึงการสร้างวิดีโอ ภาพ และเสียงด้วย AI ตลอดจนการโคลนเสียง

1 ความคิดเห็น

GN⁺ 2025-06-19

ความเห็นจาก Hacker News

ถ้าสงสัยว่าต้องใช้อะไรถึงจะรันตัวนี้ได้ ต้องใช้ H200 141GB จำนวน 8 ตัว และราคาก็อยู่ราว ๆ 250,000 ดอลลาร์
ประเด็นถกเถียงบน GitHub / ข้อมูลราคาสินค้าบน eBay
- สงสัยว่าจะรันบน Mac Studio 512GB ได้ไหม แค่ราว ๆ 8,500 ดอลลาร์ก็น่าจะพอ
- นั่นคือกรณีที่ควอนไทซ์ทั้งหมด และถ้ารันแบบ Q4 หรือ Q8 ก็อาจรันได้ด้วยอุปกรณ์ราคาต่ำกว่า 10,000 ดอลลาร์
- สงสัยว่าโมเดลนี้มีพารามิเตอร์ทั้งหมดกี่ตัว
มีข้อมูลว่าสัปดาห์นี้คือ 'launch week' ของ MiniMax
วันจันทร์เปิดตัว M1 และวันอังคารเปิดตัว Hailuo 2
ข่าวเกี่ยวกับโมเดลจากจีน
ยังไม่แน่ชัดว่าจะมีประกาศแบบนี้ต่อเนื่องไปทั้งสัปดาห์หรือไม่ และตอนนี้บริษัทนี้เป็นที่รู้จักหลัก ๆ จาก LLM และโมเดลวิดีโอ
ตรวจสอบประกาศอย่างเป็นทางการได้ที่ X ของ MiniMax (เดิมคือ Twitter)
อีกอย่าง รายงานทางเทคนิคของ MiniMax M1 ก็มีประโยชน์มาก
PDF รายงานทางเทคนิค
แม้จะไม่ใช่โมเดล open-weight ระดับ SOTA แต่มีข้ออ้างที่น่าสนใจและหนักแน่นมากเกี่ยวกับ lightning attention และรูปแบบดัดแปลงของ GRPO (CISPO)
(ฉันไม่ได้เกี่ยวข้องกับบริษัทนี้ แค่แชร์ข้อมูลที่ได้มา)
- ถ้าจัดแบบวันจันทร์ M1 วันอังคาร Hailuo 2 อย่างนี้ ถ้าตั้งชื่อเป็น M1, M1 Pro, M1 Ultra แบบชิป Apple ก็คงขำดี
พอเห็นประโยคในบทความ arXiv ว่า "We publicly release MiniMax-M1 at this https url" ก็ทำให้ชอบบริษัทนี้ เพราะเป็นการปล่อยโค้ดจริง ไม่ใช่รีโพว่างเปล่า
ความเห็นของฉัน
- จาก LinkedIn ดูเหมือนเป็นบริษัทที่ตั้งอยู่ในสิงคโปร์ และดูเหมือนกำแพงในการสร้าง LLM ที่ดีไม่ได้สูงมากนัก
- ด้วยโมเดล open-weight และความก้าวหน้าของ Strix Halo / Ryzen AI Max เลยมองโลกในแง่ดีว่าอีกไม่กี่ปีข้างหน้าจะสามารถรัน LLM ดี ๆ แบบโลคัลได้ในราคาถูก
- ดูเหมือนการรันโมเดลแบบโลคัลจะกลายเป็นสิ่งที่หลีกเลี่ยงไม่ได้ต่อจากนี้ ซึ่งก็มีทั้งความคาดหวังและความกังวล
  ถ้าใครรู้จักผู้เชี่ยวชาญที่น่าเชื่อถือหรือคนที่ถกประเด็นนี้ได้น่าสนใจ อยากให้แนะนำ
- ต่างจากที่แสดงใน LinkedIn จริง ๆ แล้วบริษัทนี้ตั้งอยู่ในเซี่ยงไฮ้
- เห็น โพสต์บน Twitter ที่บอกว่า MiniMax ฝึกโมเดลด้วยงบราว 500,000 ดอลลาร์
  
  ฝึก RL (การเรียนรู้แบบเสริมกำลัง) ด้วยเงิน 534,700 ดอลลาร์
  สงสัยว่าทำได้อย่างไรด้วยต้นทุนระดับนี้
- บริษัทนี้เป็นบริษัทจีนที่ตั้งอยู่ในเซี่ยงไฮ้จริง ๆ
  และยังมีแผนจะเข้าจดทะเบียนในตลาดหลักทรัพย์ฮ่องกง (HKEX) เร็ว ๆ นี้
  บทความที่เกี่ยวข้อง
แม้หน้าเพจทางการจะไม่ได้ระบุไว้ชัดเจน แต่ MiniMax เป็นบริษัทจีน
ดูได้จาก Wikipedia
- ที่หลายคนรู้ว่า MiniMax เป็นบริษัทจีน ก็เพราะชื่อเครื่องสร้างวิดีโอของพวกเขาอย่าง 'Hailuo' มีกลิ่นอายความเป็นจีนชัดเจน และจนถึงตอนนี้ก็ยังเป็นที่รู้จักจากสิ่งนั้น
- ก็สงสัยว่าเหตุผลอะไรที่ต้องประกาศบนหน้าโปรเจกต์ของตัวเองว่าเป็นบริษัทจีน
อยากให้ตั้งชื่อโมเดลแบบนี้ให้ดีกว่านี้หน่อย
ฟังเหมือนโปรเซสเซอร์ของ Mac Studio
- รู้จัก อัลกอริทึม Minimax อยู่แล้ว
  ชื่อนี้ก็มาจากอัลกอริทึม AI คลาสสิกชื่อดังนั่นเอง
- Mac ของคุณผลิตโดย 'Apple' ซึ่งจริง ๆ ก็มีที่มาจากชื่อพันธุ์แอปเปิลเหมือนกัน
- มันทำให้นึกถึงสุนัขชื่อ Max ที่หายไปนานแล้วของฉัน ชื่อนี้แย่มากจนแทบเข้าขั้นน่ากังขาทางศีลธรรม
ในงานวิจัยมีประโยคว่า "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
นั่นแปลว่า 87.5% ของทั้งหมดเป็น linear attention และ 12.5% เป็น full attention
จริง ๆ แล้วคำว่า 'linear attention' ทำให้สับสน
softmax attention เป็นวิธี routing ข้อมูล โดยตอนคำนวณโทเคน k จะรับข้อมูลจาก 1 ถึง k แต่ต้องผ่านช่องสัญญาณที่มีขนาดคงที่
ส่วน linear attention นั้น แต่ละเลเยอร์มีเพียง 'register bank' ขนาดคงที่เท่านั้น
มันไม่ได้โดดเด่นว่าเป็น attention จริง ๆ เท่าไร นอกจากเข้ากันได้กับการคำนวณแบบ layer-at-once
มีข่าวลือว่า MiniMax กำลังปูทางสำหรับการ IPO
บทความที่เกี่ยวข้อง
ถ้าฝึกโมเดลขนาดนี้ได้โดยไม่พึ่งโครงสร้างพื้นฐานคลาวด์ฝั่งตะวันตก ก็สงสัยว่าโครงสร้างการประมวลผลโทเคนเป็นอย่างไร
- ฝึกด้วย GPU H800 จำนวน 512 ตัวเป็นเวลา 3 สัปดาห์ และใช้งบราว 500,000 ดอลลาร์
  ดูจาก xcancel
- ใช้ sneakernet (การขนย้ายข้อมูลแบบกายภาพ)

MiniMax-M1 โอเพนเวต โมเดลอนุมานแบบไฮบริดแอทเทนชันขนาดใหญ่

ภาพรวมโปรเจ็กต์โอเพนซอร์ส MiniMax-M1

1. ภาพรวมโมเดล

2. การประเมินผล (Evaluation)

ประเด็นสำคัญจากผลเบนช์มาร์ก

3. คู่มือการใช้งานโมเดล MiniMax-M1

การตั้งค่าที่แนะนำเพื่อประสิทธิภาพสูงสุด

3.1. พารามิเตอร์การอนุมาน

3.2. System Prompt

4. คู่มือการดีพลอย

5. Function Calling (อินเทอร์เฟซเชิงฟังก์ชัน)

6. Chatbot & API

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News