- โมเดลที่ยกระดับความสามารถในการทำงานซับซ้อนในสภาพแวดล้อมจริงผ่าน การฝึกขนาดใหญ่บนพื้นฐาน Reinforcement Learning โดยทำผลงานระดับสูงสุดใน ด้านที่มีมูลค่าทางเศรษฐกิจสูง เช่น การเขียนโค้ด การค้นหา และงานออฟฟิศ
- ทำได้ 80.2% บน SWE-Bench Verified, 51.3% บน Multi-SWE-Bench และ 76.3% บน BrowseComp พร้อมแสดง ความเร็วที่เพิ่มขึ้น 37% เมื่อเทียบกับรุ่นก่อนหน้า
- สามารถใช้งานได้ด้วยต้นทุนต่ำเพียง 1 ดอลลาร์ต่อชั่วโมง (ที่ 100TPS) และมีประสิทธิภาพใกล้เคียงกับ Claude Opus 4.6
- เสริมความสามารถด้าน การเขียนโค้ด การค้นหา และงานออฟฟิศ ทั้งในด้านการคิดเชิงโครงสร้าง การค้นหาอย่างมีประสิทธิภาพ และการเขียนเอกสารระดับผู้เชี่ยวชาญ
- ภายใน MiniMax เอง โมเดลนี้ ทำงานอัตโนมัติได้ 30% ของงานทั้งหมด และรับผิดชอบ 80% ของการสร้างโค้ด แสดงให้เห็นถึง การเพิ่มผลิตภาพในงานจริง
ภาพรวมและประสิทธิภาพหลักของ M2.5
- M2.5 เป็นโมเดลที่ฝึกด้วย Reinforcement Learning ในสภาพแวดล้อมจริงที่ซับซ้อนหลายแสนกรณี และทำระดับ SOTA ใน การเขียนโค้ด การใช้เครื่องมือ การค้นหา และงานสำนักงาน
- ทำได้ 80.2% บน SWE-Bench Verified, 51.3% บน Multi-SWE-Bench และ 76.3% บน BrowseComp (รวมการจัดการคอนเท็กซ์)
- ในการประเมิน SWE-Bench Verified นั้น ทำงานเสร็จด้วย ความเร็วมากกว่า M2.1 ถึง 37% และมี ความเร็วในการประมวลผลเทียบเท่า Claude Opus 4.6
- สามารถใช้งานได้ที่ 1 ดอลลาร์ต่อชั่วโมงเมื่ออิง 100TPS และ 0.3 ดอลลาร์ต่อชั่วโมงเมื่ออิง 50TPS เป็นโมเดลที่เพิ่มประสิทธิภาพด้านต้นทุนได้อย่างมาก
ประสิทธิภาพด้านการเขียนโค้ด
- ไปถึงระดับ SOTA ในงานเขียนโค้ดหลายภาษา โดยเฉพาะใน มากกว่า 10 ภาษา (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
- มี โครงสร้างการคิดแบบสถาปนิก ที่ทำ การออกแบบระบบ การจัดวาง UI และการแยกฟังก์ชัน ก่อนเขียนโค้ด
- ฝึกจาก สภาพแวดล้อมจริงมากกว่า 200,000 กรณี จึงรองรับไม่เพียงการแก้บั๊ก แต่รวมถึง วงจรการพัฒนาทั้งหมด (ออกแบบ→พัฒนา→วนซ้ำฟีเจอร์→ทดสอบ)
- บน VIBE-Pro benchmark ให้ผลใกล้เคียง Opus 4.5 และบน SWE-Bench Verified
- Droid: 79.7(M2.5) > 78.9(Opus 4.6)
- OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)
การค้นหาและการเรียกใช้เครื่องมือ
- ทำผลงาน ระดับแนวหน้าของอุตสาหกรรม บน BrowseComp, Wide Search และอื่น ๆ
- ใช้ RISE(Realistic Interactive Search Evaluation) เพื่อยืนยันความสามารถในการค้นหาระดับผู้เชี่ยวชาญในสถานการณ์จริง
- ให้ผลลัพธ์เดียวกันด้วย จำนวนรอบการค้นหาน้อยลง 20% เมื่อเทียบกับรุ่นก่อนหน้า พร้อม ประสิทธิภาพการใช้โทเคนที่ดีขึ้น
- ในงานเอเจนต์ที่ซับซ้อน โมเดลให้ผลลัพธ์ผ่าน เส้นทางการสำรวจที่แม่นยำและกระบวนการให้เหตุผลที่มีประสิทธิภาพ
ความสามารถด้านงานออฟฟิศ
- สร้างข้อมูลและนำฟีดแบ็กมาปรับใช้ร่วมกับ ผู้เชี่ยวชาญด้านการเงิน กฎหมาย และสังคมศาสตร์
- เสริมความสามารถในการทำ เอกสารมืออาชีพและการสร้างแบบจำลองทางการเงิน ใน Word, PowerPoint, Excel และอื่น ๆ
- ทำอัตราชนะเฉลี่ย 59.0% ในเฟรมเวิร์กการประเมินภายใน GDPval-MM
- วัด การเพิ่มผลิตภาพเทียบกับต้นทุนโทเคน โดยตรง เพื่อยืนยันประสิทธิภาพการทำงานจริง
ประสิทธิภาพและความเร็ว
- มี ความเร็วประมวลผลพื้นฐาน 100TPS เร็วกว่าหลายโมเดลราว 2 เท่า
- ตามเกณฑ์ SWE-Bench Verified
- M2.5: เฉลี่ย 3.52M โทเคน, ใช้เวลา 22.8 นาที
- M2.1: 3.72M โทเคน, ใช้เวลา 31.3 นาที
- เร็วขึ้น 37% และ อยู่ในระดับเดียวกับ Claude Opus 4.6(22.9 นาที)
- ต้นทุนอยู่ที่ 10% ของ Opus 4.6
โครงสร้างต้นทุน
- มีให้เลือก 2 เวอร์ชัน: M2.5-Lightning(100TPS) และ M2.5(50TPS)
- Lightning: อินพุต $0.3 ต่อ 1 ล้านโทเคน, เอาต์พุต $2.4 ต่อ 1 ล้านโทเคน
- M2.5: คิดค่าบริการครึ่งหนึ่งของอัตราข้างต้น
- ต้นทุนฝั่งเอาต์พุตอยู่ที่ราว 1/10~1/20 ของ Opus, Gemini 3 Pro และ GPT-5
- หากรันต่อเนื่อง 1 ชั่วโมงที่ 100TPS จะมีค่าใช้จ่าย $1 และที่ 50TPS จะอยู่ที่ $0.3
- ใช้งบรายปี $10,000 ก็สามารถรัน 4 อินสแตนซ์ได้ตลอดเวลา เหมาะกับการใช้งานเอเจนต์ขนาดใหญ่
ความเร็วในการพัฒนาโมเดล
- ภายในเวลา 3 เดือนครึ่ง มีการเปิดตัวต่อเนื่องจาก M2 → M2.1 → M2.5 โดยมี ความเร็วในการปรับปรุงที่เร็วกว่ากลุ่มคู่แข่ง (Claude, GPT, Gemini)
- บน SWE-Bench Verified มี อัตราการพัฒนาประสิทธิภาพที่ชันมาก
การขยาย Reinforcement Learning (RL Scaling)
- สร้าง สภาพแวดล้อม RL หลายแสนรายการ เพื่อนำมาใช้ในการฝึกโมเดล
- พัฒนา Forge ซึ่งเป็นเฟรมเวิร์ก RL แบบเอเจนต์ขึ้นเอง
- แยกเอนจินฝึก/อนุมานออกจากเอเจนต์อย่างสมบูรณ์
- ปรับแต่ง การจัดตารางแบบอะซิงโครนัส และใช้ กลยุทธ์รวมต้นไม้ เพื่อ เพิ่มความเร็วการฝึก 40 เท่า
- ใช้อัลกอริทึม CISPO เพื่อรักษาเสถียรภาพของโมเดล MoE ขนาดใหญ่
- ใช้ กลไกรางวัลตามกระบวนการ เพื่อตรวจสอบคุณภาพแม้ในคอนเท็กซ์ยาว
- นำระบบประเมินเวลาในการทำงานมาใช้เพื่อ สร้างสมดุลระหว่างความฉลาดและความเร็วในการตอบสนอง
การผสานรวมกับ MiniMax Agent
- M2.5 ถูกผสานรวมกับ MiniMax Agent อย่างสมบูรณ์ เพื่อมอบ ประสบการณ์เอเจนต์ระดับพนักงานมืออาชีพ
- โหลด Office Skills (Word, PowerPoint, Excel และอื่น ๆ) อัตโนมัติ เพื่อยกระดับคุณภาพเอกสาร
- ผู้ใช้สามารถผสาน Office Skills เข้ากับ ความรู้เฉพาะทางของแต่ละอุตสาหกรรม เพื่อสร้าง Expert แบบกำหนดเอง ได้
- ตัวอย่าง: การเขียนรายงานวิจัยอัตโนมัติ, การสร้างและตรวจสอบแบบจำลองทางการเงินอัตโนมัติ
- ปัจจุบันมี Expert มากกว่า 10,000 รายการ และยังเพิ่มขึ้นอย่างรวดเร็ว
- ภายใน MiniMax เอง M2.5 ทำงานอัตโนมัติได้ 30% ของงานทั้งหมด
- ใช้งานในทุกฝ่าย ทั้ง R&D, ผลิตภัณฑ์, ฝ่ายขาย, HR, การเงิน ฯลฯ
- 80% ของโค้ดคอมมิตใหม่เป็นโค้ดที่ M2.5 สร้างขึ้น
ภาคผนวก: สรุปวิธีการประเมิน
- ใช้ benchmark ภายในและภายนอกที่หลากหลาย เช่น SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
- ทุกการทดสอบคำนวณจาก pipeline ที่เป็นมาตรฐานเดียวกัน และ ค่าเฉลี่ยจากการรันซ้ำหลายครั้ง
- สภาพแวดล้อมการประเมินประกอบด้วย CPU 8 คอร์, หน่วยความจำ 16GB, ขีดจำกัด 7200 วินาที และชุดเครื่องมือมาตรฐาน
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
หวังว่าจะมี โมเดลที่ดีกว่าและถูกกว่า ออกมาเยอะ ๆ
การแข่งขันต้องคึกคัก ตลาดถึงจะสุขภาพดี
แต่ก็ควรดูผลเบนช์มาร์กอย่างระมัดระวัง
MiniMax 2.1 ใช้ได้อยู่ แต่ยังเรียกว่า “ฉลาด” ได้ไม่เต็มปาก
โดยเฉพาะมีแนวโน้มจะ ดัดแปลงโค้ดเบสเพื่อให้ผ่านการทดสอบ
บางครั้งถึงขั้นแต่งรายงานให้ดูเหมือนว่าการทดสอบที่ล้มเหลวผ่านแล้ว
ตาม ตัวชี้วัดของ Artificial Analysis คะแนนด้านโค้ดดิ้งของ MiniMax 2.1 อยู่ที่ 33 ซึ่งห่างจากโมเดลระดับบนมาก
พอให้แก้โจทย์อัลกอริทึม ถ้าทำไม่ได้ก็จะ hardcode test case ไปเลย
DeepSeek ก็เคยทำแบบนี้อยู่ช่วงหนึ่ง
มันไม่แก้ type error ง่าย ๆ ตรง ๆ แต่กลับ ใช้ cast หรือ Any แบบพร่ำเพรื่อ เพื่อกลบปัญหา
คือหลบ type checking แทนที่จะซ่อมจริง
แต่ MiMo v2 Flash ให้ ความคุ้มค่าต่อราคา ดีกว่ามาก
ภาพนกกระทุงยังพอดูออกว่าเป็นอะไร แต่คุณภาพยังต่ำ
โดยเฉพาะ คานในเฟรมจักรยานหายไป
ภาพที่เกี่ยวข้อง
โมเดลส่วนใหญ่มักสร้าง ล้อหน้าที่เลี้ยวไม่ได้ อยู่แล้ว แต่งานนี้เหมือนแสดงอย่างซื่อตรงว่านี่ยังเป็น “ปัญหาที่ยังแก้ไม่เสร็จ”
คล้ายกับการทิ้งคอมเมนต์ “TODO” ไว้ในโค้ด
ถ้าคิดถึงความยาวขาของนกกระทุง ท่าทางก็ถือว่าธรรมชาติตามกายวิภาคอย่างน่าประหลาด
MiniMax M2.1 เป็นโมเดลที่ฉันใช้บ่อยที่สุด
เร็ว ถูก และเรียกใช้ทูลได้เก่ง
งานพัฒนาใช้ Antigravity + Claude แต่ใน workflow ฉันจะเริ่มจาก MiniMax ก่อน
งานโค้ดใช้ GLM งานวิเคราะห์ภาษาอังกฤษใช้ Kimi K2.5
ตอนนี้ยังไม่ได้ self-hosting แต่ชอบโมเดล OSS จากจีน
เพราะยังมีโอกาสจะโฮสต์เองได้ในอนาคต
openclaw assistant ของฉันก็รันบน MiniMax อยู่ และ สมดุลระหว่างความเร็ว·คุณภาพ·ต้นทุน ดีที่สุด
ถ้ารัน 100 tokens/sec เป็นเวลา 1 ชั่วโมงจะอยู่ที่ $1 และถ้า 50 tokens/sec จะประมาณ $0.30
อยากรู้ว่าใช้ผ่าน API หรือเป็นแบบสมัครรายเดือน
แล้วแพลนรายเดือนมีการจำกัดความเร็วหรือรีเซ็ตไหม
สำหรับฉัน MM2.1 คุ้มที่สุด และ K2.5 ก็แข็งแกร่งที่สุดโดยรวม
ต้องไปหาดูใน OpenRouter เดี๋ยวนี้เลย
เบนช์มาร์กดูดีเกินไปจนชวนให้สงสัย
วิธีฝึกก็น่าสนใจ แต่ยัง ไม่แน่ใจว่าเป็นนวัตกรรมจริงไหม
ฉันจะตัดสินความน่าเชื่อถือของเบนช์มาร์กจากคุณลักษณะเชิงวัตถุของโมเดลและประสบการณ์ที่ผ่านมา
อย่าง Kimi K2.5 ในการใช้งานจริงให้ความรู้สึก สมดุลและฉลาด เลยเชื่อค่าตัวเลขได้
GLM 5 เมื่อก่อนเคยปล่อยเบนช์มาร์กที่เกินจริง แต่รอบนี้ก็มีโอกาสเพราะปรับปรุงขนาดโมเดลและสถาปัตยกรรมไปมาก
ในทางกลับกัน MiniMax เป็น โมเดลที่เปราะและหลุดเข้า loop ของข้อผิดพลาดได้ง่าย มาโดยตลอด
แม้แต่โค้ด JavaScript ง่าย ๆ ก็ยังพังบ่อย และขนาดโมเดลก็เล็กเกินกว่าจะเชื่อคำอ้างเรื่องประสิทธิภาพครั้งนี้ได้
M2 เป็นตัวอย่างชัด ๆ ของ การปั่นคะแนนเบนช์มาร์ก
ช่องว่างระหว่างผล SWE-B กับงานจริงที่ไม่เคยฝึกมานั้นกว้างมาก
เวอร์ชัน 2.5 มีกำหนดจะถูกเพิ่มเข้า power ranking ของ brokk.ai
บริษัทของเราอนุญาตแค่ OpenAI, Anthropic และ Google LLM ใน Github Copilot
ผลคือ เครดิตหมดภายในสัปดาห์เดียว
ถ้าใช้ LLM ได้หลากหลายกว่านี้ก็คงดี
ลองใช้ M2.5 กับงานง่าย ๆ ใน OpenCode แล้ว ผลลัพธ์แย่มาก
ทั้งที่เป็นแค่สคริปต์แยกเดี่ยว 250 บรรทัด แต่สิ่งที่ Opus 4.6 แก้ได้ด้วยแค่คำใบ้ นั้น M2.5 ยังทำไม่ได้ถ้าไม่มีพรอมป์ต์ละเอียดมาก
ลิงก์โค้ดที่ใช้ทดสอบ
จุดที่น่าสนใจคือ บริษัทขนาดกลาง (Tier-2) แทบไม่ออกโมเดลมาแข่งเลย
สุดท้ายเลยกลายเป็นเกมระหว่างแล็บใหญ่ 4 เจ้า กับแล็บจากจีน
อยากให้มี LLM เฉพาะภาษา ที่รันบนคอมพิวเตอร์ทั่วไปได้
เช่น โมเดลที่ฝึกแค่ Python 3+ กับเฟรมเวิร์กเฉพาะและคลังโค้ดชุดหนึ่ง
แบบนี้น่าจะแยกออกจากโมเดลสำหรับค้นอินเทอร์เน็ตและช่วย ลดต้นทุน ได้ด้วย
โมเดลนี้บอกว่าราคา $1 ต่อชั่วโมง ซึ่งใกล้กับแพลน Claude Code ที่ฉันใช้อยู่ $200/เดือน
ในการใช้งานจริงฉันรันพร้อมกันราว 3 ตัว วันละประมาณ 60 ชั่วโมงต่อสัปดาห์
ถ้ามีงานที่คุ้มจะ รันต่อเนื่อง 24/7 ก็น่าสนใจอยู่ แต่ตอนนี้ยังนึกไม่ออก
เลยสงสัยว่ามีใครใช้งานแบบนั้นจริงไหม