7 คะแนน โดย GN⁺ 2026-02-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลที่ยกระดับความสามารถในการทำงานซับซ้อนในสภาพแวดล้อมจริงผ่าน การฝึกขนาดใหญ่บนพื้นฐาน Reinforcement Learning โดยทำผลงานระดับสูงสุดใน ด้านที่มีมูลค่าทางเศรษฐกิจสูง เช่น การเขียนโค้ด การค้นหา และงานออฟฟิศ
  • ทำได้ 80.2% บน SWE-Bench Verified, 51.3% บน Multi-SWE-Bench และ 76.3% บน BrowseComp พร้อมแสดง ความเร็วที่เพิ่มขึ้น 37% เมื่อเทียบกับรุ่นก่อนหน้า
  • สามารถใช้งานได้ด้วยต้นทุนต่ำเพียง 1 ดอลลาร์ต่อชั่วโมง (ที่ 100TPS) และมีประสิทธิภาพใกล้เคียงกับ Claude Opus 4.6
  • เสริมความสามารถด้าน การเขียนโค้ด การค้นหา และงานออฟฟิศ ทั้งในด้านการคิดเชิงโครงสร้าง การค้นหาอย่างมีประสิทธิภาพ และการเขียนเอกสารระดับผู้เชี่ยวชาญ
  • ภายใน MiniMax เอง โมเดลนี้ ทำงานอัตโนมัติได้ 30% ของงานทั้งหมด และรับผิดชอบ 80% ของการสร้างโค้ด แสดงให้เห็นถึง การเพิ่มผลิตภาพในงานจริง

ภาพรวมและประสิทธิภาพหลักของ M2.5

  • M2.5 เป็นโมเดลที่ฝึกด้วย Reinforcement Learning ในสภาพแวดล้อมจริงที่ซับซ้อนหลายแสนกรณี และทำระดับ SOTA ใน การเขียนโค้ด การใช้เครื่องมือ การค้นหา และงานสำนักงาน
    • ทำได้ 80.2% บน SWE-Bench Verified, 51.3% บน Multi-SWE-Bench และ 76.3% บน BrowseComp (รวมการจัดการคอนเท็กซ์)
  • ในการประเมิน SWE-Bench Verified นั้น ทำงานเสร็จด้วย ความเร็วมากกว่า M2.1 ถึง 37% และมี ความเร็วในการประมวลผลเทียบเท่า Claude Opus 4.6
  • สามารถใช้งานได้ที่ 1 ดอลลาร์ต่อชั่วโมงเมื่ออิง 100TPS และ 0.3 ดอลลาร์ต่อชั่วโมงเมื่ออิง 50TPS เป็นโมเดลที่เพิ่มประสิทธิภาพด้านต้นทุนได้อย่างมาก

ประสิทธิภาพด้านการเขียนโค้ด

  • ไปถึงระดับ SOTA ในงานเขียนโค้ดหลายภาษา โดยเฉพาะใน มากกว่า 10 ภาษา (Go, C, C++, TypeScript, Rust, Kotlin, Python, Java, JavaScript, PHP, Lua, Dart, Ruby)
  • มี โครงสร้างการคิดแบบสถาปนิก ที่ทำ การออกแบบระบบ การจัดวาง UI และการแยกฟังก์ชัน ก่อนเขียนโค้ด
  • ฝึกจาก สภาพแวดล้อมจริงมากกว่า 200,000 กรณี จึงรองรับไม่เพียงการแก้บั๊ก แต่รวมถึง วงจรการพัฒนาทั้งหมด (ออกแบบ→พัฒนา→วนซ้ำฟีเจอร์→ทดสอบ)
  • บน VIBE-Pro benchmark ให้ผลใกล้เคียง Opus 4.5 และบน SWE-Bench Verified
    • Droid: 79.7(M2.5) > 78.9(Opus 4.6)
    • OpenCode: 76.1(M2.5) > 75.9(Opus 4.6)

การค้นหาและการเรียกใช้เครื่องมือ

  • ทำผลงาน ระดับแนวหน้าของอุตสาหกรรม บน BrowseComp, Wide Search และอื่น ๆ
  • ใช้ RISE(Realistic Interactive Search Evaluation) เพื่อยืนยันความสามารถในการค้นหาระดับผู้เชี่ยวชาญในสถานการณ์จริง
  • ให้ผลลัพธ์เดียวกันด้วย จำนวนรอบการค้นหาน้อยลง 20% เมื่อเทียบกับรุ่นก่อนหน้า พร้อม ประสิทธิภาพการใช้โทเคนที่ดีขึ้น
  • ในงานเอเจนต์ที่ซับซ้อน โมเดลให้ผลลัพธ์ผ่าน เส้นทางการสำรวจที่แม่นยำและกระบวนการให้เหตุผลที่มีประสิทธิภาพ

ความสามารถด้านงานออฟฟิศ

  • สร้างข้อมูลและนำฟีดแบ็กมาปรับใช้ร่วมกับ ผู้เชี่ยวชาญด้านการเงิน กฎหมาย และสังคมศาสตร์
  • เสริมความสามารถในการทำ เอกสารมืออาชีพและการสร้างแบบจำลองทางการเงิน ใน Word, PowerPoint, Excel และอื่น ๆ
  • ทำอัตราชนะเฉลี่ย 59.0% ในเฟรมเวิร์กการประเมินภายใน GDPval-MM
  • วัด การเพิ่มผลิตภาพเทียบกับต้นทุนโทเคน โดยตรง เพื่อยืนยันประสิทธิภาพการทำงานจริง

ประสิทธิภาพและความเร็ว

  • มี ความเร็วประมวลผลพื้นฐาน 100TPS เร็วกว่าหลายโมเดลราว 2 เท่า
  • ตามเกณฑ์ SWE-Bench Verified
    • M2.5: เฉลี่ย 3.52M โทเคน, ใช้เวลา 22.8 นาที
    • M2.1: 3.72M โทเคน, ใช้เวลา 31.3 นาที
    • เร็วขึ้น 37% และ อยู่ในระดับเดียวกับ Claude Opus 4.6(22.9 นาที)
    • ต้นทุนอยู่ที่ 10% ของ Opus 4.6

โครงสร้างต้นทุน

  • มีให้เลือก 2 เวอร์ชัน: M2.5-Lightning(100TPS) และ M2.5(50TPS)
    • Lightning: อินพุต $0.3 ต่อ 1 ล้านโทเคน, เอาต์พุต $2.4 ต่อ 1 ล้านโทเคน
    • M2.5: คิดค่าบริการครึ่งหนึ่งของอัตราข้างต้น
  • ต้นทุนฝั่งเอาต์พุตอยู่ที่ราว 1/10~1/20 ของ Opus, Gemini 3 Pro และ GPT-5
  • หากรันต่อเนื่อง 1 ชั่วโมงที่ 100TPS จะมีค่าใช้จ่าย $1 และที่ 50TPS จะอยู่ที่ $0.3
  • ใช้งบรายปี $10,000 ก็สามารถรัน 4 อินสแตนซ์ได้ตลอดเวลา เหมาะกับการใช้งานเอเจนต์ขนาดใหญ่

ความเร็วในการพัฒนาโมเดล

  • ภายในเวลา 3 เดือนครึ่ง มีการเปิดตัวต่อเนื่องจาก M2 → M2.1 → M2.5 โดยมี ความเร็วในการปรับปรุงที่เร็วกว่ากลุ่มคู่แข่ง (Claude, GPT, Gemini)
  • บน SWE-Bench Verified มี อัตราการพัฒนาประสิทธิภาพที่ชันมาก

การขยาย Reinforcement Learning (RL Scaling)

  • สร้าง สภาพแวดล้อม RL หลายแสนรายการ เพื่อนำมาใช้ในการฝึกโมเดล
  • พัฒนา Forge ซึ่งเป็นเฟรมเวิร์ก RL แบบเอเจนต์ขึ้นเอง
    • แยกเอนจินฝึก/อนุมานออกจากเอเจนต์อย่างสมบูรณ์
    • ปรับแต่ง การจัดตารางแบบอะซิงโครนัส และใช้ กลยุทธ์รวมต้นไม้ เพื่อ เพิ่มความเร็วการฝึก 40 เท่า
  • ใช้อัลกอริทึม CISPO เพื่อรักษาเสถียรภาพของโมเดล MoE ขนาดใหญ่
  • ใช้ กลไกรางวัลตามกระบวนการ เพื่อตรวจสอบคุณภาพแม้ในคอนเท็กซ์ยาว
  • นำระบบประเมินเวลาในการทำงานมาใช้เพื่อ สร้างสมดุลระหว่างความฉลาดและความเร็วในการตอบสนอง

การผสานรวมกับ MiniMax Agent

  • M2.5 ถูกผสานรวมกับ MiniMax Agent อย่างสมบูรณ์ เพื่อมอบ ประสบการณ์เอเจนต์ระดับพนักงานมืออาชีพ
  • โหลด Office Skills (Word, PowerPoint, Excel และอื่น ๆ) อัตโนมัติ เพื่อยกระดับคุณภาพเอกสาร
  • ผู้ใช้สามารถผสาน Office Skills เข้ากับ ความรู้เฉพาะทางของแต่ละอุตสาหกรรม เพื่อสร้าง Expert แบบกำหนดเอง ได้
    • ตัวอย่าง: การเขียนรายงานวิจัยอัตโนมัติ, การสร้างและตรวจสอบแบบจำลองทางการเงินอัตโนมัติ
  • ปัจจุบันมี Expert มากกว่า 10,000 รายการ และยังเพิ่มขึ้นอย่างรวดเร็ว
  • ภายใน MiniMax เอง M2.5 ทำงานอัตโนมัติได้ 30% ของงานทั้งหมด
    • ใช้งานในทุกฝ่าย ทั้ง R&D, ผลิตภัณฑ์, ฝ่ายขาย, HR, การเงิน ฯลฯ
    • 80% ของโค้ดคอมมิตใหม่เป็นโค้ดที่ M2.5 สร้างขึ้น

ภาคผนวก: สรุปวิธีการประเมิน

  • ใช้ benchmark ภายในและภายนอกที่หลากหลาย เช่น SWE-bench, Terminal Bench 2, VIBE-Pro, BrowseComp, Wide Search, RISE, GDPval-MM, MEWC, Finance Modeling
  • ทุกการทดสอบคำนวณจาก pipeline ที่เป็นมาตรฐานเดียวกัน และ ค่าเฉลี่ยจากการรันซ้ำหลายครั้ง
  • สภาพแวดล้อมการประเมินประกอบด้วย CPU 8 คอร์, หน่วยความจำ 16GB, ขีดจำกัด 7200 วินาที และชุดเครื่องมือมาตรฐาน

1 ความคิดเห็น

 
GN⁺ 2026-02-13
ความคิดเห็นจาก Hacker News
  • หวังว่าจะมี โมเดลที่ดีกว่าและถูกกว่า ออกมาเยอะ ๆ
    การแข่งขันต้องคึกคัก ตลาดถึงจะสุขภาพดี
    แต่ก็ควรดูผลเบนช์มาร์กอย่างระมัดระวัง
    MiniMax 2.1 ใช้ได้อยู่ แต่ยังเรียกว่า “ฉลาด” ได้ไม่เต็มปาก
    โดยเฉพาะมีแนวโน้มจะ ดัดแปลงโค้ดเบสเพื่อให้ผ่านการทดสอบ
    บางครั้งถึงขั้นแต่งรายงานให้ดูเหมือนว่าการทดสอบที่ล้มเหลวผ่านแล้ว
    ตาม ตัวชี้วัดของ Artificial Analysis คะแนนด้านโค้ดดิ้งของ MiniMax 2.1 อยู่ที่ 33 ซึ่งห่างจากโมเดลระดับบนมาก

    • ฉันก็เคยเห็นปัญหาคล้าย ๆ กันใน LLM หลายตัว
      พอให้แก้โจทย์อัลกอริทึม ถ้าทำไม่ได้ก็จะ hardcode test case ไปเลย
      DeepSeek ก็เคยทำแบบนี้อยู่ช่วงหนึ่ง
    • ยังไม่เคยใช้ MiniMax แต่เคยเห็นปัญหาเดียวกันใน GPT-5.2-Codex
      มันไม่แก้ type error ง่าย ๆ ตรง ๆ แต่กลับ ใช้ cast หรือ Any แบบพร่ำเพรื่อ เพื่อกลบปัญหา
      คือหลบ type checking แทนที่จะซ่อมจริง
    • MiniMax 2.1 มีข้อผิดพลาดเยอะเกินไปสำหรับงาน parsing data ของฉัน
      แต่ MiMo v2 Flash ให้ ความคุ้มค่าต่อราคา ดีกว่ามาก
  • ภาพนกกระทุงยังพอดูออกว่าเป็นอะไร แต่คุณภาพยังต่ำ
    โดยเฉพาะ คานในเฟรมจักรยานหายไป
    ภาพที่เกี่ยวข้อง

    • จริง ๆ การไม่มีตะเกียบหน้าก็อาจจะดีกว่า
      โมเดลส่วนใหญ่มักสร้าง ล้อหน้าที่เลี้ยวไม่ได้ อยู่แล้ว แต่งานนี้เหมือนแสดงอย่างซื่อตรงว่านี่ยังเป็น “ปัญหาที่ยังแก้ไม่เสร็จ”
      คล้ายกับการทิ้งคอมเมนต์ “TODO” ไว้ในโค้ด
      ถ้าคิดถึงความยาวขาของนกกระทุง ท่าทางก็ถือว่าธรรมชาติตามกายวิภาคอย่างน่าประหลาด
    • ถ้าลองให้วาด ปลาหมึกขี่จักรยาน แทนนกกระทุง น่าจะยากกว่ามาก
  • MiniMax M2.1 เป็นโมเดลที่ฉันใช้บ่อยที่สุด
    เร็ว ถูก และเรียกใช้ทูลได้เก่ง
    งานพัฒนาใช้ Antigravity + Claude แต่ใน workflow ฉันจะเริ่มจาก MiniMax ก่อน
    งานโค้ดใช้ GLM งานวิเคราะห์ภาษาอังกฤษใช้ Kimi K2.5
    ตอนนี้ยังไม่ได้ self-hosting แต่ชอบโมเดล OSS จากจีน
    เพราะยังมีโอกาสจะโฮสต์เองได้ในอนาคต
    openclaw assistant ของฉันก็รันบน MiniMax อยู่ และ สมดุลระหว่างความเร็ว·คุณภาพ·ต้นทุน ดีที่สุด
    ถ้ารัน 100 tokens/sec เป็นเวลา 1 ชั่วโมงจะอยู่ที่ $1 และถ้า 50 tokens/sec จะประมาณ $0.30

    • ชอบที่โมเดลพวกนี้ช่วย คานอำนาจการผูกขาดของแล็บใหญ่
      อยากรู้ว่าใช้ผ่าน API หรือเป็นแบบสมัครรายเดือน
      แล้วแพลนรายเดือนมีการจำกัดความเร็วหรือรีเซ็ตไหม
      สำหรับฉัน MM2.1 คุ้มที่สุด และ K2.5 ก็แข็งแกร่งที่สุดโดยรวม
    • ถูกมากจนน่าตกใจ
      ต้องไปหาดูใน OpenRouter เดี๋ยวนี้เลย
  • เบนช์มาร์กดูดีเกินไปจนชวนให้สงสัย
    วิธีฝึกก็น่าสนใจ แต่ยัง ไม่แน่ใจว่าเป็นนวัตกรรมจริงไหม
    ฉันจะตัดสินความน่าเชื่อถือของเบนช์มาร์กจากคุณลักษณะเชิงวัตถุของโมเดลและประสบการณ์ที่ผ่านมา
    อย่าง Kimi K2.5 ในการใช้งานจริงให้ความรู้สึก สมดุลและฉลาด เลยเชื่อค่าตัวเลขได้
    GLM 5 เมื่อก่อนเคยปล่อยเบนช์มาร์กที่เกินจริง แต่รอบนี้ก็มีโอกาสเพราะปรับปรุงขนาดโมเดลและสถาปัตยกรรมไปมาก
    ในทางกลับกัน MiniMax เป็น โมเดลที่เปราะและหลุดเข้า loop ของข้อผิดพลาดได้ง่าย มาโดยตลอด
    แม้แต่โค้ด JavaScript ง่าย ๆ ก็ยังพังบ่อย และขนาดโมเดลก็เล็กเกินกว่าจะเชื่อคำอ้างเรื่องประสิทธิภาพครั้งนี้ได้

  • M2 เป็นตัวอย่างชัด ๆ ของ การปั่นคะแนนเบนช์มาร์ก
    ช่องว่างระหว่างผล SWE-B กับงานจริงที่ไม่เคยฝึกมานั้นกว้างมาก
    เวอร์ชัน 2.5 มีกำหนดจะถูกเพิ่มเข้า power ranking ของ brokk.ai

  • บริษัทของเราอนุญาตแค่ OpenAI, Anthropic และ Google LLM ใน Github Copilot
    ผลคือ เครดิตหมดภายในสัปดาห์เดียว
    ถ้าใช้ LLM ได้หลากหลายกว่านี้ก็คงดี

  • ลองใช้ M2.5 กับงานง่าย ๆ ใน OpenCode แล้ว ผลลัพธ์แย่มาก
    ทั้งที่เป็นแค่สคริปต์แยกเดี่ยว 250 บรรทัด แต่สิ่งที่ Opus 4.6 แก้ได้ด้วยแค่คำใบ้ นั้น M2.5 ยังทำไม่ได้ถ้าไม่มีพรอมป์ต์ละเอียดมาก
    ลิงก์โค้ดที่ใช้ทดสอบ

  • จุดที่น่าสนใจคือ บริษัทขนาดกลาง (Tier-2) แทบไม่ออกโมเดลมาแข่งเลย
    สุดท้ายเลยกลายเป็นเกมระหว่างแล็บใหญ่ 4 เจ้า กับแล็บจากจีน

    • แต่ก็ยังพอถือว่า Mistral เป็นข้อยกเว้นได้
  • อยากให้มี LLM เฉพาะภาษา ที่รันบนคอมพิวเตอร์ทั่วไปได้
    เช่น โมเดลที่ฝึกแค่ Python 3+ กับเฟรมเวิร์กเฉพาะและคลังโค้ดชุดหนึ่ง
    แบบนี้น่าจะแยกออกจากโมเดลสำหรับค้นอินเทอร์เน็ตและช่วย ลดต้นทุน ได้ด้วย

    • แนวทาง distillation แบบนี้ น่าจะเป็นไปได้ แต่ฉันคิดว่าการฝึกหลายภาษาช่วยประสิทธิภาพของ LLM มาก
  • โมเดลนี้บอกว่าราคา $1 ต่อชั่วโมง ซึ่งใกล้กับแพลน Claude Code ที่ฉันใช้อยู่ $200/เดือน
    ในการใช้งานจริงฉันรันพร้อมกันราว 3 ตัว วันละประมาณ 60 ชั่วโมงต่อสัปดาห์
    ถ้ามีงานที่คุ้มจะ รันต่อเนื่อง 24/7 ก็น่าสนใจอยู่ แต่ตอนนี้ยังนึกไม่ออก
    เลยสงสัยว่ามีใครใช้งานแบบนั้นจริงไหม