5 คะแนน โดย GN⁺ 2025-06-19 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • MiniMax-M1 คือ โมเดลอนุมานแบบไฮบริดแอทเทนชันขนาดใหญ่แบบโอเพนเวตตัวแรกของโลก
  • โครงสร้าง Hybrid MoE ขนาด 456 พันล้านพารามิเตอร์ และกลไก Lightning Attention ทำให้โดดเด่นในการประมวลผลคอนเท็กซ์ยาว
  • ด้วยการฝึกแบบอิง RL และการนำ อัลกอริทึม CISPO มาใช้ จึงสามารถแก้ปัญหาหลากหลายได้อย่างมีประสิทธิภาพ
  • ในการทดสอบเบนช์มาร์ก เมื่อเทียบกับ DeepSeek-R1, Qwen3-235B และรุ่นอื่น ๆ พบว่าให้ประสิทธิภาพยอดเยี่ยมในงานวิศวกรรมซอฟต์แวร์ที่ซับซ้อน การใช้เครื่องมือ และอินพุตข้อความยาว
  • มีสภาพแวดล้อมการอนุมาน เครื่องมือสนับสนุน API และแชตบอตที่หลากหลาย จึงมีคุณค่าสูงสำหรับใช้เป็นฐานของ เอเจนต์โมเดลภาษายุคถัดไป

ภาพรวมโปรเจ็กต์โอเพนซอร์ส MiniMax-M1

  • MiniMax-M1 เป็น โมเดลอนุมานแบบไฮบริดแอทเทนชันขนาดใหญ่แบบโอเพนเวตตัวแรกของโลก ซึ่งแสดงให้เห็นถึงจุดแข็งและความพร้อมใช้งานจริงที่เหนือกว่าเมื่อเทียบกับทั้งโมเดลเชิงพาณิชย์และโอเพนโมเดลที่มีอยู่
  • ออกแบบมาให้เหมาะกับคอนเท็กซ์ยาว การอนุมานที่ซับซ้อน และการแก้ปัญหาในสภาพแวดล้อมซอฟต์แวร์ ด้วยการผสานโครงสร้าง Mixture-of-Experts (MoE) แบบไฮบริดขนาดใหญ่เข้ากับกลไก Lightning Attention
  • รองรับบริบทยาวได้อย่างมีประสิทธิภาพ (สูงสุด 1 ล้านโทเค็น) และลดปริมาณการคำนวณระหว่างการทดสอบลงอย่างมาก (ที่ 100K ใช้ FLOPs เพียง 25% เมื่อเทียบกับ DeepSeek-R1)
  • ยกระดับทั้งความสามารถในการขยายระบบและประสิทธิภาพการอนุมานให้สูงสุดด้วยเทคโนโลยี RL รุ่นล่าสุด อัลกอริทึม CISPO แบบใหม่ และการออกแบบไฮบริดแอทเทนชัน

1. ภาพรวมโมเดล

  • MiniMax-M1 มาพร้อม โครงสร้าง Mixture-of-Experts (MoE) แบบไฮบริด และ Lightning Attention
  • พัฒนาต่อยอดจาก MiniMax-Text-01 รุ่นก่อนหน้า (456 พันล้านพารามิเตอร์, เปิดใช้งาน 45.9 พันล้านพารามิเตอร์ต่อโทเค็น)
  • รองรับ ความยาวคอนเท็กซ์ 1 ล้านโทเค็น (มากกว่า DeepSeek R1 อยู่ 8 เท่า)
  • ลดปริมาณการคำนวณระหว่างทดสอบได้อย่างมากด้วย Lightning Attention (25% เมื่อเทียบกับ DeepSeek R1)
  • เหมาะกับงานที่ต้องใช้อินพุตยาวและการอนุมานที่ซับซ้อน
  • ฝึกกับโจทย์หลากหลายผ่าน RL ขนาดใหญ่ เช่น การอนุมานทางคณิตศาสตร์และงานวิศวกรรมซอฟต์แวร์ในสถานการณ์จริง
  • นำเสนอเฟรมเวิร์กการสเกล RL เฉพาะของ MiniMax-M1
    • เทคนิค CISPO: นำ อัลกอริทึม clipping น้ำหนัก importance sampling ที่เหนือกว่าวิธี RL แบบเดิมมาใช้
    • เสริมประสิทธิภาพและความสามารถในการขยายของ RL ด้วยไฮบริดแอทเทนชัน
  • ฝึกและเผยแพร่ 2 รุ่นตาม งบประมาณการคิด 40K, 80K
  • ให้ ประสิทธิภาพยอดเยี่ยม เหนือกว่าโอเพนโมเดลสมรรถนะสูงเดิมอย่าง DeepSeek-R1 และ Qwen3-235B ในงานวิศวกรรมซอฟต์แวร์ การใช้เครื่องมือ และงานคอนเท็กซ์ยาว
  • วางรากฐานสำหรับสร้างเอเจนต์โมเดลภาษายุคถัดไปเพื่อแก้โจทย์ท้าทายในโลกจริง

2. การประเมินผล (Evaluation)

ประเด็นสำคัญจากผลเบนช์มาร์ก

  • ทำผลงานระดับ SOTA ในด้าน คณิตศาสตร์ โค้ด วิศวกรรมซอฟต์แวร์ และคอนเท็กซ์ข้อความยาว
  • ได้คะแนนสูงโดยรวมเมื่อเทียบกับโอเพนโมเดลอื่น โดยเฉพาะใน ซอฟต์แวร์เบนช์ (SWE-bench) และ งานคอนเท็กซ์ยาว ที่มีความได้เปรียบชัดเจน
  • ตัวอย่างรายการที่น่าสนใจ
    • SWE-bench: 56.0(M1-80k) / 34.4(Qwen3) / 49.2(DeepSeek R1)
    • OpenAI-MRCR(128k): 73.4(M1-80k) / 27.7(Qwen3) / 35.8(DeepSeek R1)
    • มีความแข็งแกร่งในงานพัฒนาซอฟต์แวร์ที่เกี่ยวข้อง เช่น LiveCodeBench, FullStackBench
  • สภาพแวดล้อมการรัน: ประเมินที่ temperature 1.0, top_p 0.95
  • สำหรับเบนช์มาร์กอย่าง SWE-bench และ TAU-bench ได้ทำการประเมินด้วยขั้นตอนและการตั้งค่าของตนเอง (เช่น การ localization แบบสองขั้นระดับไฟล์, ไม่ใช้ embedding)

3. คู่มือการใช้งานโมเดล MiniMax-M1

การตั้งค่าที่แนะนำเพื่อประสิทธิภาพสูงสุด

3.1. พารามิเตอร์การอนุมาน

  • Temperature: 1.0
  • Top_p: 0.95
    ชุดค่านี้ช่วยให้ได้ทั้งความหลากหลายของข้อความและความสอดคล้องเชิงตรรกะ

3.2. System Prompt

  • งานทั่วไป: "You are a helpful assistant."
  • การพัฒนาเว็บ: มีพรอมป์ต์เฉพาะทางสำหรับงานหน้าเว็บที่ซับซ้อน เช่น การสร้างโค้ดแบบรวม UI ไว้ครบถ้วน
  • การอนุมานทางคณิตศาสตร์: ให้แสดงวิธีทำทีละขั้น แล้วใส่คำตอบสุดท้ายใน \boxed{}

4. คู่มือการดีพลอย

  • ดาวน์โหลดโมเดล MiniMax-M1-40k, MiniMax-M1-80k ได้จาก HuggingFace
  • ในการให้บริการจริง แนะนำให้ดีพลอยบน vLLM
    • เหมาะกับการเสิร์ฟโมเดลขนาดใหญ่ด้วยการจัดการหน่วยความจำอย่างมีประสิทธิภาพ การประมวลผลแบบแบตช์ที่ยอดเยี่ยม และการปรับแต่งประสิทธิภาพ
  • รองรับการดีพลอยบน Transformers แยกต่างหากเช่นกัน

5. Function Calling (อินเทอร์เฟซเชิงฟังก์ชัน)

  • MiniMax-M1 รองรับความสามารถด้าน function calling
    • เมื่อจำเป็นต้องใช้ฟังก์ชันภายนอก จะส่งออกพารามิเตอร์ในรูปแบบที่มีโครงสร้างโดยอัตโนมัติ
    • มี คู่มือ function calling ให้ใช้งาน

6. Chatbot & API

  • MiniMax Chatbot: มีอินเทอร์เฟซแชตที่รวมการค้นหาออนไลน์ไว้ด้วย
  • API: มี API ออนไลน์สำหรับนักพัฒนา และเครื่องมือสำหรับนักพัฒนา เช่น MiniMax MCP Server
    • รวมถึงการสร้างวิดีโอ ภาพ และเสียงด้วย AI ตลอดจนการโคลนเสียง

1 ความคิดเห็น

 
GN⁺ 2025-06-19
ความเห็นจาก Hacker News
  • ถ้าสงสัยว่าต้องใช้อะไรถึงจะรันตัวนี้ได้ ต้องใช้ H200 141GB จำนวน 8 ตัว และราคาก็อยู่ราว ๆ 250,000 ดอลลาร์
    ประเด็นถกเถียงบน GitHub / ข้อมูลราคาสินค้าบน eBay

    • สงสัยว่าจะรันบน Mac Studio 512GB ได้ไหม แค่ราว ๆ 8,500 ดอลลาร์ก็น่าจะพอ
    • นั่นคือกรณีที่ควอนไทซ์ทั้งหมด และถ้ารันแบบ Q4 หรือ Q8 ก็อาจรันได้ด้วยอุปกรณ์ราคาต่ำกว่า 10,000 ดอลลาร์
    • สงสัยว่าโมเดลนี้มีพารามิเตอร์ทั้งหมดกี่ตัว
  • มีข้อมูลว่าสัปดาห์นี้คือ 'launch week' ของ MiniMax
    วันจันทร์เปิดตัว M1 และวันอังคารเปิดตัว Hailuo 2
    ข่าวเกี่ยวกับโมเดลจากจีน
    ยังไม่แน่ชัดว่าจะมีประกาศแบบนี้ต่อเนื่องไปทั้งสัปดาห์หรือไม่ และตอนนี้บริษัทนี้เป็นที่รู้จักหลัก ๆ จาก LLM และโมเดลวิดีโอ
    ตรวจสอบประกาศอย่างเป็นทางการได้ที่ X ของ MiniMax (เดิมคือ Twitter)
    อีกอย่าง รายงานทางเทคนิคของ MiniMax M1 ก็มีประโยชน์มาก
    PDF รายงานทางเทคนิค
    แม้จะไม่ใช่โมเดล open-weight ระดับ SOTA แต่มีข้ออ้างที่น่าสนใจและหนักแน่นมากเกี่ยวกับ lightning attention และรูปแบบดัดแปลงของ GRPO (CISPO)
    (ฉันไม่ได้เกี่ยวข้องกับบริษัทนี้ แค่แชร์ข้อมูลที่ได้มา)

    • ถ้าจัดแบบวันจันทร์ M1 วันอังคาร Hailuo 2 อย่างนี้ ถ้าตั้งชื่อเป็น M1, M1 Pro, M1 Ultra แบบชิป Apple ก็คงขำดี
  • พอเห็นประโยคในบทความ arXiv ว่า "We publicly release MiniMax-M1 at this https url" ก็ทำให้ชอบบริษัทนี้ เพราะเป็นการปล่อยโค้ดจริง ไม่ใช่รีโพว่างเปล่า

  • ความเห็นของฉัน

    • จาก LinkedIn ดูเหมือนเป็นบริษัทที่ตั้งอยู่ในสิงคโปร์ และดูเหมือนกำแพงในการสร้าง LLM ที่ดีไม่ได้สูงมากนัก
    • ด้วยโมเดล open-weight และความก้าวหน้าของ Strix Halo / Ryzen AI Max เลยมองโลกในแง่ดีว่าอีกไม่กี่ปีข้างหน้าจะสามารถรัน LLM ดี ๆ แบบโลคัลได้ในราคาถูก
    • ดูเหมือนการรันโมเดลแบบโลคัลจะกลายเป็นสิ่งที่หลีกเลี่ยงไม่ได้ต่อจากนี้ ซึ่งก็มีทั้งความคาดหวังและความกังวล
      ถ้าใครรู้จักผู้เชี่ยวชาญที่น่าเชื่อถือหรือคนที่ถกประเด็นนี้ได้น่าสนใจ อยากให้แนะนำ
    • ต่างจากที่แสดงใน LinkedIn จริง ๆ แล้วบริษัทนี้ตั้งอยู่ในเซี่ยงไฮ้
    • เห็น โพสต์บน Twitter ที่บอกว่า MiniMax ฝึกโมเดลด้วยงบราว 500,000 ดอลลาร์

      ฝึก RL (การเรียนรู้แบบเสริมกำลัง) ด้วยเงิน 534,700 ดอลลาร์
      สงสัยว่าทำได้อย่างไรด้วยต้นทุนระดับนี้

    • บริษัทนี้เป็นบริษัทจีนที่ตั้งอยู่ในเซี่ยงไฮ้จริง ๆ
      และยังมีแผนจะเข้าจดทะเบียนในตลาดหลักทรัพย์ฮ่องกง (HKEX) เร็ว ๆ นี้
      บทความที่เกี่ยวข้อง
  • แม้หน้าเพจทางการจะไม่ได้ระบุไว้ชัดเจน แต่ MiniMax เป็นบริษัทจีน
    ดูได้จาก Wikipedia

    • ที่หลายคนรู้ว่า MiniMax เป็นบริษัทจีน ก็เพราะชื่อเครื่องสร้างวิดีโอของพวกเขาอย่าง 'Hailuo' มีกลิ่นอายความเป็นจีนชัดเจน และจนถึงตอนนี้ก็ยังเป็นที่รู้จักจากสิ่งนั้น
    • ก็สงสัยว่าเหตุผลอะไรที่ต้องประกาศบนหน้าโปรเจกต์ของตัวเองว่าเป็นบริษัทจีน
  • อยากให้ตั้งชื่อโมเดลแบบนี้ให้ดีกว่านี้หน่อย
    ฟังเหมือนโปรเซสเซอร์ของ Mac Studio

    • รู้จัก อัลกอริทึม Minimax อยู่แล้ว
      ชื่อนี้ก็มาจากอัลกอริทึม AI คลาสสิกชื่อดังนั่นเอง
    • Mac ของคุณผลิตโดย 'Apple' ซึ่งจริง ๆ ก็มีที่มาจากชื่อพันธุ์แอปเปิลเหมือนกัน
    • มันทำให้นึกถึงสุนัขชื่อ Max ที่หายไปนานแล้วของฉัน ชื่อนี้แย่มากจนแทบเข้าขั้นน่ากังขาทางศีลธรรม
  • ในงานวิจัยมีประโยคว่า "In our attention design, a transformer block with softmax attention follows every seven transnormer blocks (Qin et al., 2022a) with lightning attention"
    นั่นแปลว่า 87.5% ของทั้งหมดเป็น linear attention และ 12.5% เป็น full attention
    จริง ๆ แล้วคำว่า 'linear attention' ทำให้สับสน
    softmax attention เป็นวิธี routing ข้อมูล โดยตอนคำนวณโทเคน k จะรับข้อมูลจาก 1 ถึง k แต่ต้องผ่านช่องสัญญาณที่มีขนาดคงที่
    ส่วน linear attention นั้น แต่ละเลเยอร์มีเพียง 'register bank' ขนาดคงที่เท่านั้น
    มันไม่ได้โดดเด่นว่าเป็น attention จริง ๆ เท่าไร นอกจากเข้ากันได้กับการคำนวณแบบ layer-at-once

  • มีข่าวลือว่า MiniMax กำลังปูทางสำหรับการ IPO
    บทความที่เกี่ยวข้อง

  • ถ้าฝึกโมเดลขนาดนี้ได้โดยไม่พึ่งโครงสร้างพื้นฐานคลาวด์ฝั่งตะวันตก ก็สงสัยว่าโครงสร้างการประมวลผลโทเคนเป็นอย่างไร

    • ฝึกด้วย GPU H800 จำนวน 512 ตัวเป็นเวลา 3 สัปดาห์ และใช้งบราว 500,000 ดอลลาร์
      ดูจาก xcancel
    • ใช้ sneakernet (การขนย้ายข้อมูลแบบกายภาพ)