5 คะแนน โดย GN⁺ 2025-01-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ทีม Mistral AI เปิดตัวโมเดลพารามิเตอร์ 24B ชื่อ Mistral Small 3 ภายใต้ไลเซนส์ Apache 2.0
  • โมเดลนี้สามารถแข่งขันกับโมเดลขนาดใหญ่กว่าอย่าง Llama 3.3 70B หรือ Qwen 32B ได้ และเหมาะเป็นทางเลือกแทนโมเดลแบบปิดอย่าง GPT4o-mini
  • Mistral Small 3 ถูกออกแบบมาให้มีขนาดเหมาะกับการดีพลอยแบบโลคัล โดยมีจำนวนเลเยอร์น้อยลงจึงช่วยลดเวลาในการประมวลผล
  • ทำความแม่นยำได้มากกว่า 81% บน MMLU และมีค่าหน่วงที่ 150 tokens/s

ประสิทธิภาพ

การประเมินโดยมนุษย์

  • ประเมินชุดพรอมป์ด้านโค้ดและงานทั่วไปมากกว่า 1,000 ชุด ร่วมกับผู้ให้บริการประเมินภายนอก
  • เปรียบเทียบคำตอบของ Mistral Small 3 กับโมเดลอื่นเพื่อสำรวจความพึงพอใจ
  • ให้ความสำคัญกับความเป็นธรรมในการประเมินอย่างรอบคอบ และมั่นใจในความน่าเชื่อถือของเบนช์มาร์ก

ประสิทธิภาพด้านคำสั่ง

  • โมเดลที่จูนสำหรับคำสั่งมีประสิทธิภาพแข่งขันได้กับโมเดลเปิดที่มีขนาดใหญ่กว่าสามเท่า และกับโมเดล GPT4o-mini
  • ทำคะแนนความแม่นยำสูงในเบนช์มาร์กด้านโค้ด คณิตศาสตร์ ความรู้ทั่วไป และการทำตามคำสั่ง

ประสิทธิภาพก่อนการพรีเทรน

  • Mistral Small 3 เป็นโมเดล 24B ที่ให้ประสิทธิภาพระดับแนวหน้าต่อขนาด และแข่งขันได้กับโมเดลที่ใหญ่กว่าสามเท่าอย่าง Llama 3.3 70B

กรณีการใช้งานของ Mistral Small 3

  • ผู้ช่วยสนทนาแบบโต้ตอบที่ตอบสนองรวดเร็ว: ให้ประสิทธิภาพโดดเด่นในสถานการณ์ที่ต้องการคำตอบเร็วและแม่นยำ
  • การเรียกใช้ฟังก์ชันที่มีค่าหน่วงต่ำ: รองรับการรันฟังก์ชันอย่างรวดเร็วในเวิร์กโฟลว์อัตโนมัติ
  • การสร้างผู้เชี่ยวชาญเฉพาะทาง: สามารถไฟน์จูนให้เหมาะกับโดเมนเฉพาะเพื่อสร้างผู้เชี่ยวชาญที่มีความแม่นยำสูง
  • การอนุมานแบบโลคัล: มีประโยชน์สำหรับบุคคลหรือองค์กรที่ต้องจัดการข้อมูลอ่อนไหว

ใช้งาน Mistral Small 3 บนเทคสแตกที่คุณต้องการ

  • Mistral Small 3 ใช้งานได้บน la Plateforme ผ่าน mistral-small-latest หรือ mistral-small-2501
  • ร่วมมือกับ Hugging Face, Ollama, Kaggle, Together AI และ Fireworks AI เพื่อนำโมเดลไปให้บริการบนแพลตฟอร์มที่หลากหลาย

แผนต่อจากนี้

  • Mistral Small 3 ช่วยเสริมโมเดลอนุมานโอเพนซอร์สขนาดใหญ่อย่าง DeepSeek และสามารถใช้เป็นโมเดลฐานที่แข็งแกร่งสำหรับการเสริมความสามารถด้านการอนุมาน
  • ในอนาคตมีแผนเปิดตัวทั้งโมเดลที่เล็กกว่าและโมเดลที่ใหญ่กว่า

โมเดลโอเพนซอร์สของ Mistral

  • มีแผนให้บริการโมเดลอเนกประสงค์ภายใต้ไลเซนส์ Apache 2.0
  • สามารถดาวน์โหลดน้ำหนักโมเดลและดีพลอยแบบโลคัลได้ พร้อมทั้งแก้ไขและใช้งานได้อย่างอิสระ
  • จะให้บริการผ่าน serverless API, การดีพลอยแบบ on-premises และ VPC รวมถึงแพลตฟอร์มสำหรับการคัสตอมและ orchestration

1 ความคิดเห็น

 
GN⁺ 2025-01-31
ความคิดเห็นใน Hacker News
  • โมเดล Mistral Small มีเป้าหมายเป็นโมเดลที่เหมาะสมที่สุดซึ่งสามารถรันได้บนโน้ตบุ๊กที่มีประสิทธิภาพพอสมควร และกำลังถูกนำไปเปรียบเทียบกับ Llama 3.3 70B และ Qwen 2.5 32B

    • กำลังรันผ่าน Ollama บน M2 64GB MacBook Pro และทั้งเร็วและมีประสิทธิภาพดี
    • ต้องดาวน์โหลดน้ำหนักโมเดลขนาด 14GB
  • Tom จาก Epoch AI กำลังสร้างโครงสร้างพื้นฐานสำหรับการประเมิน LLM อย่างเป็นระบบและในระดับใหญ่

    • ทำการประเมินโดยใช้ไลบรารี Inspect ของรัฐบาลสหราชอาณาจักร
    • ประเมิน Mistral Small 3 ที่ MATH ระดับ 5 และได้ค่าความแม่นยำ 0.45
    • วัดค่าความแม่นยำเฉลี่ยโดยสุ่มตัวอย่าง 8 ครั้งสำหรับคำถาม 1,324 ข้อ
  • กำลังเปลี่ยนไปใช้ไลเซนส์ Apache 2.0 และออกจากไลเซนส์แบบไม่ใช่เชิงพาณิชย์

  • จากการลองใช้พรอมป์ต์สร้างโค้ด พบว่ามีประสิทธิภาพใกล้เคียงกับ qwen2.5-coder-32b

    • น่าประทับใจที่โมเดลขนาดเล็กให้ผลลัพธ์ที่ละเอียดขึ้น
    • คาดหวังเวอร์ชันใหม่ของโมเดล 8x7B mixtral
  • ประเด็นสำคัญของการเปิดตัวครั้งนี้มีดังนี้

    • ใช้ไลเซนส์ Apache 2.0
    • latency ต่ำ (11ms/โทเค็น)
    • ประสิทธิภาพอยู่ระหว่าง Qwen 2.5 32B และ Llama 3.3 70B
    • โมเดล Mistral Small รันได้ที่ความเร็ว 9 โทเค็น/วินาที
  • จากการเปิดตัวโมเดล MoE ช่วงหลัง ทำให้รู้สึกว่า VRAM 24GB เริ่มไม่เพียงพอ

    • Mistral Small 3 ไม่ได้ใช้ RL หรือข้อมูลสังเคราะห์
  • โมเดล Mistral Small ตอบคำถามเกี่ยวกับอัลบั้มแรกของ Mary J Blige ได้อย่างถูกต้อง

  • มีความสงสัยว่าทำไมถึงเลือกใช้โมเดลขนาดเล็ก

  • มีความเห็นว่าอยากให้ใส่จำนวนพารามิเตอร์ไว้ในชื่อโมเดล