- ทีม Mistral AI เปิดตัวโมเดลพารามิเตอร์ 24B ชื่อ Mistral Small 3 ภายใต้ไลเซนส์ Apache 2.0
- โมเดลนี้สามารถแข่งขันกับโมเดลขนาดใหญ่กว่าอย่าง Llama 3.3 70B หรือ Qwen 32B ได้ และเหมาะเป็นทางเลือกแทนโมเดลแบบปิดอย่าง GPT4o-mini
- Mistral Small 3 ถูกออกแบบมาให้มีขนาดเหมาะกับการดีพลอยแบบโลคัล โดยมีจำนวนเลเยอร์น้อยลงจึงช่วยลดเวลาในการประมวลผล
- ทำความแม่นยำได้มากกว่า 81% บน MMLU และมีค่าหน่วงที่ 150 tokens/s
ประสิทธิภาพ
การประเมินโดยมนุษย์
- ประเมินชุดพรอมป์ด้านโค้ดและงานทั่วไปมากกว่า 1,000 ชุด ร่วมกับผู้ให้บริการประเมินภายนอก
- เปรียบเทียบคำตอบของ Mistral Small 3 กับโมเดลอื่นเพื่อสำรวจความพึงพอใจ
- ให้ความสำคัญกับความเป็นธรรมในการประเมินอย่างรอบคอบ และมั่นใจในความน่าเชื่อถือของเบนช์มาร์ก
ประสิทธิภาพด้านคำสั่ง
- โมเดลที่จูนสำหรับคำสั่งมีประสิทธิภาพแข่งขันได้กับโมเดลเปิดที่มีขนาดใหญ่กว่าสามเท่า และกับโมเดล GPT4o-mini
- ทำคะแนนความแม่นยำสูงในเบนช์มาร์กด้านโค้ด คณิตศาสตร์ ความรู้ทั่วไป และการทำตามคำสั่ง
ประสิทธิภาพก่อนการพรีเทรน
- Mistral Small 3 เป็นโมเดล 24B ที่ให้ประสิทธิภาพระดับแนวหน้าต่อขนาด และแข่งขันได้กับโมเดลที่ใหญ่กว่าสามเท่าอย่าง Llama 3.3 70B
กรณีการใช้งานของ Mistral Small 3
- ผู้ช่วยสนทนาแบบโต้ตอบที่ตอบสนองรวดเร็ว: ให้ประสิทธิภาพโดดเด่นในสถานการณ์ที่ต้องการคำตอบเร็วและแม่นยำ
- การเรียกใช้ฟังก์ชันที่มีค่าหน่วงต่ำ: รองรับการรันฟังก์ชันอย่างรวดเร็วในเวิร์กโฟลว์อัตโนมัติ
- การสร้างผู้เชี่ยวชาญเฉพาะทาง: สามารถไฟน์จูนให้เหมาะกับโดเมนเฉพาะเพื่อสร้างผู้เชี่ยวชาญที่มีความแม่นยำสูง
- การอนุมานแบบโลคัล: มีประโยชน์สำหรับบุคคลหรือองค์กรที่ต้องจัดการข้อมูลอ่อนไหว
ใช้งาน Mistral Small 3 บนเทคสแตกที่คุณต้องการ
- Mistral Small 3 ใช้งานได้บน la Plateforme ผ่าน
mistral-small-latest หรือ mistral-small-2501
- ร่วมมือกับ Hugging Face, Ollama, Kaggle, Together AI และ Fireworks AI เพื่อนำโมเดลไปให้บริการบนแพลตฟอร์มที่หลากหลาย
แผนต่อจากนี้
- Mistral Small 3 ช่วยเสริมโมเดลอนุมานโอเพนซอร์สขนาดใหญ่อย่าง DeepSeek และสามารถใช้เป็นโมเดลฐานที่แข็งแกร่งสำหรับการเสริมความสามารถด้านการอนุมาน
- ในอนาคตมีแผนเปิดตัวทั้งโมเดลที่เล็กกว่าและโมเดลที่ใหญ่กว่า
โมเดลโอเพนซอร์สของ Mistral
- มีแผนให้บริการโมเดลอเนกประสงค์ภายใต้ไลเซนส์ Apache 2.0
- สามารถดาวน์โหลดน้ำหนักโมเดลและดีพลอยแบบโลคัลได้ พร้อมทั้งแก้ไขและใช้งานได้อย่างอิสระ
- จะให้บริการผ่าน serverless API, การดีพลอยแบบ on-premises และ VPC รวมถึงแพลตฟอร์มสำหรับการคัสตอมและ orchestration
1 ความคิดเห็น
ความคิดเห็นใน Hacker News
โมเดล Mistral Small มีเป้าหมายเป็นโมเดลที่เหมาะสมที่สุดซึ่งสามารถรันได้บนโน้ตบุ๊กที่มีประสิทธิภาพพอสมควร และกำลังถูกนำไปเปรียบเทียบกับ Llama 3.3 70B และ Qwen 2.5 32B
Tom จาก Epoch AI กำลังสร้างโครงสร้างพื้นฐานสำหรับการประเมิน LLM อย่างเป็นระบบและในระดับใหญ่
กำลังเปลี่ยนไปใช้ไลเซนส์ Apache 2.0 และออกจากไลเซนส์แบบไม่ใช่เชิงพาณิชย์
จากการลองใช้พรอมป์ต์สร้างโค้ด พบว่ามีประสิทธิภาพใกล้เคียงกับ qwen2.5-coder-32b
ประเด็นสำคัญของการเปิดตัวครั้งนี้มีดังนี้
จากการเปิดตัวโมเดล MoE ช่วงหลัง ทำให้รู้สึกว่า VRAM 24GB เริ่มไม่เพียงพอ
โมเดล Mistral Small ตอบคำถามเกี่ยวกับอัลบั้มแรกของ Mary J Blige ได้อย่างถูกต้อง
มีความสงสัยว่าทำไมถึงเลือกใช้โมเดลขนาดเล็ก
มีความเห็นว่าอยากให้ใส่จำนวนพารามิเตอร์ไว้ในชื่อโมเดล