เปิดตัว Mistral Small 3

(mistral.ai)

5 คะแนน โดย GN⁺ 2025-01-31 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ทีม Mistral AI เปิดตัวโมเดลพารามิเตอร์ 24B ชื่อ Mistral Small 3 ภายใต้ไลเซนส์ Apache 2.0
โมเดลนี้สามารถแข่งขันกับโมเดลขนาดใหญ่กว่าอย่าง Llama 3.3 70B หรือ Qwen 32B ได้ และเหมาะเป็นทางเลือกแทนโมเดลแบบปิดอย่าง GPT4o-mini
Mistral Small 3 ถูกออกแบบมาให้มีขนาดเหมาะกับการดีพลอยแบบโลคัล โดยมีจำนวนเลเยอร์น้อยลงจึงช่วยลดเวลาในการประมวลผล
ทำความแม่นยำได้มากกว่า 81% บน MMLU และมีค่าหน่วงที่ 150 tokens/s

ประสิทธิภาพ

การประเมินโดยมนุษย์

ประเมินชุดพรอมป์ด้านโค้ดและงานทั่วไปมากกว่า 1,000 ชุด ร่วมกับผู้ให้บริการประเมินภายนอก
เปรียบเทียบคำตอบของ Mistral Small 3 กับโมเดลอื่นเพื่อสำรวจความพึงพอใจ
ให้ความสำคัญกับความเป็นธรรมในการประเมินอย่างรอบคอบ และมั่นใจในความน่าเชื่อถือของเบนช์มาร์ก

ประสิทธิภาพด้านคำสั่ง

โมเดลที่จูนสำหรับคำสั่งมีประสิทธิภาพแข่งขันได้กับโมเดลเปิดที่มีขนาดใหญ่กว่าสามเท่า และกับโมเดล GPT4o-mini
ทำคะแนนความแม่นยำสูงในเบนช์มาร์กด้านโค้ด คณิตศาสตร์ ความรู้ทั่วไป และการทำตามคำสั่ง

ประสิทธิภาพก่อนการพรีเทรน

Mistral Small 3 เป็นโมเดล 24B ที่ให้ประสิทธิภาพระดับแนวหน้าต่อขนาด และแข่งขันได้กับโมเดลที่ใหญ่กว่าสามเท่าอย่าง Llama 3.3 70B

กรณีการใช้งานของ Mistral Small 3

ผู้ช่วยสนทนาแบบโต้ตอบที่ตอบสนองรวดเร็ว: ให้ประสิทธิภาพโดดเด่นในสถานการณ์ที่ต้องการคำตอบเร็วและแม่นยำ
การเรียกใช้ฟังก์ชันที่มีค่าหน่วงต่ำ: รองรับการรันฟังก์ชันอย่างรวดเร็วในเวิร์กโฟลว์อัตโนมัติ
การสร้างผู้เชี่ยวชาญเฉพาะทาง: สามารถไฟน์จูนให้เหมาะกับโดเมนเฉพาะเพื่อสร้างผู้เชี่ยวชาญที่มีความแม่นยำสูง
การอนุมานแบบโลคัล: มีประโยชน์สำหรับบุคคลหรือองค์กรที่ต้องจัดการข้อมูลอ่อนไหว

ใช้งาน Mistral Small 3 บนเทคสแตกที่คุณต้องการ

Mistral Small 3 ใช้งานได้บน la Plateforme ผ่าน mistral-small-latest หรือ mistral-small-2501
ร่วมมือกับ Hugging Face, Ollama, Kaggle, Together AI และ Fireworks AI เพื่อนำโมเดลไปให้บริการบนแพลตฟอร์มที่หลากหลาย

แผนต่อจากนี้

Mistral Small 3 ช่วยเสริมโมเดลอนุมานโอเพนซอร์สขนาดใหญ่อย่าง DeepSeek และสามารถใช้เป็นโมเดลฐานที่แข็งแกร่งสำหรับการเสริมความสามารถด้านการอนุมาน
ในอนาคตมีแผนเปิดตัวทั้งโมเดลที่เล็กกว่าและโมเดลที่ใหญ่กว่า

โมเดลโอเพนซอร์สของ Mistral

มีแผนให้บริการโมเดลอเนกประสงค์ภายใต้ไลเซนส์ Apache 2.0
สามารถดาวน์โหลดน้ำหนักโมเดลและดีพลอยแบบโลคัลได้ พร้อมทั้งแก้ไขและใช้งานได้อย่างอิสระ
จะให้บริการผ่าน serverless API, การดีพลอยแบบ on-premises และ VPC รวมถึงแพลตฟอร์มสำหรับการคัสตอมและ orchestration

1 ความคิดเห็น

GN⁺ 2025-01-31

ความคิดเห็นใน Hacker News

โมเดล Mistral Small มีเป้าหมายเป็นโมเดลที่เหมาะสมที่สุดซึ่งสามารถรันได้บนโน้ตบุ๊กที่มีประสิทธิภาพพอสมควร และกำลังถูกนำไปเปรียบเทียบกับ Llama 3.3 70B และ Qwen 2.5 32B
- กำลังรันผ่าน Ollama บน M2 64GB MacBook Pro และทั้งเร็วและมีประสิทธิภาพดี
- ต้องดาวน์โหลดน้ำหนักโมเดลขนาด 14GB
Tom จาก Epoch AI กำลังสร้างโครงสร้างพื้นฐานสำหรับการประเมิน LLM อย่างเป็นระบบและในระดับใหญ่
- ทำการประเมินโดยใช้ไลบรารี Inspect ของรัฐบาลสหราชอาณาจักร
- ประเมิน Mistral Small 3 ที่ MATH ระดับ 5 และได้ค่าความแม่นยำ 0.45
- วัดค่าความแม่นยำเฉลี่ยโดยสุ่มตัวอย่าง 8 ครั้งสำหรับคำถาม 1,324 ข้อ
กำลังเปลี่ยนไปใช้ไลเซนส์ Apache 2.0 และออกจากไลเซนส์แบบไม่ใช่เชิงพาณิชย์
จากการลองใช้พรอมป์ต์สร้างโค้ด พบว่ามีประสิทธิภาพใกล้เคียงกับ qwen2.5-coder-32b
- น่าประทับใจที่โมเดลขนาดเล็กให้ผลลัพธ์ที่ละเอียดขึ้น
- คาดหวังเวอร์ชันใหม่ของโมเดล 8x7B mixtral
ประเด็นสำคัญของการเปิดตัวครั้งนี้มีดังนี้
- ใช้ไลเซนส์ Apache 2.0
- latency ต่ำ (11ms/โทเค็น)
- ประสิทธิภาพอยู่ระหว่าง Qwen 2.5 32B และ Llama 3.3 70B
- โมเดล Mistral Small รันได้ที่ความเร็ว 9 โทเค็น/วินาที
จากการเปิดตัวโมเดล MoE ช่วงหลัง ทำให้รู้สึกว่า VRAM 24GB เริ่มไม่เพียงพอ
- Mistral Small 3 ไม่ได้ใช้ RL หรือข้อมูลสังเคราะห์
โมเดล Mistral Small ตอบคำถามเกี่ยวกับอัลบั้มแรกของ Mary J Blige ได้อย่างถูกต้อง
มีความสงสัยว่าทำไมถึงเลือกใช้โมเดลขนาดเล็ก
มีความเห็นว่าอยากให้ใส่จำนวนพารามิเตอร์ไว้ในชื่อโมเดล

เปิดตัว Mistral Small 3

ประสิทธิภาพ

การประเมินโดยมนุษย์

ประสิทธิภาพด้านคำสั่ง

ประสิทธิภาพก่อนการพรีเทรน

กรณีการใช้งานของ Mistral Small 3

ใช้งาน Mistral Small 3 บนเทคสแตกที่คุณต้องการ

แผนต่อจากนี้

โมเดลโอเพนซอร์สของ Mistral

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นใน Hacker News