- Mistral Large 2 รองรับ context window ขนาด 128k และรองรับหลายภาษา รวมถึงภาษาฝรั่งเศส เยอรมัน สเปน อิตาลี จีน ญี่ปุ่น และเกาหลี
- นอกจากนี้ยังรองรับภาษาเขียนโปรแกรมมากกว่า 80 ภาษา รวมถึง Python, Java, C, C++, JavaScript และ Bash
- ถูกออกแบบมาสำหรับการทำ inference บนโหนดเดียว และประกอบด้วยพารามิเตอร์ 123 พันล้านตัว จึงสามารถให้ throughput สูงบนโหนดเดียวได้
- เผยแพร่ภายใต้ Mistral Research License ซึ่งอนุญาตให้ใช้งานและดัดแปลงได้เพื่อการวิจัยและการใช้งานที่ไม่ใช่เชิงพาณิชย์ หากต้องการใช้งานเชิงพาณิชย์ต้องได้รับ Mistral Commercial License
ประสิทธิภาพทั่วไป
- Mistral Large 2 สร้างมาตรฐานใหม่ในตัวชี้วัดการประเมินด้านประสิทธิภาพ/ต้นทุน
- โดยเฉพาะใน MMLU เวอร์ชันที่ผ่านการ pretrain ทำความแม่นยำได้ 84.0% และสร้างจุดใหม่บน performance/cost Pareto front
โค้ดและการให้เหตุผล
- จากประสบการณ์ของ Codestral 22B และ Codestral Mamba ทำให้ Mistral Large 2 ได้รับการฝึกด้วยโค้ดจำนวนมาก
- Mistral Large 2 เหนือกว่า Mistral Large รุ่นก่อนอย่างมาก และแสดงประสิทธิภาพทัดเทียมกับโมเดลชั้นนำอย่าง GPT-4o, Claude 3 Opus และ Llama 3 405B
- มีการทุ่มเทความพยายามอย่างมากเพื่อปรับปรุงความสามารถด้านการให้เหตุผลของโมเดล และทำการ fine-tune โมเดลเพื่อลดแนวโน้มการสร้างข้อมูลที่ไม่ตรงกับข้อเท็จจริงให้น้อยที่สุด
- โมเดลได้รับการฝึกให้ยอมรับเมื่อไม่สามารถหาคำตอบได้ หรือเมื่อมีข้อมูลไม่เพียงพอ
การทำตามคำสั่งและการจัดแนว
- Mistral Large 2 ได้รับการปรับปรุงอย่างมากในด้านการทำตามคำสั่งและความสามารถด้านการสนทนา
- เนื่องจากความกระชับมีความสำคัญในแอปพลิเคชันทางธุรกิจจำนวนมาก จึงได้ทุ่มเทอย่างมากเพื่อให้สร้างคำตอบที่กระชับและตรงประเด็นที่สุดเท่าที่จะเป็นไปได้
ความหลากหลายของภาษา
- Mistral Large 2 ได้รับการฝึกด้วยข้อมูลหลายภาษาจำนวนมาก จึงแสดงประสิทธิภาพยอดเยี่ยมในภาษาอังกฤษ ฝรั่งเศส เยอรมัน สเปน อิตาลี โปรตุเกส ดัตช์ รัสเซีย จีน ญี่ปุ่น เกาหลี อาหรับ และฮินดี
การใช้เครื่องมือและการเรียกฟังก์ชัน
- Mistral Large 2 มีความสามารถด้าน function calling และการค้นหาที่ดีขึ้น และได้รับการฝึกให้สามารถทำหน้าที่เป็นเอนจินขับเคลื่อนสำหรับแอปพลิเคชันทางธุรกิจที่ซับซ้อนได้
การเข้าถึงโมเดล Mistral ผ่านผู้ให้บริการคลาวด์
- ขยายความร่วมมือกับ Google Cloud Platform เพื่อนำเสนอโมเดลของ Mistral AI บน Vertex AI
- โมเดลของ Mistral AI ยังสามารถใช้งานได้บน Azure AI Studio, Amazon Bedrock และ IBM watsonx.ai
สรุปโดย GN⁺
- Mistral Large 2 รองรับทั้งหลายภาษาและภาษาเขียนโปรแกรมหลากหลาย พร้อมให้ throughput สูงบนโหนดเดียว
- ความสามารถด้านการสร้างโค้ดและการให้เหตุผลดีขึ้นอย่างมาก และลดแนวโน้มการสร้างข้อมูลที่ไม่ตรงกับข้อเท็จจริงให้น้อยที่สุด
- ได้รับการฝึกด้วยข้อมูลหลายภาษาจำนวนมาก จึงแสดงประสิทธิภาพยอดเยี่ยมในหลายภาษา
- ให้บริการแก่ผู้ใช้ทั่วโลกผ่านความร่วมมือกับ Google Cloud Platform, Azure AI Studio, Amazon Bedrock และ IBM watsonx.ai
- ถูกออกแบบมาให้สร้างคำตอบที่กระชับและตรงประเด็นสำหรับแอปพลิเคชันทางธุรกิจ
1 ความคิดเห็น
ความเห็นจาก Hacker News