เปิดตัวโมเดล Mistral Large 2

(mistral.ai)

6 คะแนน โดย GN⁺ 2024-07-25 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Mistral Large 2 รองรับ context window ขนาด 128k และรองรับหลายภาษา รวมถึงภาษาฝรั่งเศส เยอรมัน สเปน อิตาลี จีน ญี่ปุ่น และเกาหลี
- นอกจากนี้ยังรองรับภาษาเขียนโปรแกรมมากกว่า 80 ภาษา รวมถึง Python, Java, C, C++, JavaScript และ Bash
ถูกออกแบบมาสำหรับการทำ inference บนโหนดเดียว และประกอบด้วยพารามิเตอร์ 123 พันล้านตัว จึงสามารถให้ throughput สูงบนโหนดเดียวได้
เผยแพร่ภายใต้ Mistral Research License ซึ่งอนุญาตให้ใช้งานและดัดแปลงได้เพื่อการวิจัยและการใช้งานที่ไม่ใช่เชิงพาณิชย์ หากต้องการใช้งานเชิงพาณิชย์ต้องได้รับ Mistral Commercial License

ประสิทธิภาพทั่วไป

Mistral Large 2 สร้างมาตรฐานใหม่ในตัวชี้วัดการประเมินด้านประสิทธิภาพ/ต้นทุน
โดยเฉพาะใน MMLU เวอร์ชันที่ผ่านการ pretrain ทำความแม่นยำได้ 84.0% และสร้างจุดใหม่บน performance/cost Pareto front

โค้ดและการให้เหตุผล

จากประสบการณ์ของ Codestral 22B และ Codestral Mamba ทำให้ Mistral Large 2 ได้รับการฝึกด้วยโค้ดจำนวนมาก
Mistral Large 2 เหนือกว่า Mistral Large รุ่นก่อนอย่างมาก และแสดงประสิทธิภาพทัดเทียมกับโมเดลชั้นนำอย่าง GPT-4o, Claude 3 Opus และ Llama 3 405B
มีการทุ่มเทความพยายามอย่างมากเพื่อปรับปรุงความสามารถด้านการให้เหตุผลของโมเดล และทำการ fine-tune โมเดลเพื่อลดแนวโน้มการสร้างข้อมูลที่ไม่ตรงกับข้อเท็จจริงให้น้อยที่สุด
โมเดลได้รับการฝึกให้ยอมรับเมื่อไม่สามารถหาคำตอบได้ หรือเมื่อมีข้อมูลไม่เพียงพอ

การทำตามคำสั่งและการจัดแนว

Mistral Large 2 ได้รับการปรับปรุงอย่างมากในด้านการทำตามคำสั่งและความสามารถด้านการสนทนา
เนื่องจากความกระชับมีความสำคัญในแอปพลิเคชันทางธุรกิจจำนวนมาก จึงได้ทุ่มเทอย่างมากเพื่อให้สร้างคำตอบที่กระชับและตรงประเด็นที่สุดเท่าที่จะเป็นไปได้

ความหลากหลายของภาษา

Mistral Large 2 ได้รับการฝึกด้วยข้อมูลหลายภาษาจำนวนมาก จึงแสดงประสิทธิภาพยอดเยี่ยมในภาษาอังกฤษ ฝรั่งเศส เยอรมัน สเปน อิตาลี โปรตุเกส ดัตช์ รัสเซีย จีน ญี่ปุ่น เกาหลี อาหรับ และฮินดี

การใช้เครื่องมือและการเรียกฟังก์ชัน

Mistral Large 2 มีความสามารถด้าน function calling และการค้นหาที่ดีขึ้น และได้รับการฝึกให้สามารถทำหน้าที่เป็นเอนจินขับเคลื่อนสำหรับแอปพลิเคชันทางธุรกิจที่ซับซ้อนได้

การเข้าถึงโมเดล Mistral ผ่านผู้ให้บริการคลาวด์

ขยายความร่วมมือกับ Google Cloud Platform เพื่อนำเสนอโมเดลของ Mistral AI บน Vertex AI
โมเดลของ Mistral AI ยังสามารถใช้งานได้บน Azure AI Studio, Amazon Bedrock และ IBM watsonx.ai

สรุปโดย GN⁺

Mistral Large 2 รองรับทั้งหลายภาษาและภาษาเขียนโปรแกรมหลากหลาย พร้อมให้ throughput สูงบนโหนดเดียว
ความสามารถด้านการสร้างโค้ดและการให้เหตุผลดีขึ้นอย่างมาก และลดแนวโน้มการสร้างข้อมูลที่ไม่ตรงกับข้อเท็จจริงให้น้อยที่สุด
ได้รับการฝึกด้วยข้อมูลหลายภาษาจำนวนมาก จึงแสดงประสิทธิภาพยอดเยี่ยมในหลายภาษา
ให้บริการแก่ผู้ใช้ทั่วโลกผ่านความร่วมมือกับ Google Cloud Platform, Azure AI Studio, Amazon Bedrock และ IBM watsonx.ai
ถูกออกแบบมาให้สร้างคำตอบที่กระชับและตรงประเด็นสำหรับแอปพลิเคชันทางธุรกิจ

1 ความคิดเห็น

GN⁺ 2024-07-25

ความเห็นจาก Hacker News

จากการทดสอบ Mistral Large 2 และ Llama 3.1 405b พบว่ายากที่จะตัดสินได้ชัดเจนว่ารุ่นไหนเหนือกว่า
ถ้าใช้งาน Claude อยู่แล้ว ก็ควรใช้ต่อไป
สิ่งที่อยากได้จาก Claude:
- ฉลาดกว่านี้
- context window ที่ยาวขึ้น (1M+)
- รองรับเสียงแบบเนทีฟและเข้าใจน้ำเสียง
- เวลาปฏิเสธ อยากให้ตัดสินเชิงศีลธรรมน้อยลง
- เร็วกว่านี้
- เพิ่มจำนวน output token
การแข่งขันของโมเดลกำลังดุเดือดขึ้น
Claude 3.5 Sonnet เหนือกว่าทุกโมเดลอื่นอย่างชัดเจน
ไม่ค่อยรู้ว่าจะใช้ Mistral หรือ Llama ในชีวิตประจำวันอย่างไร
กำลังพัฒนา AI coding assistant และหลังจากลองหลายโมเดลแล้ว พบว่า Mistral Large 2 น่าผิดหวังที่สุด
ไลเซนส์แบบไม่ใช่เชิงพาณิชย์น่าผิดหวัง
แข่งขันกับ Llama 3.1 405b ได้ แต่ไลเซนส์มีข้อจำกัดมากกว่า
ความแตกต่างระหว่างโมเดลกำลังลดลง ดังนั้นการ fine-tune Llama 405B ให้เหมาะกับ use case เฉพาะอาจดีกว่า
ถ้าไม่มีการก้าวกระโดดด้านคุณภาพ ก็ไม่น่าจะมีความแตกต่างมากนักจากสภาพปัจจุบัน
ดีใจที่การแข่งขันเข้มข้นขึ้น
มีการใช้ต้นทุนสูงเพื่อสร้างโมเดล SOTA แต่ก็ยังอยู่แค่ระดับ GPT-4o และ Claude Opus
การใส่ข้อมูลและ GPU เพิ่มเข้าไปอย่างเดียวเริ่มชนข้อจำกัดแล้ว
ประสบการณ์ผู้ใช้และ "บุคลิก" จะยิ่งสำคัญขึ้น
ชอบ Claude Sonnet และรู้สึกว่ามันคมกว่ารุ่นอื่น
อย่าลืมว่าในแต่ละก้าวต้องใช้พลังงานและทรัพยากรมากขึ้น
แชร์ผล benchmark โมเดลล่าสุดของ PyLLMs
- ทึ่งกับความเร็วและคุณภาพของ Nemo
- Mistral Large ดี แต่ช้ามาก
สับสนว่าระหว่าง Opus กับ Sonnet 3.5 ในตระกูล Claude รุ่นไหนมีความสามารถมากกว่ากัน
Mistral Large 2 มีความสามารถด้าน function calling และการค้นหาที่ดีขึ้น
สงสัยว่าความแม่นยำของ function calling ราว 50% หมายความว่าในงานซับซ้อนจะล้มเหลวครึ่งหนึ่งหรือไม่
ชอบ ChatGPT-4o มากกว่า และจะใช้ Claude เมื่อมีปัญหา แต่ก็ไม่ได้ผลลัพธ์ที่ดีกว่า

เปิดตัวโมเดล Mistral Large 2

ประสิทธิภาพทั่วไป

โค้ดและการให้เหตุผล

การทำตามคำสั่งและการจัดแนว

ความหลากหลายของภาษา

การใช้เครื่องมือและการเรียกฟังก์ชัน

การเข้าถึงโมเดล Mistral ผ่านผู้ให้บริการคลาวด์

สรุปโดย GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News