- "ถูกกว่า ดีกว่า เร็วกว่า และทรงพลังกว่า"
- เป็นโมเดล Sparse Mixture-of-Experts(SMoE) ที่ใช้พารามิเตอร์ที่ทำงานจริงเพียง 39B จากพารามิเตอร์ทั้งหมด 141B ทำให้มีความคุ้มค่าด้านต้นทุนสูงมากเมื่อเทียบกับขนาดโมเดล
คุณสมบัติเด่นของ Mixtral 8x22B
- ใช้งานภาษาอังกฤษ ฝรั่งเศส อิตาลี เยอรมัน และสเปนได้อย่างคล่องแคล่ว
- มีความสามารถด้านคณิตศาสตร์และการเขียนโค้ดที่ยอดเยี่ยม
- รองรับการเรียกใช้ฟังก์ชันได้โดยพื้นฐาน และเมื่อใช้ร่วมกับโหมดจำกัดผลลัพธ์ที่ติดตั้งบน la Plateforme ก็สามารถพัฒนาแอปพลิเคชันขนาดใหญ่และปรับปรุงเทคโนโลยีสแตกให้ทันสมัยได้
- หน้าต่างคอนเท็กซ์ 64K โทเค็นช่วยให้ดึงข้อมูลที่ถูกต้องกลับมาได้จากเอกสารจำนวนมาก
โมเดลโอเพนอย่างแท้จริง
- Mistral AI เชื่อในพลังของความเปิดกว้างและการกระจายการใช้งานในวงกว้าง เพื่อส่งเสริมนวัตกรรมและความร่วมมือใน AI
- Mixtral 8x22B เผยแพร่ภายใต้ Apache 2.0 ซึ่งเป็นไลเซนส์โอเพนซอร์สที่เปิดกว้างมากที่สุด ทำให้ทุกคนสามารถใช้งานโมเดลได้โดยไม่มีข้อจำกัด
ประสิทธิภาพสูงสุด
- Mistral AI สร้างโมเดลที่ให้ประสิทธิภาพสูงสุดต่อค่าใช้จ่ายในแต่ละขนาดโมเดล จึงให้สัดส่วนประสิทธิภาพต่อราคาที่ดีที่สุดในบรรดาโมเดลจากชุมชน
- Mixtral 8x22B เป็นส่วนขยายตามธรรมชาติของตระกูลโมเดลโอเพนของ Mistral AI ด้วยรูปแบบการทำงานแบบ sparse จึงเร็วกว่าโมเดล Dense 70B และยังมอบความสามารถมากกว่าโมเดล open-weight อื่น ๆ ที่เผยแพร่ภายใต้ทั้งไลเซนส์แบบเปิดกว้างหรือแบบจำกัด อีกทั้งการเข้าถึงโมเดลพื้นฐานยังทำให้เหมาะอย่างยิ่งสำหรับงานใช้งานด้านการ fine-tuning
ประสิทธิภาพโอเพนที่ไม่มีใครเทียบ
การให้เหตุผลและความรู้
- Mixtral 8x22B ถูกปรับให้เหมาะกับงานด้านการให้เหตุผล
- แสดงประสิทธิภาพสูงสุดในกลุ่มโมเดล LLM แบบโอเพนระดับแนวหน้าบนเบนช์มาร์กด้านสามัญสำนึก การให้เหตุผล และความรู้ (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)
ความสามารถหลายภาษา
- Mixtral 8x22B มีความสามารถหลายภาษาในตัว
- เหนือกว่า LLaMA 2 70B อย่างชัดเจนบนเบนช์มาร์ก HellaSwag, Arc Challenge, MMLU ในภาษาฝรั่งเศส เยอรมัน สเปน และอิตาลี
คณิตศาสตร์และการเขียนโค้ด
- Mixtral 8x22B แสดงประสิทธิภาพด้านการเขียนโค้ดและงานคณิตศาสตร์ได้ดีที่สุดเมื่อเทียบกับโมเดลโอเพนอื่น ๆ
- ทำผลงานสูงสุดในกลุ่มโมเดลโอเพนชั้นนำบนเบนช์มาร์กด้านโค้ดและคณิตศาสตร์ (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
- เวอร์ชัน Instructed ของ Mixtral 8x22B ที่ประกาศวันนี้มีความสามารถด้านคณิตศาสตร์ดียิ่งขึ้น โดยทำคะแนน GSM8K maj@8 ได้ 90.8% และ Math maj@4 ได้ 44.6%
ความเห็นของ GN⁺
- Mixtral 8x22B เป็นโมเดลโอเพนที่มีขนาดใหญ่ที่สุดของ Mistral และยังใช้ประโยชน์จาก sparsity เพื่อให้คุ้มค่าต่อค่าใช้จ่ายอย่างมาก ซึ่งน่าจับตาในฐานะหนึ่งในทิศทางการพัฒนาของโมเดล LLM แบบโอเพนซอร์ส
- ประสิทธิภาพหลายภาษาที่โดดเด่นเมื่อเทียบกับขนาดโมเดล รวมถึงความสามารถด้านคณิตศาสตร์/การเขียนโค้ด ดูจะเป็นจุดแตกต่างของ Mixtral 8x22B อย่างไรก็ตาม สำหรับภาษาที่ไม่ใช่อังกฤษ ช่วงภาษาที่รองรับยังค่อนข้างแคบ และเมื่อเทียบกับ LLM รุ่นล่าสุดอย่าง GPT-4 ความสามารถด้านโค้ดหรือคณิตศาสตร์ก็ยังตามหลังอยู่
- การใช้ไลเซนส์ Apache 2.0 ที่เปิดให้ทุกคนนำไปใช้งานได้อย่างเสรีเป็นข้อดี แต่ก็ดูมีความเป็นไปได้ในการนำไปใช้ในทางที่ผิดสูงเช่นกัน จึงดูจำเป็นต้องมีความพยายามจากชุมชนมากขึ้นเพื่อการพัฒนาและใช้งานโมเดล AI โอเพนซอร์สอย่างมีความรับผิดชอบ
- ความสามารถในการพัฒนาแอปพลิเคชันด้วยโมเดล Mixtral และการปรับปรุงเทคโนโลยีสแตกให้ทันสมัยเป็นจุดที่น่าสนใจ แต่สำหรับการนำไปใช้กับบริการขนาดใหญ่ ดูเหมือนว่ายังมีข้อจำกัดด้านเทคนิคและต้นทุนอยู่ อย่างไรก็ตาม คาดว่าจะได้เห็นกรณีนวัตกรรมบนพื้นฐานโอเพนซอร์สเพิ่มขึ้น
- ในเกาหลีเอง KakaoBrain, NAVER, LG AI Research ก็กำลังพัฒนา LLM ของตนเองอยู่เช่นกัน และในแง่ความเฉพาะทางต่อตลาดเกาหลี เช่น ประสิทธิภาพการประมวลผลภาษาเกาหลี โมเดลเหล่านี้ก็น่าจะมีความสามารถในการแข่งขัน
6 ความคิดเห็น
โมเดลพื้นฐาน Mixtral 8x22B: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
โมเดล Mixtral 8x22B Instruct: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1
เหมือนว่าถูกลงทะเบียนไว้ให้ใช้งานได้แล้วใน Azure AI Studio ครับ (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)
Polyglot ไม่ได้สร้างโดย Kakao Brain แต่สร้างโดย TUNiB ai และ EleutherAI คงมีอาการหลอนนะ ฮือ
อ้อ ใช่เลยครับ แก้ไขไว้แล้ว ขอบคุณครับ
พอให้ Claude Opus ออกความเห็น บางทีก็แทรกเรื่องในประเทศแบบนี้เข้ามาด้วยนะครับ น่าสนใจดี ฮ่า
ความเห็นจาก Hacker News
สรุป:
LMStudioและรู้สึกว่าOllamaใช้งานผ่าน CLI ไม่สะดวกMistralกับประสิทธิภาพ