Mistral AI เปิดตัว Mixtral 8x22B โมเดลโอเพนตัวใหม่

(mistral.ai)

9 คะแนน โดย GN⁺ 2024-04-18 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

"ถูกกว่า ดีกว่า เร็วกว่า และทรงพลังกว่า"
เป็นโมเดล Sparse Mixture-of-Experts(SMoE) ที่ใช้พารามิเตอร์ที่ทำงานจริงเพียง 39B จากพารามิเตอร์ทั้งหมด 141B ทำให้มีความคุ้มค่าด้านต้นทุนสูงมากเมื่อเทียบกับขนาดโมเดล

คุณสมบัติเด่นของ Mixtral 8x22B

ใช้งานภาษาอังกฤษ ฝรั่งเศส อิตาลี เยอรมัน และสเปนได้อย่างคล่องแคล่ว
มีความสามารถด้านคณิตศาสตร์และการเขียนโค้ดที่ยอดเยี่ยม
รองรับการเรียกใช้ฟังก์ชันได้โดยพื้นฐาน และเมื่อใช้ร่วมกับโหมดจำกัดผลลัพธ์ที่ติดตั้งบน la Plateforme ก็สามารถพัฒนาแอปพลิเคชันขนาดใหญ่และปรับปรุงเทคโนโลยีสแตกให้ทันสมัยได้
หน้าต่างคอนเท็กซ์ 64K โทเค็นช่วยให้ดึงข้อมูลที่ถูกต้องกลับมาได้จากเอกสารจำนวนมาก

โมเดลโอเพนอย่างแท้จริง

Mistral AI เชื่อในพลังของความเปิดกว้างและการกระจายการใช้งานในวงกว้าง เพื่อส่งเสริมนวัตกรรมและความร่วมมือใน AI
Mixtral 8x22B เผยแพร่ภายใต้ Apache 2.0 ซึ่งเป็นไลเซนส์โอเพนซอร์สที่เปิดกว้างมากที่สุด ทำให้ทุกคนสามารถใช้งานโมเดลได้โดยไม่มีข้อจำกัด

ประสิทธิภาพสูงสุด

Mistral AI สร้างโมเดลที่ให้ประสิทธิภาพสูงสุดต่อค่าใช้จ่ายในแต่ละขนาดโมเดล จึงให้สัดส่วนประสิทธิภาพต่อราคาที่ดีที่สุดในบรรดาโมเดลจากชุมชน
Mixtral 8x22B เป็นส่วนขยายตามธรรมชาติของตระกูลโมเดลโอเพนของ Mistral AI ด้วยรูปแบบการทำงานแบบ sparse จึงเร็วกว่าโมเดล Dense 70B และยังมอบความสามารถมากกว่าโมเดล open-weight อื่น ๆ ที่เผยแพร่ภายใต้ทั้งไลเซนส์แบบเปิดกว้างหรือแบบจำกัด อีกทั้งการเข้าถึงโมเดลพื้นฐานยังทำให้เหมาะอย่างยิ่งสำหรับงานใช้งานด้านการ fine-tuning

ประสิทธิภาพโอเพนที่ไม่มีใครเทียบ

การให้เหตุผลและความรู้

Mixtral 8x22B ถูกปรับให้เหมาะกับงานด้านการให้เหตุผล
แสดงประสิทธิภาพสูงสุดในกลุ่มโมเดล LLM แบบโอเพนระดับแนวหน้าบนเบนช์มาร์กด้านสามัญสำนึก การให้เหตุผล และความรู้ (MMLU, HellaSwag, Wino Grande, Arc Challenge, TriviaQA, NaturalQS)

ความสามารถหลายภาษา

Mixtral 8x22B มีความสามารถหลายภาษาในตัว
เหนือกว่า LLaMA 2 70B อย่างชัดเจนบนเบนช์มาร์ก HellaSwag, Arc Challenge, MMLU ในภาษาฝรั่งเศส เยอรมัน สเปน และอิตาลี

คณิตศาสตร์และการเขียนโค้ด

Mixtral 8x22B แสดงประสิทธิภาพด้านการเขียนโค้ดและงานคณิตศาสตร์ได้ดีที่สุดเมื่อเทียบกับโมเดลโอเพนอื่น ๆ
ทำผลงานสูงสุดในกลุ่มโมเดลโอเพนชั้นนำบนเบนช์มาร์กด้านโค้ดและคณิตศาสตร์ (HumanEval pass@1, MBPP pass@1, GSM8K maj@1/8, Math maj@4)
เวอร์ชัน Instructed ของ Mixtral 8x22B ที่ประกาศวันนี้มีความสามารถด้านคณิตศาสตร์ดียิ่งขึ้น โดยทำคะแนน GSM8K maj@8 ได้ 90.8% และ Math maj@4 ได้ 44.6%

ความเห็นของ GN⁺

Mixtral 8x22B เป็นโมเดลโอเพนที่มีขนาดใหญ่ที่สุดของ Mistral และยังใช้ประโยชน์จาก sparsity เพื่อให้คุ้มค่าต่อค่าใช้จ่ายอย่างมาก ซึ่งน่าจับตาในฐานะหนึ่งในทิศทางการพัฒนาของโมเดล LLM แบบโอเพนซอร์ส
ประสิทธิภาพหลายภาษาที่โดดเด่นเมื่อเทียบกับขนาดโมเดล รวมถึงความสามารถด้านคณิตศาสตร์/การเขียนโค้ด ดูจะเป็นจุดแตกต่างของ Mixtral 8x22B อย่างไรก็ตาม สำหรับภาษาที่ไม่ใช่อังกฤษ ช่วงภาษาที่รองรับยังค่อนข้างแคบ และเมื่อเทียบกับ LLM รุ่นล่าสุดอย่าง GPT-4 ความสามารถด้านโค้ดหรือคณิตศาสตร์ก็ยังตามหลังอยู่
การใช้ไลเซนส์ Apache 2.0 ที่เปิดให้ทุกคนนำไปใช้งานได้อย่างเสรีเป็นข้อดี แต่ก็ดูมีความเป็นไปได้ในการนำไปใช้ในทางที่ผิดสูงเช่นกัน จึงดูจำเป็นต้องมีความพยายามจากชุมชนมากขึ้นเพื่อการพัฒนาและใช้งานโมเดล AI โอเพนซอร์สอย่างมีความรับผิดชอบ
ความสามารถในการพัฒนาแอปพลิเคชันด้วยโมเดล Mixtral และการปรับปรุงเทคโนโลยีสแตกให้ทันสมัยเป็นจุดที่น่าสนใจ แต่สำหรับการนำไปใช้กับบริการขนาดใหญ่ ดูเหมือนว่ายังมีข้อจำกัดด้านเทคนิคและต้นทุนอยู่ อย่างไรก็ตาม คาดว่าจะได้เห็นกรณีนวัตกรรมบนพื้นฐานโอเพนซอร์สเพิ่มขึ้น
ในเกาหลีเอง KakaoBrain, NAVER, LG AI Research ก็กำลังพัฒนา LLM ของตนเองอยู่เช่นกัน และในแง่ความเฉพาะทางต่อตลาดเกาหลี เช่น ประสิทธิภาพการประมวลผลภาษาเกาหลี โมเดลเหล่านี้ก็น่าจะมีความสามารถในการแข่งขัน

6 ความคิดเห็น

ninebow 2024-04-19

โมเดลพื้นฐาน Mixtral 8x22B: https://huggingface.co/mistralai/Mixtral-8x22B-v0.1
โมเดล Mixtral 8x22B Instruct: https://huggingface.co/mistralai/Mixtral-8x22B-Instruct-v0.1

dormis 2024-04-19

เหมือนว่าถูกลงทะเบียนไว้ให้ใช้งานได้แล้วใน Azure AI Studio ครับ (mistralai-Mixtral-8x7B-v01, mistral-community-Mixtral-8x22B-v0-1)

vkehfdl1 2024-04-18

Polyglot ไม่ได้สร้างโดย Kakao Brain แต่สร้างโดย TUNiB ai และ EleutherAI คงมีอาการหลอนนะ ฮือ

xguru 2024-04-19

อ้อ ใช่เลยครับ แก้ไขไว้แล้ว ขอบคุณครับ

xguru 2024-04-18

พอให้ Claude Opus ออกความเห็น บางทีก็แทรกเรื่องในประเทศแบบนี้เข้ามาด้วยนะครับ น่าสนใจดี ฮ่า

GN⁺ 2024-04-18

ความเห็นจาก Hacker News

สรุป:

ลองถาม ChatGPT เรื่องภาษีแล้วกลับได้โฆษณาบริการเขียนเรียงความออกมา
ขอคำอธิบายแนวคิด "Mixture-of-Experts" แบบเข้าใจง่าย
- เข้าใจแนวคิดที่ว่ามีผู้เชี่ยวชาญย่อยอยู่แล้ว แต่สงสัยว่าระหว่างการฝึก ระบบตัดสินอย่างไรว่าแต่ละตัวจะเชี่ยวชาญด้านไหน
รู้สึกเสียดายเรื่องขนาด context window 64K โทเค็น
- การที่ยังเทียบกับ 128K ของ GPT-4 Turbo ไม่ได้ อาจกลายเป็นเรื่องให้ล้อกันต่อไปได้ในอนาคต
- คาดว่าในอนาคตจะเพิ่มไปถึงระดับ 1 ล้านล้านโทเค็น
ถามหาวิธีที่ดีที่สุดในการรัน LLM บน MacBook Pro
- ไม่ชอบอินเทอร์เฟซของ LMStudio และรู้สึกว่า Ollama ใช้งานผ่าน CLI ไม่สะดวก
- อยากได้โซลูชันที่ปรับตั้งค่าได้ละเอียดแบบ OpenAI และแก้ไขพรอมป์ต์ได้ง่าย
ข้อจำกัดของโมเดลแบบเปิด
- ถ้าเข้าถึงข้อมูลฝึกไม่ได้ ก็ไม่สามารถทำซ้ำโมเดลนั้นได้
ผลการเปรียบเทียบระหว่างซีรีส์ Mistral กับประสิทธิภาพ
ข้อดีของการทำสตาร์ทอัป AI
- ทุกครั้งที่มีโมเดลขนาดใหญ่ตัวใหม่ออกมา ผลิตภัณฑ์ก็ดีขึ้นโดยอัตโนมัติ
ถามว่า LLM เวอร์ชัน "non-instructed" คือเวอร์ชันที่ไม่มีการกำกับของเวอร์ชัน "instructed" หรือไม่
LLM ทำให้ความสำคัญของ RAM กลับมาโดดเด่นอีกครั้ง
- เสียดายที่ไม่ได้เพิ่ม RAM อีก 32GB ให้ MacBook Pro
คาดหวังกับโมเดลที่ถูก quantize
- หวังว่าจะมีโมเดล 3 บิตที่รันได้บน MacBook Pro 64GB