- "High-quality Sparse Mixture of Experts Model (SMoE, โมเดลผู้เชี่ยวชาญแบบเบาบางคุณภาพสูง)"
- เหนือกว่า Llama 2 70B ใน benchmark ส่วนใหญ่ และทำ inference ได้เร็วกว่า 6 เท่า
- แสดงประสิทธิภาพใกล้เคียงหรือดีกว่า GPT 3.5 ใน benchmark มาตรฐานส่วนใหญ่
- เป็นโมเดล open-weight ที่ทรงพลังที่สุดภายใต้ไลเซนส์แบบอนุญาต และให้ความคุ้มค่าด้านต้นทุน/ประสิทธิภาพดีที่สุด
- รองรับคอนเท็กซ์ 32k โทเค็น
- รองรับการประมวลผลภาษาอังกฤษ/ฝรั่งเศส/อิตาลี/เยอรมัน/สเปน
- มีประสิทธิภาพสูงในการสร้างโค้ด
- สามารถ fine-tune เป็นโมเดลที่ทำตามคำสั่งได้ โดยทำคะแนน 8.3 บน MT-Bench
- MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)
ขยายขอบเขตของโมเดลเปิดด้วยสถาปัตยกรรมแบบเบาบาง
- Mixtral เป็นเครือข่ายผู้เชี่ยวชาญแบบเบาบาง และเป็นโมเดลแบบ decoder-only
- บล็อก feedforward จะเลือกจาก 8 กลุ่มพารามิเตอร์ที่แตกต่างกัน โดยในแต่ละเลเยอร์และแต่ละโทเค็น เครือข่าย router จะเลือกผู้เชี่ยวชาญ 2 กลุ่มและรวมผลลัพธ์ของพวกมันเข้าด้วยกัน
- เทคนิคนี้ช่วยเพิ่มจำนวนพารามิเตอร์ของโมเดลพร้อมควบคุมต้นทุนและ latency ได้ โดย Mixtral มีพารามิเตอร์รวม 46.7B แต่ใช้เพียง 12.9B พารามิเตอร์ต่อโทเค็น
ประสิทธิภาพ
- Mixtral แสดงประสิทธิภาพเทียบเท่าหรือดีกว่าใน benchmark ส่วนใหญ่ เมื่อเทียบกับโมเดล Llama 2 และโมเดลฐาน GPT3.5
- เมื่อเทียบกับ Llama 2 70B, Mixtral ให้คำตอบที่ตรงข้อเท็จจริงมากกว่า (73.9% เทียบกับ 50.2% บน benchmark TruthfulQA) และแสดงอคติน้อยกว่าบน benchmark BBQ
- Mixtral เชี่ยวชาญการใช้งานภาษาฝรั่งเศส เยอรมัน สเปน อิตาลี และอังกฤษ
โมเดลที่ทำตามคำสั่ง
- Mixtral 8x7B Instruct ผ่านการทำ supervised fine-tuning และ Direct Preference Optimization (DPO) เพื่อปรับประสิทธิภาพด้านการทำตามคำสั่งให้เหมาะสมที่สุด
- ทำคะแนนได้ 8.30 บน MT-Bench กลายเป็นโมเดลโอเพนซอร์สที่ดีที่สุดซึ่งมีประสิทธิภาพใกล้เคียง GPT3.5
การใช้งานผ่านสแตกการดีพลอยโอเพนซอร์สของ Mixtral
- ได้ส่งการเปลี่ยนแปลงไปยังโปรเจกต์ vLLM เพื่อให้ชุมชนสามารถรัน Mixtral บนสแตกโอเพนซอร์สเต็มรูปแบบได้
- ขณะนี้ Mistral AI ใช้ Mixtral 8x7B อยู่เบื้องหลัง endpoint mistral-small และเปิดให้ใช้งานในเวอร์ชันเบตา
- สามารถลงทะเบียนเพื่อรับ early access สำหรับ endpoint การสร้างและ embedding ทั้งหมดได้
2 ความคิดเห็น
ตามที่มีการพูดถึงในคอมเมนต์ด้านล่าง ตอนแรกพอเห็น 8x7B ก็แอบคิดว่า งั้นจำนวนพารามิเตอร์รวมคือ 56B เหรอ?
ความคิดเห็นบน Hacker News
ความเห็นของ Andrej Karpathy:
ความพร้อมใช้งานของโมเดลบน Huggingface:
คำขอคำอธิบายสำหรับวิศวกรซอฟต์แวร์:
ปฏิกิริยาต่อขนาดของ Mixtral 8x7B:
มุมมองต่ออนาคตของ AI:
คำถามเกี่ยวกับหลักการทำงานและข้อดีข้อเสียของ MoE:
ความสับสนเกี่ยวกับพารามิเตอร์ของโมเดล:
คำอธิบายเกี่ยวกับแนวทางของ Mistral:
ความสามารถด้านภาษาของ Mixtral 8x7B:
คำขอข้อมูลเกี่ยวกับโมเดลและน้ำหนัก:
คำถามเกี่ยวกับความสามารถในการแข่งขันในตลาด: