Mistral AI เปิดตัว Mixtral 8x7B ที่เหนือกว่า Llama 2 70B

(mistral.ai)

12 คะแนน โดย GN⁺ 2023-12-12 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

"High-quality Sparse Mixture of Experts Model (SMoE, โมเดลผู้เชี่ยวชาญแบบเบาบางคุณภาพสูง)"
เหนือกว่า Llama 2 70B ใน benchmark ส่วนใหญ่ และทำ inference ได้เร็วกว่า 6 เท่า
แสดงประสิทธิภาพใกล้เคียงหรือดีกว่า GPT 3.5 ใน benchmark มาตรฐานส่วนใหญ่
เป็นโมเดล open-weight ที่ทรงพลังที่สุดภายใต้ไลเซนส์แบบอนุญาต และให้ความคุ้มค่าด้านต้นทุน/ประสิทธิภาพดีที่สุด
รองรับคอนเท็กซ์ 32k โทเค็น
รองรับการประมวลผลภาษาอังกฤษ/ฝรั่งเศส/อิตาลี/เยอรมัน/สเปน
มีประสิทธิภาพสูงในการสร้างโค้ด
สามารถ fine-tune เป็นโมเดลที่ทำตามคำสั่งได้ โดยทำคะแนน 8.3 บน MT-Bench
MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

ขยายขอบเขตของโมเดลเปิดด้วยสถาปัตยกรรมแบบเบาบาง

Mixtral เป็นเครือข่ายผู้เชี่ยวชาญแบบเบาบาง และเป็นโมเดลแบบ decoder-only
บล็อก feedforward จะเลือกจาก 8 กลุ่มพารามิเตอร์ที่แตกต่างกัน โดยในแต่ละเลเยอร์และแต่ละโทเค็น เครือข่าย router จะเลือกผู้เชี่ยวชาญ 2 กลุ่มและรวมผลลัพธ์ของพวกมันเข้าด้วยกัน
เทคนิคนี้ช่วยเพิ่มจำนวนพารามิเตอร์ของโมเดลพร้อมควบคุมต้นทุนและ latency ได้ โดย Mixtral มีพารามิเตอร์รวม 46.7B แต่ใช้เพียง 12.9B พารามิเตอร์ต่อโทเค็น

ประสิทธิภาพ

Mixtral แสดงประสิทธิภาพเทียบเท่าหรือดีกว่าใน benchmark ส่วนใหญ่ เมื่อเทียบกับโมเดล Llama 2 และโมเดลฐาน GPT3.5
เมื่อเทียบกับ Llama 2 70B, Mixtral ให้คำตอบที่ตรงข้อเท็จจริงมากกว่า (73.9% เทียบกับ 50.2% บน benchmark TruthfulQA) และแสดงอคติน้อยกว่าบน benchmark BBQ
Mixtral เชี่ยวชาญการใช้งานภาษาฝรั่งเศส เยอรมัน สเปน อิตาลี และอังกฤษ

โมเดลที่ทำตามคำสั่ง

Mixtral 8x7B Instruct ผ่านการทำ supervised fine-tuning และ Direct Preference Optimization (DPO) เพื่อปรับประสิทธิภาพด้านการทำตามคำสั่งให้เหมาะสมที่สุด
ทำคะแนนได้ 8.30 บน MT-Bench กลายเป็นโมเดลโอเพนซอร์สที่ดีที่สุดซึ่งมีประสิทธิภาพใกล้เคียง GPT3.5

การใช้งานผ่านสแตกการดีพลอยโอเพนซอร์สของ Mixtral

ได้ส่งการเปลี่ยนแปลงไปยังโปรเจกต์ vLLM เพื่อให้ชุมชนสามารถรัน Mixtral บนสแตกโอเพนซอร์สเต็มรูปแบบได้
ขณะนี้ Mistral AI ใช้ Mixtral 8x7B อยู่เบื้องหลัง endpoint mistral-small และเปิดให้ใช้งานในเวอร์ชันเบตา
สามารถลงทะเบียนเพื่อรับ early access สำหรับ endpoint การสร้างและ embedding ทั้งหมดได้

2 ความคิดเห็น

cosine20 2023-12-12

ตามที่มีการพูดถึงในคอมเมนต์ด้านล่าง ตอนแรกพอเห็น 8x7B ก็แอบคิดว่า งั้นจำนวนพารามิเตอร์รวมคือ 56B เหรอ?

GN⁺ 2023-12-12

ความคิดเห็นบน Hacker News

ความเห็นของ Andrej Karpathy:
- มีการเผยแพร่โพสต์ทางการเกี่ยวกับ Mixtral 8x7B และโค้ด inference ของ vLLM
- คำอธิบาย MoE (Mixture of Experts) ของ HuggingFace มีประโยชน์มาก
- ทำประสิทธิภาพระดับโมเดล 70B ได้ด้วยความเร็วในการ inference ของโมเดล dense ขนาด 12.9B
- ตอบรับเชิงบวกต่อการใช้คำว่า "open weights"
- ชี้ว่าชื่อ "8x7B" อาจทำให้เข้าใจผิด
- กล่าวถึงความสับสนเกี่ยวกับวิธีที่แต่ละโทเคนและแต่ละเลเยอร์เลือกผู้เชี่ยวชาญ 2 จาก 8 คน
- แนะนำโมเดล Mistral-medium
ความพร้อมใช้งานของโมเดลบน Huggingface:
- สามารถใช้งานโมเดล Mixtral ได้จาก Mistralai และ TheBloke
คำขอคำอธิบายสำหรับวิศวกรซอฟต์แวร์:
- ต้องการความเข้าใจว่า Mixture of Experts ทำงานอย่างไร
ปฏิกิริยาต่อขนาดของ Mixtral 8x7B:
- แสดงความสนใจที่การมองว่าโมเดลพารามิเตอร์ 4.5 หมื่นล้านตัวเป็นโมเดล "small"
มุมมองต่ออนาคตของ AI:
- มองในแง่บวกว่า ระบบ MoE อาจเป็นอนาคตของ AI
คำถามเกี่ยวกับหลักการทำงานและข้อดีข้อเสียของ MoE:
- ต้องการคำอธิบายว่า MoE มีข้อได้เปรียบอะไรเมื่อเทียบกับโมเดลแบบเดิม
ความสับสนเกี่ยวกับพารามิเตอร์ของโมเดล:
- แสดงความสับสนเกี่ยวกับชื่อ "8x7B" จำนวนพารามิเตอร์จริง และจำนวนพารามิเตอร์ที่ใช้ตอนสร้างโทเคน
คำอธิบายเกี่ยวกับแนวทางของ Mistral:
- CEO ระบุว่า Mistral มุ่งเน้นการเข้าถึงอย่างเสรีโดยไม่เซ็นเซอร์โมเดล
ความสามารถด้านภาษาของ Mixtral 8x7B:
- ใช้งานภาษาฝรั่งเศส เยอรมัน สเปน อิตาลี และอังกฤษได้อย่างคล่องแคล่ว
คำขอข้อมูลเกี่ยวกับโมเดลและน้ำหนัก:
- ขอลิงก์ไปยังโมเดลและ weights
คำถามเกี่ยวกับความสามารถในการแข่งขันในตลาด:
- มีข้อสงสัยว่าแม้จะมีโมเดลที่เหนือกว่า GPT 3.5 แต่จะมีโอกาสแข่งขันกับ OpenAI/Google ได้อย่างไร และอนาคตจะเป็นอย่างไร