12 คะแนน โดย GN⁺ 2023-12-12 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • "High-quality Sparse Mixture of Experts Model (SMoE, โมเดลผู้เชี่ยวชาญแบบเบาบางคุณภาพสูง)"
  • เหนือกว่า Llama 2 70B ใน benchmark ส่วนใหญ่ และทำ inference ได้เร็วกว่า 6 เท่า
  • แสดงประสิทธิภาพใกล้เคียงหรือดีกว่า GPT 3.5 ใน benchmark มาตรฐานส่วนใหญ่
  • เป็นโมเดล open-weight ที่ทรงพลังที่สุดภายใต้ไลเซนส์แบบอนุญาต และให้ความคุ้มค่าด้านต้นทุน/ประสิทธิภาพดีที่สุด
  • รองรับคอนเท็กซ์ 32k โทเค็น
  • รองรับการประมวลผลภาษาอังกฤษ/ฝรั่งเศส/อิตาลี/เยอรมัน/สเปน
  • มีประสิทธิภาพสูงในการสร้างโค้ด
  • สามารถ fine-tune เป็นโมเดลที่ทำตามคำสั่งได้ โดยทำคะแนน 8.3 บน MT-Bench
  • MMLU 70.6% (Llama 2 70B 69.9%, GPT 3.5 70.0%)

ขยายขอบเขตของโมเดลเปิดด้วยสถาปัตยกรรมแบบเบาบาง

  • Mixtral เป็นเครือข่ายผู้เชี่ยวชาญแบบเบาบาง และเป็นโมเดลแบบ decoder-only
  • บล็อก feedforward จะเลือกจาก 8 กลุ่มพารามิเตอร์ที่แตกต่างกัน โดยในแต่ละเลเยอร์และแต่ละโทเค็น เครือข่าย router จะเลือกผู้เชี่ยวชาญ 2 กลุ่มและรวมผลลัพธ์ของพวกมันเข้าด้วยกัน
  • เทคนิคนี้ช่วยเพิ่มจำนวนพารามิเตอร์ของโมเดลพร้อมควบคุมต้นทุนและ latency ได้ โดย Mixtral มีพารามิเตอร์รวม 46.7B แต่ใช้เพียง 12.9B พารามิเตอร์ต่อโทเค็น

ประสิทธิภาพ

  • Mixtral แสดงประสิทธิภาพเทียบเท่าหรือดีกว่าใน benchmark ส่วนใหญ่ เมื่อเทียบกับโมเดล Llama 2 และโมเดลฐาน GPT3.5
  • เมื่อเทียบกับ Llama 2 70B, Mixtral ให้คำตอบที่ตรงข้อเท็จจริงมากกว่า (73.9% เทียบกับ 50.2% บน benchmark TruthfulQA) และแสดงอคติน้อยกว่าบน benchmark BBQ
  • Mixtral เชี่ยวชาญการใช้งานภาษาฝรั่งเศส เยอรมัน สเปน อิตาลี และอังกฤษ

โมเดลที่ทำตามคำสั่ง

  • Mixtral 8x7B Instruct ผ่านการทำ supervised fine-tuning และ Direct Preference Optimization (DPO) เพื่อปรับประสิทธิภาพด้านการทำตามคำสั่งให้เหมาะสมที่สุด
  • ทำคะแนนได้ 8.30 บน MT-Bench กลายเป็นโมเดลโอเพนซอร์สที่ดีที่สุดซึ่งมีประสิทธิภาพใกล้เคียง GPT3.5

การใช้งานผ่านสแตกการดีพลอยโอเพนซอร์สของ Mixtral

  • ได้ส่งการเปลี่ยนแปลงไปยังโปรเจกต์ vLLM เพื่อให้ชุมชนสามารถรัน Mixtral บนสแตกโอเพนซอร์สเต็มรูปแบบได้
  • ขณะนี้ Mistral AI ใช้ Mixtral 8x7B อยู่เบื้องหลัง endpoint mistral-small และเปิดให้ใช้งานในเวอร์ชันเบตา
  • สามารถลงทะเบียนเพื่อรับ early access สำหรับ endpoint การสร้างและ embedding ทั้งหมดได้

2 ความคิดเห็น

 
cosine20 2023-12-12

ตามที่มีการพูดถึงในคอมเมนต์ด้านล่าง ตอนแรกพอเห็น 8x7B ก็แอบคิดว่า งั้นจำนวนพารามิเตอร์รวมคือ 56B เหรอ?

 
GN⁺ 2023-12-12
ความคิดเห็นบน Hacker News
  • ความเห็นของ Andrej Karpathy:

    • มีการเผยแพร่โพสต์ทางการเกี่ยวกับ Mixtral 8x7B และโค้ด inference ของ vLLM
    • คำอธิบาย MoE (Mixture of Experts) ของ HuggingFace มีประโยชน์มาก
    • ทำประสิทธิภาพระดับโมเดล 70B ได้ด้วยความเร็วในการ inference ของโมเดล dense ขนาด 12.9B
    • ตอบรับเชิงบวกต่อการใช้คำว่า "open weights"
    • ชี้ว่าชื่อ "8x7B" อาจทำให้เข้าใจผิด
    • กล่าวถึงความสับสนเกี่ยวกับวิธีที่แต่ละโทเคนและแต่ละเลเยอร์เลือกผู้เชี่ยวชาญ 2 จาก 8 คน
    • แนะนำโมเดล Mistral-medium
  • ความพร้อมใช้งานของโมเดลบน Huggingface:

    • สามารถใช้งานโมเดล Mixtral ได้จาก Mistralai และ TheBloke
  • คำขอคำอธิบายสำหรับวิศวกรซอฟต์แวร์:

    • ต้องการความเข้าใจว่า Mixture of Experts ทำงานอย่างไร
  • ปฏิกิริยาต่อขนาดของ Mixtral 8x7B:

    • แสดงความสนใจที่การมองว่าโมเดลพารามิเตอร์ 4.5 หมื่นล้านตัวเป็นโมเดล "small"
  • มุมมองต่ออนาคตของ AI:

    • มองในแง่บวกว่า ระบบ MoE อาจเป็นอนาคตของ AI
  • คำถามเกี่ยวกับหลักการทำงานและข้อดีข้อเสียของ MoE:

    • ต้องการคำอธิบายว่า MoE มีข้อได้เปรียบอะไรเมื่อเทียบกับโมเดลแบบเดิม
  • ความสับสนเกี่ยวกับพารามิเตอร์ของโมเดล:

    • แสดงความสับสนเกี่ยวกับชื่อ "8x7B" จำนวนพารามิเตอร์จริง และจำนวนพารามิเตอร์ที่ใช้ตอนสร้างโทเคน
  • คำอธิบายเกี่ยวกับแนวทางของ Mistral:

    • CEO ระบุว่า Mistral มุ่งเน้นการเข้าถึงอย่างเสรีโดยไม่เซ็นเซอร์โมเดล
  • ความสามารถด้านภาษาของ Mixtral 8x7B:

    • ใช้งานภาษาฝรั่งเศส เยอรมัน สเปน อิตาลี และอังกฤษได้อย่างคล่องแคล่ว
  • คำขอข้อมูลเกี่ยวกับโมเดลและน้ำหนัก:

    • ขอลิงก์ไปยังโมเดลและ weights
  • คำถามเกี่ยวกับความสามารถในการแข่งขันในตลาด:

    • มีข้อสงสัยว่าแม้จะมีโมเดลที่เหนือกว่า GPT 3.5 แต่จะมีโอกาสแข่งขันกับ OpenAI/Google ได้อย่างไร และอนาคตจะเป็นอย่างไร