Mistral "Mixtral" 8x7B 32k โมเดล [แม่เหล็ก] (twitter.com/MistralAI) 2 คะแนน โดย GN⁺ 2023-12-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp บทความที่เกี่ยวข้อง Mistral AI เปิดตัวโมเดล MOE 8x22B ใหม่ 1 คะแนน · 1 ความคิดเห็น · 2024-04-12 Mistral AI เปิดตัว Mixtral 8x22B โมเดลโอเพนตัวใหม่ 9 คะแนน · 6 ความคิดเห็น · 2024-04-18 Mistral AI เปิดตัว Mixtral 8x7B ที่เหนือกว่า Llama 2 70B 12 คะแนน · 2 ความคิดเห็น · 2023-12-12 การทำอนุมานแบบใช้ CPU อย่างเดียวด้วย C ล้วนสำหรับโมเดลรู้จำเสียง Mistral Voxtral Realtime 4B 13 คะแนน · 1 ความคิดเห็น · 2026-02-12 Mixtral 8x7B: โมเดลภาษาแบบ Sparse Mixture of Experts 1 คะแนน · 1 ความคิดเห็น · 2024-01-10 1 ความคิดเห็น GN⁺ 2023-12-09 ความคิดเห็นบน Hacker News ความเห็นของ Andrej Karpathy: แนะนำ LLM (Large Language Model) โอเพนซอร์สตัวใหม่ของ MistralAI ค่าตั้งค่าที่น่าสนใจในไฟล์ params.json: hidden_dim / dim = 14336/4096 => การขยาย MLP 3.5 เท่า n_heads / n_kv_heads = 32/8 => multi-query 4 เท่า "moe" => Mixture of Experts แบบ 8 เท่า โดยเลือก 2 อันดับบนสุด สามารถดูโค้ดที่เกี่ยวข้องได้บน GitHub ไม่มีวิดีโอโปรโมตที่โอ้อวดเกี่ยวกับการปฏิวัติ AI มีความเคลื่อนไหวด้าน AI เกิดขึ้นมาก เพราะงานประชุมด้านดีปเลิร์นนิงใหญ่ชื่อ NeurIPS กำลังใกล้เข้ามา ข่าวอื่นเกี่ยวกับ LLM: Mistral/Yi ใช้โมเดลที่ fine-tune ด้วยเทคนิคใหม่ชื่อ 'neural alignment' และกวาดชนะโมเดลอื่น ๆ บนลีดเดอร์บอร์ดของ Hugging Face โมเดล 7B 'ชนะ' โมเดล 70B ส่วนใหญ่ โมเดล 34B ที่กำลังทดสอบดูดีมาก ถ้าเทคนิคนี้ถูกนำไปใช้กับ Mistral Moe ก็อาจกลายเป็นโมเดลที่ยอดเยี่ยมมาก OSS ที่รันได้บนเดสก์ท็อปอาจเป็นจุดเปลี่ยนสำคัญในการท้าทาย GPT-4 แนวทางของ Mistral: Mistral ไม่ค่อยใส่ใจกับการอธิบายมากนัก แต่สไตล์แบบนี้กลับให้ความรู้สึกน่าเชื่อถือกว่าการประกาศแบบองค์กรที่ขัดเกลามาของ Google รูปแบบการประกาศที่เรียบง่าย: ชอบการประกาศแบบเรียบง่ายสไตล์ยุค 90 สเปกโมเดลของ Mistral: เปิดเผยไฟล์ params.json ที่มีโครงสร้าง Mixture of Experts เปรียบเทียบรูปแบบการประกาศของ Mistral กับ Google: รูปแบบการเปิดตัวโมเดลของ Mistral ที่ตัดกันกับการเปิดตัว Gemini ของ Google ดูเหมือนว่า Mistral จะฝึกโมเดลบนพื้นฐานของ Megablocks จาก Stanford กลยุทธ์การตลาดของ Mistral: ขณะที่บริษัทอื่นเน้นหน้าแลนดิ้งเพจและวิดีโอโปรโมชัน Mistral กลับปล่อยโมเดลออกมาแบบเรียบง่าย ข้อมูลที่ Mistral เปิดเผย: ใช้สถาปัตยกรรม Mixture of Experts มีผู้เชี่ยวชาญ 8 ตัวที่มีพารามิเตอร์ 7B น้ำหนักรวม 96GB ทำให้ไม่สามารถรันได้บน GPU สำหรับใช้งานตามบ้านทั่วไป
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ความเห็นของ Andrej Karpathy:
params.json:hidden_dim / dim = 14336/4096=> การขยาย MLP 3.5 เท่าn_heads / n_kv_heads = 32/8=> multi-query 4 เท่า"moe"=> Mixture of Experts แบบ 8 เท่า โดยเลือก 2 อันดับบนสุดข่าวอื่นเกี่ยวกับ LLM:
แนวทางของ Mistral:
รูปแบบการประกาศที่เรียบง่าย:
สเปกโมเดลของ Mistral:
params.jsonที่มีโครงสร้าง Mixture of Expertsเปรียบเทียบรูปแบบการประกาศของ Mistral กับ Google:
กลยุทธ์การตลาดของ Mistral:
ข้อมูลที่ Mistral เปิดเผย: