Mistral AI เปิดตัวโมเดล MOE 8x22B ใหม่ (twitter.com/MistralAI) 1 คะแนน โดย GN⁺ 2024-04-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp บทความที่เกี่ยวข้อง Mistral AI เปิดตัว Mixtral 8x22B โมเดลโอเพนตัวใหม่ 9 คะแนน · 6 ความคิดเห็น · 2024-04-18 Mistral "Mixtral" 8x7B 32k โมเดล [แม่เหล็ก] 2 คะแนน · 1 ความคิดเห็น · 2023-12-09 Mistral AI เปิดตัว Mixtral 8x7B ที่เหนือกว่า Llama 2 70B 12 คะแนน · 2 ความคิดเห็น · 2023-12-12 โมเดลปฏิสัมพันธ์ - แนวทางที่ขยายขนาดได้สำหรับความร่วมมือระหว่างมนุษย์กับ AI 8 คะแนน · 2 ความคิดเห็น · 7 일 전 Mixtral 8x7B: โมเดลภาษาแบบ Sparse Mixture of Experts 1 คะแนน · 1 ความคิดเห็น · 2024-01-10 1 ความคิดเห็น GN⁺ 2024-04-12 ความคิดเห็นบน Hacker News สามารถใช้เครื่องมืออย่าง Ollama, Llama.cpp หรือไลบรารี Python เพื่อรันโมเดลได้ และยังสามารถโหลดโมเดลเพียงประมาณครึ่งหนึ่งไว้ใน RAM ได้ด้วย สำหรับการเปรียบเทียบประสิทธิภาพของโมเดล สามารถใช้เบนช์มาร์กอย่างไม่เป็นทางการที่ Hugging Face มีให้ได้ แต่ควรทราบว่านี่เป็นผลของ base model และมีความแตกต่างจาก instruct fine-tuned model ที่ใช้กับแชตจริง หากโมเดล Mixtral-8x22B-v0.1 ให้ประสิทธิภาพได้ดีพอ ๆ กับ Mixtral 8x7b รุ่นก่อน ก็ถือเป็นโมเดลที่น่าตื่นเต้นมาก มีความสนใจว่า ChatGPT 4 จะกลับไปมีประสิทธิภาพในระดับที่ช่วงแรก ๆ ถูกมองว่า "ทำงานได้ราวกับเวทมนตร์" หรือไม่ พร้อมทั้งมีความเสียดายที่ประสิทธิภาพลดลงเพราะความถูกต้องทางการเมือง ดูเหมือนว่าทุกคนกำลังแข่งขันกันเพื่อออกโมเดลขนาดเล็กที่ดีที่สุดก่อน Llama3 จะเปิดตัว การทำ quantization แบบ 4-bit ต้องใช้ VRAM 85GB จึงสามารถรันได้สบายด้วย GPU สำหรับผู้บริโภคขนาด 24G จำนวน 4 ใบ และยังมีพื้นที่เผื่อสำหรับการปรับแต่ง KV cache เป็นเรื่องแปลกที่แม้จะผ่านมามากกว่าหนึ่งวันหลังจากเปิดเผยน้ำหนักของโมเดลแล้ว แต่ Mistral ก็ยังไม่มีการประกาศอย่างเป็นทางการหรือ model card และยังไม่สามารถใช้งานได้บนแพลตฟอร์มของ Mistral เอง
1 ความคิดเห็น
ความคิดเห็นบน Hacker News