Mistral AI เปิดตัวโมเดล MOE 8x22B ใหม่ (twitter.com/MistralAI) 1 คะแนน โดย GN⁺ 2024-04-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp บทความที่เกี่ยวข้อง Mistral AI เปิดตัว Mixtral 8x22B โมเดลโอเพนตัวใหม่ 9 คะแนน · 6 ความคิดเห็น · 2024-04-18 Mistral "Mixtral" 8x7B 32k โมเดล [แม่เหล็ก] 2 คะแนน · 1 ความคิดเห็น · 2023-12-09 Mistral AI เปิดตัว Mixtral 8x7B ที่เหนือกว่า Llama 2 70B 12 คะแนน · 2 ความคิดเห็น · 2023-12-12 บันทึกจากงาน Mistral AI Now Summit 2 คะแนน · 1 ความคิดเห็น · 2026-05-30 Mixtral 8x7B: โมเดลภาษาแบบ Sparse Mixture of Experts 1 คะแนน · 1 ความคิดเห็น · 2024-01-10 1 ความคิดเห็น GN⁺ 2024-04-12 ความเห็นจาก Hacker News สงสัยว่าวิธีที่ง่ายที่สุดในการรันโมเดลนี้เมื่อมีน้ำหนักโมเดลและฮาร์ดแวร์พร้อมแล้วคืออะไร ต่อให้ offload โมเดลครึ่งหนึ่งไปไว้ใน RAM ก็ยังอยากรู้ว่าควรโหลดด้วยเครื่องมืออะไร ใช้ Ollama, Llama.cpp หรือแค่นำเข้าเป็นไลบรารี Python ก็พอ แล้วถ้าจะเทียบกับโมเดลอื่น ควรทำ benchmark อย่างไร มีเครื่องมือพร้อมใช้เลยไหม วิธีแบบ llamafile ดูจะดีที่สุด ตัวไบนารีทำงานจากบรรทัดคำสั่งได้ หรือจะเปิดเว็บเซิร์ฟเวอร์ขนาดเล็กก็ได้ llamafile มีบิลด์ของ Mixtral-8x7B-Instruct อยู่แล้ว ดังนั้นโมเดลนี้ก็น่าจะถูกแพ็กเกจได้เหมือนกัน และอาจอยู่ในรูปแบบ quantized ด้วย คงต้องให้คนที่รู้ ecosystem ดีกว่านี้ยืนยันอีกที แต่ดูเหมือนว่าโมเดลใหม่น่าจะรันบน llamafile ได้ตรง ๆ เลย https://github.com/Mozilla-Ocho/llamafile วิธีที่ง่ายที่สุดคือรันด้วย vllm(https://github.com/vllm-project/vllm) บน A100 สัก 2 ใบ และทำ benchmark ได้ด้วย lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness) ถ้าจะทดสอบ LLM บน MacBook, LM Studio ยอดเยี่ยมมาก: https://lmstudio.ai/ ค้นหาโมเดลใหม่จาก Hugging Face ในแอปแล้วลองทดสอบได้ทันทีง่ายมาก มีผู้ใช้ใน Hugging Face ชื่อ The Bloke ที่มักจะอัปโหลดโมเดลแบบ quantized ไว้ล่วงหน้าไม่นานหลังจากโมเดลขนาดเต็มออกมา แค่คอยดูหน้านั้นไว้และภาวนาให้โมเดล 4 บิตใส่ GPU ของคุณได้พอดี น่าจะกำลังทำอยู่แล้ว ลองใช้งานได้ที่ Together ที่นี่: https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B โพสต์ซ้ำอยู่ที่นี่: https://news.ycombinator.com/item?id=39986047 เป็นโพสต์ที่ใส่ลิงก์ทวีตแทนโปรไฟล์: https://twitter.com/MistralAI/status/1777869263778291896 8x22B เลยเหรอ ถ้ามันดีได้ระดับเดียวกับ Mixtral 8x7B ก็น่าจะเป็นช่วงเวลาที่น่าสนุกมาก ได้ยินมาว่า Command R เป็นโอเพนซอร์สตัวแรกที่ชนะ GPT-4 ใน benchmark เรามี 8x7B อยู่แล้ว ดังนั้นคงไม่มีเหตุผลจะอยากได้ 8x7B อีกตัว แปลว่าอันนี้น่าจะดีกว่าใช่ไหม? ออกนอกประเด็นนิดหน่อย แต่สงสัยว่าตอนนี้เรากลับมาถึงระดับ ประสิทธิภาพของ ChatGPT 4 แบบที่คนเคยบอกว่าเหมือนเวทมนตร์หรือยัง หมายถึงก่อนที่ความสามารถจะลดลงมากจากการทำให้มัน politically correct มากขึ้น ผมลองทดสอบ LLM หลายตัวบน MacBook แล้ว และคิดว่าตอนนี้ทุกตัวยังห่างไกลมาก ไม่ว่าจะเอาไปเทียบกับ GPT-4 ช่วงไหนก็ตาม อย่างไรก็ตาม ตอนนี้มีโมเดลระดับ GPT-3 อยู่มาก และก็มีโมเดลที่ fine-tune มาสำหรับงานเฉพาะค่อนข้างเยอะ จุดที่โมเดลแบบเปิดยังขาดมากคือ การรองรับภาษา ผมเห็นแค่โมเดลเดียวที่ให้ผลลัพธ์ภาษานอร์เวย์ที่ใช้งานได้ ขณะที่ใน GPT-4 ไม่เคยเป็นปัญหาเลย ถ้าวัดในกลุ่มโมเดลเปิด ผมคิดว่าอย่างน้อยก็มาถึงระดับ ChatGPT 4 รุ่นแรกเริ่ม แล้ว นี่คือการแข่งขันกันปล่อยโมเดลเล็กที่ดีที่สุดของแต่ละเจ้าก่อนที่ Llama 3 จะออกหรือเปล่า? 262GB คงเรียกว่าเล็กไม่ได้เท่าไร แต่ก็ดูเหมือนทุกคนกำลังรีบปล่อยออกมาก่อน เพราะถ้าผลออกมาว่าแย่กว่า Llama 3 ก็คงน่าเขินที่จะมาเปิดตัวทีหลัง ถ้าดูจากข่าวลือว่า Llama 3 จะออกภายใน 2 สัปดาห์ข้างหน้า ก็ฟังดูมีความเป็นไปได้มาก Mixtral 8x7B ใช้งานได้ดี และก็ตั้งตารอจะลองโมเดลนี้เหมือนกัน มี benchmark แบบไม่เป็นทางการอยู่ที่นี่: https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4 อยากให้มี GPT-4 อยู่ในนี้ด้วย เพราะนั่นยังเป็นตัวที่ทุกคนต้องพยายามไล่ตามให้ทัน การ quantize แบบ 4 บิต น่าจะต้องใช้ VRAM 85GB ดังนั้นน่าจะลงได้พอดีบน GPU ผู้บริโภค 24GB จำนวน 4 ใบ และยังเหลือเผื่อสำหรับการปรับ KV cache ให้เหมาะสมอีกนิดหน่อย ถ้าเป็น 4 บิตจริง ๆ ก็อาจใช้ต่ำกว่านี้ เพราะมีพารามิเตอร์จำนวนมากที่แชร์กันระหว่าง expert model แต่ถ้าไม่ได้รันที่ batch size 1 ก็น่าจะลำบากกว่าเซ็ตอัป 8 GPU แทบจะแน่นอนว่า expert ส่วนใหญ่หรือทั้งหมดจะถูกเปิดใช้งานภายใน batch การ quantize แบบ 2 บิต ของ Mixtral 8x7B ยังพอใช้ได้ในบางกรณีบน GPU 8GB เลยสงสัยว่าโมเดลใหม่นี้จะทำงานอย่างไรบนชุด GPU ราคาประหยัดระดับ 8~16GB สิ่งสำคัญมากคือ นี่เป็น base model ไม่ใช่ instruction model ถ้าจะใช้กับแชต โมเดลที่มีประโยชน์คือแบบที่ผ่าน instruction fine-tuning มาแล้ว สงสัยว่าการลองใช้ base model ที่ทรงพลังโดยตรงจะให้ความรู้สึกแบบไหน มันจะเป็นแค่การเติมข้อความต่อจากพรอมป์ตเหมือนกำลังเขียนต่อเฉย ๆ หรือเปล่า? ออกมาได้จังหวะพอดีกับช่วงที่ Llama 3 กำลังจะเปิดตัว วันเดียวกันนั้น Google Gemini Pro ก็ปล่อย การเข้าถึงมัลติโหมดพร้อมบริบทยาวแบบเปิดเกือบสมบูรณ์ และ OpenAI ก็อัปเกรด GPT-4-Turbo ด้วย เลยเป็นวันที่ข่าวแน่นมาก
1 ความคิดเห็น
ความเห็นจาก Hacker News
ต่อให้ offload โมเดลครึ่งหนึ่งไปไว้ใน RAM ก็ยังอยากรู้ว่าควรโหลดด้วยเครื่องมืออะไร ใช้ Ollama, Llama.cpp หรือแค่นำเข้าเป็นไลบรารี Python ก็พอ
แล้วถ้าจะเทียบกับโมเดลอื่น ควรทำ benchmark อย่างไร มีเครื่องมือพร้อมใช้เลยไหม
ตัวไบนารีทำงานจากบรรทัดคำสั่งได้ หรือจะเปิดเว็บเซิร์ฟเวอร์ขนาดเล็กก็ได้
llamafile มีบิลด์ของ Mixtral-8x7B-Instruct อยู่แล้ว ดังนั้นโมเดลนี้ก็น่าจะถูกแพ็กเกจได้เหมือนกัน และอาจอยู่ในรูปแบบ quantized ด้วย
คงต้องให้คนที่รู้ ecosystem ดีกว่านี้ยืนยันอีกที แต่ดูเหมือนว่าโมเดลใหม่น่าจะรันบน llamafile ได้ตรง ๆ เลย
https://github.com/Mozilla-Ocho/llamafile
ค้นหาโมเดลใหม่จาก Hugging Face ในแอปแล้วลองทดสอบได้ทันทีง่ายมาก
แค่คอยดูหน้านั้นไว้และภาวนาให้โมเดล 4 บิตใส่ GPU ของคุณได้พอดี
น่าจะกำลังทำอยู่แล้ว
https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
เป็นโพสต์ที่ใส่ลิงก์ทวีตแทนโปรไฟล์:
https://twitter.com/MistralAI/status/1777869263778291896
หมายถึงก่อนที่ความสามารถจะลดลงมากจากการทำให้มัน politically correct มากขึ้น
อย่างไรก็ตาม ตอนนี้มีโมเดลระดับ GPT-3 อยู่มาก และก็มีโมเดลที่ fine-tune มาสำหรับงานเฉพาะค่อนข้างเยอะ
จุดที่โมเดลแบบเปิดยังขาดมากคือ การรองรับภาษา
ผมเห็นแค่โมเดลเดียวที่ให้ผลลัพธ์ภาษานอร์เวย์ที่ใช้งานได้ ขณะที่ใน GPT-4 ไม่เคยเป็นปัญหาเลย
แต่ก็ดูเหมือนทุกคนกำลังรีบปล่อยออกมาก่อน เพราะถ้าผลออกมาว่าแย่กว่า Llama 3 ก็คงน่าเขินที่จะมาเปิดตัวทีหลัง
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
เพราะนั่นยังเป็นตัวที่ทุกคนต้องพยายามไล่ตามให้ทัน
เพราะมีพารามิเตอร์จำนวนมากที่แชร์กันระหว่าง expert model
แต่ถ้าไม่ได้รันที่ batch size 1 ก็น่าจะลำบากกว่าเซ็ตอัป 8 GPU
แทบจะแน่นอนว่า expert ส่วนใหญ่หรือทั้งหมดจะถูกเปิดใช้งานภายใน batch
เลยสงสัยว่าโมเดลใหม่นี้จะทำงานอย่างไรบนชุด GPU ราคาประหยัดระดับ 8~16GB
ถ้าจะใช้กับแชต โมเดลที่มีประโยชน์คือแบบที่ผ่าน instruction fine-tuning มาแล้ว
มันจะเป็นแค่การเติมข้อความต่อจากพรอมป์ตเหมือนกำลังเขียนต่อเฉย ๆ หรือเปล่า?