Mistral AI เปิดตัวโมเดล MOE 8x22B ใหม่

(twitter.com/MistralAI)

1 คะแนน โดย GN⁺ 2024-04-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

1 ความคิดเห็น

GN⁺ 2024-04-12

ความเห็นจาก Hacker News

สงสัยว่าวิธีที่ง่ายที่สุดในการรันโมเดลนี้เมื่อมีน้ำหนักโมเดลและฮาร์ดแวร์พร้อมแล้วคืออะไร
ต่อให้ offload โมเดลครึ่งหนึ่งไปไว้ใน RAM ก็ยังอยากรู้ว่าควรโหลดด้วยเครื่องมืออะไร ใช้ Ollama, Llama.cpp หรือแค่นำเข้าเป็นไลบรารี Python ก็พอ
แล้วถ้าจะเทียบกับโมเดลอื่น ควรทำ benchmark อย่างไร มีเครื่องมือพร้อมใช้เลยไหม
- วิธีแบบ llamafile ดูจะดีที่สุด
  ตัวไบนารีทำงานจากบรรทัดคำสั่งได้ หรือจะเปิดเว็บเซิร์ฟเวอร์ขนาดเล็กก็ได้
  llamafile มีบิลด์ของ Mixtral-8x7B-Instruct อยู่แล้ว ดังนั้นโมเดลนี้ก็น่าจะถูกแพ็กเกจได้เหมือนกัน และอาจอยู่ในรูปแบบ quantized ด้วย
  คงต้องให้คนที่รู้ ecosystem ดีกว่านี้ยืนยันอีกที แต่ดูเหมือนว่าโมเดลใหม่น่าจะรันบน llamafile ได้ตรง ๆ เลย
  https://github.com/Mozilla-Ocho/llamafile
- วิธีที่ง่ายที่สุดคือรันด้วย vllm(https://github.com/vllm-project/vllm) บน A100 สัก 2 ใบ และทำ benchmark ได้ด้วย lm-evaluation-harness(https://github.com/EleutherAI/lm-evaluation-harness)
- ถ้าจะทดสอบ LLM บน MacBook, LM Studio ยอดเยี่ยมมาก: https://lmstudio.ai/
  ค้นหาโมเดลใหม่จาก Hugging Face ในแอปแล้วลองทดสอบได้ทันทีง่ายมาก
- มีผู้ใช้ใน Hugging Face ชื่อ The Bloke ที่มักจะอัปโหลดโมเดลแบบ quantized ไว้ล่วงหน้าไม่นานหลังจากโมเดลขนาดเต็มออกมา
  แค่คอยดูหน้านั้นไว้และภาวนาให้โมเดล 4 บิตใส่ GPU ของคุณได้พอดี
  น่าจะกำลังทำอยู่แล้ว
- ลองใช้งานได้ที่ Together ที่นี่:
  https://api.together.xyz/playground/language/mistralai/Mixtral-8x22B
โพสต์ซ้ำอยู่ที่นี่: https://news.ycombinator.com/item?id=39986047
เป็นโพสต์ที่ใส่ลิงก์ทวีตแทนโปรไฟล์:
https://twitter.com/MistralAI/status/1777869263778291896
8x22B เลยเหรอ ถ้ามันดีได้ระดับเดียวกับ Mixtral 8x7B ก็น่าจะเป็นช่วงเวลาที่น่าสนุกมาก
- ได้ยินมาว่า Command R เป็นโอเพนซอร์สตัวแรกที่ชนะ GPT-4 ใน benchmark
- เรามี 8x7B อยู่แล้ว ดังนั้นคงไม่มีเหตุผลจะอยากได้ 8x7B อีกตัว แปลว่าอันนี้น่าจะดีกว่าใช่ไหม?
ออกนอกประเด็นนิดหน่อย แต่สงสัยว่าตอนนี้เรากลับมาถึงระดับ ประสิทธิภาพของ ChatGPT 4 แบบที่คนเคยบอกว่าเหมือนเวทมนตร์หรือยัง
หมายถึงก่อนที่ความสามารถจะลดลงมากจากการทำให้มัน politically correct มากขึ้น
- ผมลองทดสอบ LLM หลายตัวบน MacBook แล้ว และคิดว่าตอนนี้ทุกตัวยังห่างไกลมาก ไม่ว่าจะเอาไปเทียบกับ GPT-4 ช่วงไหนก็ตาม
  อย่างไรก็ตาม ตอนนี้มีโมเดลระดับ GPT-3 อยู่มาก และก็มีโมเดลที่ fine-tune มาสำหรับงานเฉพาะค่อนข้างเยอะ
  จุดที่โมเดลแบบเปิดยังขาดมากคือ การรองรับภาษา
  ผมเห็นแค่โมเดลเดียวที่ให้ผลลัพธ์ภาษานอร์เวย์ที่ใช้งานได้ ขณะที่ใน GPT-4 ไม่เคยเป็นปัญหาเลย
- ถ้าวัดในกลุ่มโมเดลเปิด ผมคิดว่าอย่างน้อยก็มาถึงระดับ ChatGPT 4 รุ่นแรกเริ่ม แล้ว
นี่คือการแข่งขันกันปล่อยโมเดลเล็กที่ดีที่สุดของแต่ละเจ้าก่อนที่ Llama 3 จะออกหรือเปล่า?
- 262GB คงเรียกว่าเล็กไม่ได้เท่าไร
  แต่ก็ดูเหมือนทุกคนกำลังรีบปล่อยออกมาก่อน เพราะถ้าผลออกมาว่าแย่กว่า Llama 3 ก็คงน่าเขินที่จะมาเปิดตัวทีหลัง
- ถ้าดูจากข่าวลือว่า Llama 3 จะออกภายใน 2 สัปดาห์ข้างหน้า ก็ฟังดูมีความเป็นไปได้มาก
Mixtral 8x7B ใช้งานได้ดี และก็ตั้งตารอจะลองโมเดลนี้เหมือนกัน
มี benchmark แบบไม่เป็นทางการอยู่ที่นี่:
https://huggingface.co/mistral-community/Mixtral-8x22B-v0.1/discussions/4
- อยากให้มี GPT-4 อยู่ในนี้ด้วย
  เพราะนั่นยังเป็นตัวที่ทุกคนต้องพยายามไล่ตามให้ทัน
การ quantize แบบ 4 บิต น่าจะต้องใช้ VRAM 85GB ดังนั้นน่าจะลงได้พอดีบน GPU ผู้บริโภค 24GB จำนวน 4 ใบ และยังเหลือเผื่อสำหรับการปรับ KV cache ให้เหมาะสมอีกนิดหน่อย
- ถ้าเป็น 4 บิตจริง ๆ ก็อาจใช้ต่ำกว่านี้
  เพราะมีพารามิเตอร์จำนวนมากที่แชร์กันระหว่าง expert model
  แต่ถ้าไม่ได้รันที่ batch size 1 ก็น่าจะลำบากกว่าเซ็ตอัป 8 GPU
  แทบจะแน่นอนว่า expert ส่วนใหญ่หรือทั้งหมดจะถูกเปิดใช้งานภายใน batch
- การ quantize แบบ 2 บิต ของ Mixtral 8x7B ยังพอใช้ได้ในบางกรณีบน GPU 8GB
  เลยสงสัยว่าโมเดลใหม่นี้จะทำงานอย่างไรบนชุด GPU ราคาประหยัดระดับ 8~16GB
สิ่งสำคัญมากคือ นี่เป็น base model ไม่ใช่ instruction model
ถ้าจะใช้กับแชต โมเดลที่มีประโยชน์คือแบบที่ผ่าน instruction fine-tuning มาแล้ว
- สงสัยว่าการลองใช้ base model ที่ทรงพลังโดยตรงจะให้ความรู้สึกแบบไหน
  มันจะเป็นแค่การเติมข้อความต่อจากพรอมป์ตเหมือนกำลังเขียนต่อเฉย ๆ หรือเปล่า?
ออกมาได้จังหวะพอดีกับช่วงที่ Llama 3 กำลังจะเปิดตัว
- วันเดียวกันนั้น Google Gemini Pro ก็ปล่อย การเข้าถึงมัลติโหมดพร้อมบริบทยาวแบบเปิดเกือบสมบูรณ์ และ OpenAI ก็อัปเกรด GPT-4-Turbo ด้วย เลยเป็นวันที่ข่าวแน่นมาก

Mistral AI เปิดตัวโมเดล MOE 8x22B ใหม่

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News