1 ความคิดเห็น

 
GN⁺ 2024-04-12
ความคิดเห็นบน Hacker News
  • สามารถใช้เครื่องมืออย่าง Ollama, Llama.cpp หรือไลบรารี Python เพื่อรันโมเดลได้ และยังสามารถโหลดโมเดลเพียงประมาณครึ่งหนึ่งไว้ใน RAM ได้ด้วย
  • สำหรับการเปรียบเทียบประสิทธิภาพของโมเดล สามารถใช้เบนช์มาร์กอย่างไม่เป็นทางการที่ Hugging Face มีให้ได้ แต่ควรทราบว่านี่เป็นผลของ base model และมีความแตกต่างจาก instruct fine-tuned model ที่ใช้กับแชตจริง
  • หากโมเดล Mixtral-8x22B-v0.1 ให้ประสิทธิภาพได้ดีพอ ๆ กับ Mixtral 8x7b รุ่นก่อน ก็ถือเป็นโมเดลที่น่าตื่นเต้นมาก
  • มีความสนใจว่า ChatGPT 4 จะกลับไปมีประสิทธิภาพในระดับที่ช่วงแรก ๆ ถูกมองว่า "ทำงานได้ราวกับเวทมนตร์" หรือไม่ พร้อมทั้งมีความเสียดายที่ประสิทธิภาพลดลงเพราะความถูกต้องทางการเมือง
  • ดูเหมือนว่าทุกคนกำลังแข่งขันกันเพื่อออกโมเดลขนาดเล็กที่ดีที่สุดก่อน Llama3 จะเปิดตัว
  • การทำ quantization แบบ 4-bit ต้องใช้ VRAM 85GB จึงสามารถรันได้สบายด้วย GPU สำหรับผู้บริโภคขนาด 24G จำนวน 4 ใบ และยังมีพื้นที่เผื่อสำหรับการปรับแต่ง KV cache
  • เป็นเรื่องแปลกที่แม้จะผ่านมามากกว่าหนึ่งวันหลังจากเปิดเผยน้ำหนักของโมเดลแล้ว แต่ Mistral ก็ยังไม่มีการประกาศอย่างเป็นทางการหรือ model card และยังไม่สามารถใช้งานได้บนแพลตฟอร์มของ Mistral เอง