11 คะแนน โดย GN⁺ 2023-09-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลภาษาที่ทรงพลังที่สุด ณ ตอนนี้
  • เป็นโมเดลขนาด 7.3B พารามิเตอร์ ที่เหนือกว่า Llama 2 13B ในทุกเบนช์มาร์ก และเหนือกว่า Llama 1 34B ในหลายเบนช์มาร์ก
  • ใช้ Grouped-query attention (GQA) เพื่อการอนุมานที่เร็วขึ้น และใช้ Sliding Window Attention (SWA) เพื่อจัดการซีเควนซ์ที่ยาวขึ้นด้วยต้นทุนที่ต่ำลง
  • อยู่ภายใต้ไลเซนส์ Apache 2.0 จึงสามารถใช้งานได้โดยไม่มีข้อจำกัด
  • สามารถดีพลอยบนคลาวด์ใดก็ได้ (AWS/GCP/Azure) โดยใช้ vLLM inference server และ skypilot และยังใช้งานผ่าน HuggingFace ได้
  • ปรับจูนละเอียดได้ง่าย และโมเดลที่ปรับจูนมาสำหรับแชตมีประสิทธิภาพเหนือกว่า Llama 2 13B chat

1 ความคิดเห็น

 
GN⁺ 2023-09-28
ความคิดเห็นจาก Hacker News
  • Mistral เป็นบริษัทแรกที่ให้ไลเซนส์ Apache กับโมเดลในคลาสนี้ ต่างจาก Meta และ DeciLM
  • โมเดลนี้ทำงานได้ดีบน MacBook Air M1 และเทียบชั้นกับ GPT3.5 ได้
  • มีคำถามเกี่ยวกับความเป็นไปได้ในการใช้ "function calling API" เพื่อจัดการข้อมูลแบบมีโครงสร้าง เช่น JSON
  • มีข้อกังวลเกี่ยวกับชุดข้อมูลที่ใช้ฝึกโมเดล และความเป็นไปได้ที่การรั่วไหลของ benchmark จะทำให้ผลลัพธ์ดูสูงเกินจริง
  • การเปิดตัวโมเดลถูกประกาศผ่าน torrent tracker URI บน Twitter
  • ในการทดสอบเครื่องมือช่วยเขียนโค้ดสำหรับ LLMs นั้น Mistral ทำได้ไม่ดีเท่า CodeLlama และ GPT4
  • โมเดลนี้ใช้งานได้บน FreeChat ของ macOS เพราะรองรับโดย llama.cpp
  • มีคำถามว่าทำไมโปรเจ็กต์ต่าง ๆ จึงดูเหมือนกำลังทำมาตรฐานไปที่ขนาดพารามิเตอร์เฉพาะภายในกลุ่มใหญ่ เช่น โมเดล 7B
  • มีการขอรายละเอียดเกี่ยวกับการฝึกโมเดล ทั้งข้อมูลที่ใช้เป็นฐานและสถานที่ที่ฝึก
  • มีการขอให้ทดสอบการปนเปื้อนของ benchmark ในชุดฝึก