Mistral 7B

(mistral.ai)

11 คะแนน โดย GN⁺ 2023-09-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลภาษาที่ทรงพลังที่สุด ณ ตอนนี้
เป็นโมเดลขนาด 7.3B พารามิเตอร์ ที่เหนือกว่า Llama 2 13B ในทุกเบนช์มาร์ก และเหนือกว่า Llama 1 34B ในหลายเบนช์มาร์ก
ใช้ Grouped-query attention (GQA) เพื่อการอนุมานที่เร็วขึ้น และใช้ Sliding Window Attention (SWA) เพื่อจัดการซีเควนซ์ที่ยาวขึ้นด้วยต้นทุนที่ต่ำลง
อยู่ภายใต้ไลเซนส์ Apache 2.0 จึงสามารถใช้งานได้โดยไม่มีข้อจำกัด
สามารถดีพลอยบนคลาวด์ใดก็ได้ (AWS/GCP/Azure) โดยใช้ vLLM inference server และ skypilot และยังใช้งานผ่าน HuggingFace ได้
ปรับจูนละเอียดได้ง่าย และโมเดลที่ปรับจูนมาสำหรับแชตมีประสิทธิภาพเหนือกว่า Llama 2 13B chat

1 ความคิดเห็น

GN⁺ 2023-09-28

ความคิดเห็นจาก Hacker News

Mistral เป็นบริษัทแรกที่ให้ไลเซนส์ Apache กับโมเดลในคลาสนี้ ต่างจาก Meta และ DeciLM
โมเดลนี้ทำงานได้ดีบน MacBook Air M1 และเทียบชั้นกับ GPT3.5 ได้
มีคำถามเกี่ยวกับความเป็นไปได้ในการใช้ "function calling API" เพื่อจัดการข้อมูลแบบมีโครงสร้าง เช่น JSON
มีข้อกังวลเกี่ยวกับชุดข้อมูลที่ใช้ฝึกโมเดล และความเป็นไปได้ที่การรั่วไหลของ benchmark จะทำให้ผลลัพธ์ดูสูงเกินจริง
การเปิดตัวโมเดลถูกประกาศผ่าน torrent tracker URI บน Twitter
ในการทดสอบเครื่องมือช่วยเขียนโค้ดสำหรับ LLMs นั้น Mistral ทำได้ไม่ดีเท่า CodeLlama และ GPT4
โมเดลนี้ใช้งานได้บน FreeChat ของ macOS เพราะรองรับโดย llama.cpp
มีคำถามว่าทำไมโปรเจ็กต์ต่าง ๆ จึงดูเหมือนกำลังทำมาตรฐานไปที่ขนาดพารามิเตอร์เฉพาะภายในกลุ่มใหญ่ เช่น โมเดล 7B
มีการขอรายละเอียดเกี่ยวกับการฝึกโมเดล ทั้งข้อมูลที่ใช้เป็นฐานและสถานที่ที่ฝึก
มีการขอให้ทดสอบการปนเปื้อนของ benchmark ในชุดฝึก

Mistral 7B

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News