- โมเดลภาษาที่ทรงพลังที่สุด ณ ตอนนี้
- เป็นโมเดลขนาด 7.3B พารามิเตอร์ ที่เหนือกว่า Llama 2 13B ในทุกเบนช์มาร์ก และเหนือกว่า Llama 1 34B ในหลายเบนช์มาร์ก
- ใช้ Grouped-query attention (GQA) เพื่อการอนุมานที่เร็วขึ้น และใช้ Sliding Window Attention (SWA) เพื่อจัดการซีเควนซ์ที่ยาวขึ้นด้วยต้นทุนที่ต่ำลง
- อยู่ภายใต้ไลเซนส์ Apache 2.0 จึงสามารถใช้งานได้โดยไม่มีข้อจำกัด
- สามารถดีพลอยบนคลาวด์ใดก็ได้ (AWS/GCP/Azure) โดยใช้ vLLM inference server และ skypilot และยังใช้งานผ่าน HuggingFace ได้
- ปรับจูนละเอียดได้ง่าย และโมเดลที่ปรับจูนมาสำหรับแชตมีประสิทธิภาพเหนือกว่า Llama 2 13B chat
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News