- ไลบรารีโอเพนซอร์สสำหรับการอนุมานและการเสิร์ฟ LLM ที่รวดเร็ว
- จัดการคีย์/ค่า attention ได้อย่างมีประสิทธิภาพด้วยอัลกอริทึม PagedAttention
- ให้ throughput สูงกว่า HuggingFace Transformers ถึง 24 เท่า โดยไม่ต้องเปลี่ยนสถาปัตยกรรมของโมเดล
- สามารถจัดเก็บคีย์/ค่าแบบต่อเนื่องไว้ในพื้นที่หน่วยความจำที่ไม่ต่อเนื่องได้
- ถูกใช้งานอย่างประสบความสำเร็จใน LMSYS Vicuna และ Chatbot Arena
ยังไม่มีความคิดเห็น