• ไลบรารีโอเพนซอร์สสำหรับการอนุมานและการเสิร์ฟ LLM ที่รวดเร็ว
  • จัดการคีย์/ค่า attention ได้อย่างมีประสิทธิภาพด้วยอัลกอริทึม PagedAttention
    • ให้ throughput สูงกว่า HuggingFace Transformers ถึง 24 เท่า โดยไม่ต้องเปลี่ยนสถาปัตยกรรมของโมเดล
    • สามารถจัดเก็บคีย์/ค่าแบบต่อเนื่องไว้ในพื้นที่หน่วยความจำที่ไม่ต่อเนื่องได้
  • ถูกใช้งานอย่างประสบความสำเร็จใน LMSYS Vicuna และ Chatbot Arena

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น