vLLM: การเสิร์ฟ LLM ที่ง่าย เร็ว และประหยัดด้วย PagedAttention

xguru · 2023-06-23T10:32:02+09:00

ไลบรารีโอเพนซอร์สสำหรับการอนุมานและการเสิร์ฟ LLM ที่รวดเร็ว จัดการคีย์/ค่า attention ได้อย่างมีประสิทธิภาพด้วยอัลกอริทึม PagedAttention ให้ throughput สูงกว่า HuggingFace Transformers ถึง 24 เท่า โดยไม่ต้องเปลี่ยนสถาปัตยกรรมของโมเดล สามารถจัดเก็บคีย์/ค่าแบบต่อเนื่องไว้ในพื้นที่หน่วยความจำที่ไม่ต่อเนื่องได้ ถูกใช้งานอย่างประสบความสำเร็จใน LMSYS Vicuna และ Chatbot Arena

(vllm.ai)

8 คะแนน โดย xguru 2023-06-23 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ไลบรารีโอเพนซอร์สสำหรับการอนุมานและการเสิร์ฟ LLM ที่รวดเร็ว
จัดการคีย์/ค่า attention ได้อย่างมีประสิทธิภาพด้วยอัลกอริทึม PagedAttention
- ให้ throughput สูงกว่า HuggingFace Transformers ถึง 24 เท่า โดยไม่ต้องเปลี่ยนสถาปัตยกรรมของโมเดล
- สามารถจัดเก็บคีย์/ค่าแบบต่อเนื่องไว้ในพื้นที่หน่วยความจำที่ไม่ต่อเนื่องได้
ถูกใช้งานอย่างประสบความสำเร็จใน LMSYS Vicuna และ Chatbot Arena

vLLM: การเสิร์ฟ LLM ที่ง่าย เร็ว และประหยัดด้วย PagedAttention

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น