นี่เป็นความคืบหน้าสำคัญของ vLLM

ตอนนี้สามารถรัน vLLM ได้แล้วบน Free-threaded Python ที่ไม่มี GIL (Global Interpreter Lock) ซึ่งเดิมเป็นข้อจำกัดของการประมวลผลแบบขนานใน Python

วิศวกรของ Meta เป็นผู้ทำให้สิ่งนี้สำเร็จ และ vLLM ก็ประกาศว่ามีแผนจะรองรับเทคโนโลยีแห่งอนาคตนี้อย่างจริงจัง

vLLM เป็นไลบรารี Python ประสิทธิภาพสูงที่ใช้เทคโนโลยี PagedAttention เพื่อจัดการ inference และการเสิร์ฟของโมเดลภาษาขนาดใหญ่ (LLM) ได้อย่างรวดเร็วและมีประสิทธิภาพมาก และถูกใช้งานอย่างแพร่หลายในงาน LLM serving

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น