FlexGen - รัน LLM แบบ ChatGPT บน GPU เดี่ยว
(github.com/FMInference)- เอนจินสำหรับการสร้างข้อความประสิทธิภาพสูงที่รัน LLM ได้ในสภาพแวดล้อม GPU แบบจำกัด เช่น 16GB T4 / 24GB RTX3090
- รองรับการรันโมเดล 175B บน GPU เดี่ยวได้ ด้วยการ offloading ที่รวดเร็วอย่างมาก เร็วได้ถึงประมาณ 100 เท่า
- บีบอัดพารามิเตอร์และ attention cache ให้มากที่สุด (ลดลงได้ถึง 4 บิตโดยแทบไม่สูญเสียความแม่นยำ)
- ขยายระบบได้ง่ายเมื่อเพิ่ม GPU ด้วย distributed parallel runtime
ยังไม่มีความคิดเห็น