FlexGen - รัน LLM แบบ ChatGPT บน GPU เดี่ยว

xguru · 2023-02-22T10:16:02+09:00

เอนจินสำหรับการสร้างข้อความประสิทธิภาพสูงที่รัน LLM ได้ในสภาพแวดล้อม GPU แบบจำกัด เช่น 16GB T4 / 24GB RTX3090 รองรับการรันโมเดล 175B บน GPU เดี่ยวได้ ด้วยการ offloading ที่รวดเร็วอย่างมาก เร็วได้ถึงประมาณ 100 เท่า บีบอัดพารามิเตอร์และ attention cache ให้มากที่สุด (ลดลงได้ถึง 4 บิตโดยแทบไม่สูญเสียความแม่นยำ) ขยายระบบได้ง่ายเมื่อเพิ่ม GPU ด้วย distributed parallel runtime

(github.com/FMInference)

14 คะแนน โดย xguru 2023-02-22 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เอนจินสำหรับการสร้างข้อความประสิทธิภาพสูงที่รัน LLM ได้ในสภาพแวดล้อม GPU แบบจำกัด เช่น 16GB T4 / 24GB RTX3090
รองรับการรันโมเดล 175B บน GPU เดี่ยวได้ ด้วยการ offloading ที่รวดเร็วอย่างมาก เร็วได้ถึงประมาณ 100 เท่า
บีบอัดพารามิเตอร์และ attention cache ให้มากที่สุด (ลดลงได้ถึง 4 บิตโดยแทบไม่สูญเสียความแม่นยำ)
ขยายระบบได้ง่ายเมื่อเพิ่ม GPU ด้วย distributed parallel runtime

FlexGen - รัน LLM แบบ ChatGPT บน GPU เดี่ยว

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น