• เอนจินสำหรับการสร้างข้อความประสิทธิภาพสูงที่รัน LLM ได้ในสภาพแวดล้อม GPU แบบจำกัด เช่น 16GB T4 / 24GB RTX3090
  • รองรับการรันโมเดล 175B บน GPU เดี่ยวได้ ด้วยการ offloading ที่รวดเร็วอย่างมาก เร็วได้ถึงประมาณ 100 เท่า
  • บีบอัดพารามิเตอร์และ attention cache ให้มากที่สุด (ลดลงได้ถึง 4 บิตโดยแทบไม่สูญเสียความแม่นยำ)
  • ขยายระบบได้ง่ายเมื่อเพิ่ม GPU ด้วย distributed parallel runtime

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น