เพิ่มการเร่งความเร็วด้วย CUDA GPU แบบเต็มให้กับ llama.cpp

xguru · 2023-06-14T10:46:02+09:00

PR ที่เพิ่มการเร่งความเร็วด้วย GPU ให้กับ ggml tensor ที่เหลือทั้งหมด บน RTX 3090 การประมวลผลพรอมป์ตเร็วขึ้น 2 เท่า และการสร้างโทเค็นเร็วขึ้นได้ 1.3~1.8 เท่า บน 4090+i9 สำหรับโมเดล 7B q4 สามารถสร้างได้ 109 โทเค็นต่อวินาที

(github.com/ggerganov)

8 คะแนน โดย xguru 2023-06-14 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

PR ที่เพิ่มการเร่งความเร็วด้วย GPU ให้กับ ggml tensor ที่เหลือทั้งหมด
บน RTX 3090 การประมวลผลพรอมป์ตเร็วขึ้น 2 เท่า และการสร้างโทเค็นเร็วขึ้นได้ 1.3~1.8 เท่า
บน 4090+i9 สำหรับโมเดล 7B q4 สามารถสร้างได้ 109 โทเค็นต่อวินาที

เพิ่มการเร่งความเร็วด้วย CUDA GPU แบบเต็มให้กับ llama.cpp

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น