เพิ่มการเร่งความเร็วด้วย CUDA GPU แบบเต็มให้กับ llama.cpp
(github.com/ggerganov)- PR ที่เพิ่มการเร่งความเร็วด้วย GPU ให้กับ ggml tensor ที่เหลือทั้งหมด
- บน RTX 3090 การประมวลผลพรอมป์ตเร็วขึ้น 2 เท่า และการสร้างโทเค็นเร็วขึ้นได้ 1.3~1.8 เท่า
- บน 4090+i9 สำหรับโมเดล 7B q4 สามารถสร้างได้ 109 โทเค็นต่อวินาที
ยังไม่มีความคิดเห็น