• PR ที่เพิ่มการเร่งความเร็วด้วย GPU ให้กับ ggml tensor ที่เหลือทั้งหมด
  • บน RTX 3090 การประมวลผลพรอมป์ตเร็วขึ้น 2 เท่า และการสร้างโทเค็นเร็วขึ้นได้ 1.3~1.8 เท่า
  • บน 4090+i9 สำหรับโมเดล 7B q4 สามารถสร้างได้ 109 โทเค็นต่อวินาที

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น