13 คะแนน โดย xguru 2023-05-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • รองรับการทำ quantization แบบจำนวนเต็ม (integer quantization): สามารถแปลงโมเดล ggml Whisper จากค่าน้ำหนักแบบเลขทศนิยม 16 บิตมาตรฐานเป็นค่าน้ำหนักจำนวนเต็ม 4, 6, 8 บิตได้
    • ลดขนาดบนดิสก์และการใช้หน่วยความจำ ทำให้ทำงานได้เร็วขึ้นบนบางสถาปัตยกรรม
    • เป็นไปได้ด้วยโค้ดที่มีการร่วมพัฒนาให้กับโปรเจกต์ llama.cpp
  • รองรับ NVIDIA GPU โดยใช้ cuBLAS