16 คะแนน โดย xguru 2023-03-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • มุ่งเป้าไปที่การรันโมเดล LLaMA แบบ quantization 4-bit บน MacBook
  • อิมพลีเมนต์ด้วย C/C++ ล้วนโดยไม่มี dependency
  • ปรับแต่งให้เหมาะกับเฟรมเวิร์ก Arm Neon/Accelerate (Apple Silicon)
  • รองรับ AVX2 สำหรับ x86
  • ความแม่นยำแบบผสม F16/F32
  • รองรับ 4-bit quantization
  • รันบน CPU
  • ขณะนี้รองรับเฉพาะ Mac/Linux และมีแผนรองรับ Windows ในอนาคต

1 ความคิดเห็น

 
laeyoung 2023-03-14

ลองรันโมเดล 7B ดูแล้ว ทำงานได้ดีกว่าที่คิดไว้ครับ