llama.cpp - รันการอนุมานโมเดล LLaMA ของ Facebook ด้วย C/C++ ล้วน
(github.com/ggerganov)- มุ่งเป้าไปที่การรันโมเดล LLaMA แบบ quantization 4-bit บน MacBook
- อิมพลีเมนต์ด้วย C/C++ ล้วนโดยไม่มี dependency
- ปรับแต่งให้เหมาะกับเฟรมเวิร์ก Arm Neon/Accelerate (Apple Silicon)
- รองรับ AVX2 สำหรับ x86
- ความแม่นยำแบบผสม F16/F32
- รองรับ 4-bit quantization
- รันบน CPU
- ขณะนี้รองรับเฉพาะ Mac/Linux และมีแผนรองรับ Windows ในอนาคต
1 ความคิดเห็น
ลองรันโมเดล 7B ดูแล้ว ทำงานได้ดีกว่าที่คิดไว้ครับ