llama.cpp - รันการอนุมานโมเดล LLaMA ของ Facebook ด้วย C/C++ ล้วน

xguru · 2023-03-13T11:26:01+09:00

มุ่งเป้าไปที่การรันโมเดล LLaMA แบบ quantization 4-bit บน MacBook อิมพลีเมนต์ด้วย C/C++ ล้วนโดยไม่มี dependency ปรับแต่งให้เหมาะกับเฟรมเวิร์ก Arm Neon/Accelerate (Apple Silicon) รองรับ AVX2 สำหรับ x86 ความแม่นยำแบบผสม F16/F32 รองรับ 4-bit quantization รันบน CPU ขณะนี้รองรับเฉพาะ Mac/Linux และมีแผนรองรับ Windows ในอนาคต

(github.com/ggerganov)

16 คะแนน โดย xguru 2023-03-13 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

มุ่งเป้าไปที่การรันโมเดล LLaMA แบบ quantization 4-bit บน MacBook
อิมพลีเมนต์ด้วย C/C++ ล้วนโดยไม่มี dependency
ปรับแต่งให้เหมาะกับเฟรมเวิร์ก Arm Neon/Accelerate (Apple Silicon)
รองรับ AVX2 สำหรับ x86
ความแม่นยำแบบผสม F16/F32
รองรับ 4-bit quantization
รันบน CPU
ขณะนี้รองรับเฉพาะ Mac/Linux และมีแผนรองรับ Windows ในอนาคต

1 ความคิดเห็น

laeyoung 2023-03-14

ลองรันโมเดล 7B ดูแล้ว ทำงานได้ดีกว่าที่คิดไว้ครับ

llama.cpp - รันการอนุมานโมเดล LLaMA ของ Facebook ด้วย C/C++ ล้วน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น