LLaMA-CPU - ฟอร์กสำหรับรัน LLaMA บน CPU
(github.com/markasoftware)- รันโมเดล LLaMA ของ Meta บน CPU
- การตั้งค่าแทบจะเหมือนกันทั้งหมด
- เมื่อทดสอบด้วยโมเดล 7B หากต้องการโหลดโมเดล จำเป็นต้องใช้ swap/zram แม้จะมีแรม 32GiB
- ระหว่างการทำ inference จริง ใช้แรมจริงต่ำกว่าประมาณ 20GiB
- บน Ryzen 7900X โมเดล 7B สามารถทำ inference ได้หลายคำต่อวินาที
ยังไม่มีความคิดเห็น