• รันโมเดล LLaMA ของ Meta บน CPU
  • การตั้งค่าแทบจะเหมือนกันทั้งหมด
  • เมื่อทดสอบด้วยโมเดล 7B หากต้องการโหลดโมเดล จำเป็นต้องใช้ swap/zram แม้จะมีแรม 32GiB
  • ระหว่างการทำ inference จริง ใช้แรมจริงต่ำกว่าประมาณ 20GiB
  • บน Ryzen 7900X โมเดล 7B สามารถทำ inference ได้หลายคำต่อวินาที

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น