SlowLlama - ปรับจูน Llama2-70b และ CodeLlama บน M1/M2 โดยไม่ต้องทำควอนไทซ์
(github.com/okuvshynov)- ปรับจูนโมเดลอย่าง Llama2-70B บน Apple M1/M2 และ GPU nVidia สำหรับผู้บริโภคได้
- แทนที่จะใช้การทำควอนไทซ์ (quantization) จะใช้วิธี offload บางส่วนของโมเดลไปยัง SSD หรือหน่วยความจำหลัก ทั้งใน forward/backward pass
- เวอร์ชันปัจจุบันจำกัดการอัปเดตไว้ที่ชุดพารามิเตอร์ขนาดเล็กกว่าโดยใช้ LoRA
- เวอร์ชันแรกสามารถทำ full fine-tuning ได้ด้วย แต่ตอนนี้ถูกถอดออกแล้ว
ยังไม่มีความคิดเห็น