SlowLlama - ปรับจูน Llama2-70b และ CodeLlama บน M1/M2 โดยไม่ต้องทำควอนไทซ์

xguru · 2023-10-09T10:32:01+09:00

ปรับจูนโมเดลอย่าง Llama2-70B บน Apple M1/M2 และ GPU nVidia สำหรับผู้บริโภคได้ แทนที่จะใช้การทำควอนไทซ์ (quantization) จะใช้วิธี offload บางส่วนของโมเดลไปยัง SSD หรือหน่วยความจำหลัก ทั้งใน forward/backward pass เวอร์ชันปัจจุบันจำกัดการอัปเดตไว้ที่ชุดพารามิเตอร์ขนาดเล็กกว่าโดยใช้ LoRA เวอร์ชันแรกสามารถทำ full fine-tuning ได้ด้วย แต่ตอนนี้ถูกถอดออกแล้ว

(github.com/okuvshynov)

9 คะแนน โดย xguru 2023-10-09 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ปรับจูนโมเดลอย่าง Llama2-70B บน Apple M1/M2 และ GPU nVidia สำหรับผู้บริโภคได้
แทนที่จะใช้การทำควอนไทซ์ (quantization) จะใช้วิธี offload บางส่วนของโมเดลไปยัง SSD หรือหน่วยความจำหลัก ทั้งใน forward/backward pass
เวอร์ชันปัจจุบันจำกัดการอัปเดตไว้ที่ชุดพารามิเตอร์ขนาดเล็กกว่าโดยใช้ LoRA
- เวอร์ชันแรกสามารถทำ full fine-tuning ได้ด้วย แต่ตอนนี้ถูกถอดออกแล้ว

SlowLlama - ปรับจูน Llama2-70b และ CodeLlama บน M1/M2 โดยไม่ต้องทำควอนไทซ์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น