LLaMA: ฉบับ INT8

xguru · 2023-03-10T11:02:01+09:00

เวอร์ชัน fork ที่ทำให้สามารถรัน LLaMA-13B ของ Meta ได้ด้วยแรมเพียง 24 GiB กล่าวคือ สามารถใช้งานได้ด้วย RTX4090/3090 เพียงการ์ดเดียว ตามทฤษฎีแล้ว สามารถรัน LLaMA-65B ได้ด้วย A100 80GB เพียงตัวเดียว รายการเปลี่ยนแปลง ลบโครงสร้างสำหรับการประมวลผลแบบขนาน ทำ quantize ให้กับ weights บนเครื่องโฮสต์ โหลด weights แบบค่อยเป็นค่อยไปเพื่อป้องกันปัญหาหน่วยความจำ ใช้ bitsandbytes และ tqdm ตั้งค่า repetition penalty (ค่าเริ่มต้น 1.15) บนเครื่อง Ubuntu ที่ใช้ RTX4090 + 64GB ใช้เวลาประมาณ 25 วินาทีในการโหลดและทำ quantize โมเดล

(github.com/tloen)

8 คะแนน โดย xguru 2023-03-10 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เวอร์ชัน fork ที่ทำให้สามารถรัน LLaMA-13B ของ Meta ได้ด้วยแรมเพียง 24 GiB
- กล่าวคือ สามารถใช้งานได้ด้วย RTX4090/3090 เพียงการ์ดเดียว
ตามทฤษฎีแล้ว สามารถรัน LLaMA-65B ได้ด้วย A100 80GB เพียงตัวเดียว
รายการเปลี่ยนแปลง
- ลบโครงสร้างสำหรับการประมวลผลแบบขนาน
- ทำ quantize ให้กับ weights บนเครื่องโฮสต์
- โหลด weights แบบค่อยเป็นค่อยไปเพื่อป้องกันปัญหาหน่วยความจำ
- ใช้ bitsandbytes และ tqdm
- ตั้งค่า repetition penalty (ค่าเริ่มต้น 1.15)
บนเครื่อง Ubuntu ที่ใช้ RTX4090 + 64GB ใช้เวลาประมาณ 25 วินาทีในการโหลดและทำ quantize โมเดล

LLaMA: ฉบับ INT8

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น