- เวอร์ชัน fork ที่ทำให้สามารถรัน LLaMA-13B ของ Meta ได้ด้วยแรมเพียง 24 GiB
- กล่าวคือ สามารถใช้งานได้ด้วย RTX4090/3090 เพียงการ์ดเดียว
- ตามทฤษฎีแล้ว สามารถรัน LLaMA-65B ได้ด้วย A100 80GB เพียงตัวเดียว
- รายการเปลี่ยนแปลง
- ลบโครงสร้างสำหรับการประมวลผลแบบขนาน
- ทำ quantize ให้กับ weights บนเครื่องโฮสต์
- โหลด weights แบบค่อยเป็นค่อยไปเพื่อป้องกันปัญหาหน่วยความจำ
- ใช้
bitsandbytes และ tqdm
- ตั้งค่า repetition penalty (ค่าเริ่มต้น 1.15)
- บนเครื่อง Ubuntu ที่ใช้ RTX4090 + 64GB ใช้เวลาประมาณ 25 วินาทีในการโหลดและทำ quantize โมเดล
ยังไม่มีความคิดเห็น