• เวอร์ชัน fork ที่ทำให้สามารถรัน LLaMA-13B ของ Meta ได้ด้วยแรมเพียง 24 GiB
    • กล่าวคือ สามารถใช้งานได้ด้วย RTX4090/3090 เพียงการ์ดเดียว
  • ตามทฤษฎีแล้ว สามารถรัน LLaMA-65B ได้ด้วย A100 80GB เพียงตัวเดียว
  • รายการเปลี่ยนแปลง
    • ลบโครงสร้างสำหรับการประมวลผลแบบขนาน
    • ทำ quantize ให้กับ weights บนเครื่องโฮสต์
    • โหลด weights แบบค่อยเป็นค่อยไปเพื่อป้องกันปัญหาหน่วยความจำ
    • ใช้ bitsandbytes และ tqdm
    • ตั้งค่า repetition penalty (ค่าเริ่มต้น 1.15)
  • บนเครื่อง Ubuntu ที่ใช้ RTX4090 + 64GB ใช้เวลาประมาณ 25 วินาทีในการโหลดและทำ quantize โมเดล

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น