- รัน Falcon(ReLU)-40B-FP16 บน RTX 4090(24G) ได้เร็วกว่า
llama.cpp 11 เท่า
- เอนจินอนุมาน LLM แบบไฮบริด CPU/GPU ที่ใช้ประโยชน์จาก Activation Locality ของอุปกรณ์
- แบ่งออกเป็นฮอตนิวรอนบางส่วนที่ถูกกระตุ้นอย่างสม่ำเสมอ และโคลด์นิวรอนส่วนใหญ่ที่เปลี่ยนไปตามอินพุตเฉพาะ
- ฮอตนิวรอนจะถูกโหลดไว้ล่วงหน้าบน GPU เพื่อให้กระตุ้นได้รวดเร็ว ส่วนโคลด์นิวรอนจะคำนวณบน CPU เพื่อลดความต้องการหน่วยความจำ GPU และการรับส่งข้อมูลระหว่าง CPU-GPU อย่างมาก
- ผสานตัวทำนายแบบปรับตัวและตัวดำเนินการแบบ sparse ที่รับรู้นิวรอน เพื่อเพิ่มประสิทธิภาพของการกระตุ้นนิวรอนและความกระจัดกระจายของการคำนวณให้เหมาะสมที่สุด
- บน GPU เดี่ยว NVIDIA RTX 4090 สามารถสร้างโทเค็นได้เฉลี่ย 13.20 โทเค็น/วินาที และสูงสุด 29.08 โทเค็น/วินาที ครอบคลุม LLM หลากหลายรุ่น (รวมถึง OPT-175B)
- ซึ่งต่ำกว่าค่าที่ GPU ระดับเซิร์ฟเวอร์ชั้นนำอย่าง A100 ทำได้เพียง 18% เท่านั้น
- และยังเหนือกว่าประสิทธิภาพของ
llama.cpp ได้สูงสุดถึง 11.69 เท่า โดยยังคงความแม่นยำของโมเดลไว้
1 ความคิดเห็น
4090 ก็ถือเป็น GPU สำหรับผู้บริโภคอยู่แหละ 555.....