PowerInfer - เสิร์ฟ LLM อย่างรวดเร็วด้วย GPU สำหรับผู้บริโภค

xguru · 2023-12-21T10:51:02+09:00

รัน Falcon(ReLU)-40B-FP16 บน RTX 4090(24G) ได้เร็วกว่า llama.cpp 11 เท่า เอนจินอนุมาน LLM แบบไฮบริด CPU/GPU ที่ใช้ประโยชน์จาก Activation Locality ของอุปกรณ์ แบ่งออกเป็นฮอตนิวรอนบางส่วนที่ถูกกระตุ้นอย่างสม่ำเสมอ และโคลด์นิวรอนส่วนใหญ่ที่เปลี่ยนไปตามอินพุตเฉพาะ ฮอตนิวรอนจะถูกโหลดไว้ล่วงหน้าบน GPU เพื่อให้กระตุ้นได้รวดเร็ว ส่วนโคลด์นิวรอนจะคำนวณบน CPU เพื่อลดความต้องการหน่วยความจำ GPU และการรับส่งข้อมูลระหว่าง CPU-GPU อย่างมาก ผสานตัวทำนายแบบปรับตัวและตัวดำเนินการแบบ sparse ที่รับรู้นิวรอน เพื่อเพิ่มประสิทธิภาพของการกระตุ้นนิวรอนและความกระจัดกระจายของการคำนวณให้เหมาะสมที่สุด บน GPU เดี่ยว NVIDIA RTX 4090 สามารถสร้างโทเค็นได้เฉลี่ย 13.20 โทเค็น/วินาที และสูงสุด 29.08 โทเค็น/วินาที ครอบคลุม LLM หลากหลายรุ่น (รวมถึง OPT-175B) ซึ่งต่ำกว่าค่าที่ GPU ระดับเซิร์ฟเวอร์ชั้นนำอย่าง A100 ทำได้เพียง 18% เท่านั้น และยังเหนือกว่าประสิทธิภาพของ llama.cpp ได้สูงสุดถึง 11.69 เท่า โดยยังคงความแม่นยำของโมเดลไว้

(github.com/SJTU-IPADS)

16 คะแนน โดย xguru 2023-12-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

รัน Falcon(ReLU)-40B-FP16 บน RTX 4090(24G) ได้เร็วกว่า llama.cpp 11 เท่า
เอนจินอนุมาน LLM แบบไฮบริด CPU/GPU ที่ใช้ประโยชน์จาก Activation Locality ของอุปกรณ์
- แบ่งออกเป็นฮอตนิวรอนบางส่วนที่ถูกกระตุ้นอย่างสม่ำเสมอ และโคลด์นิวรอนส่วนใหญ่ที่เปลี่ยนไปตามอินพุตเฉพาะ
- ฮอตนิวรอนจะถูกโหลดไว้ล่วงหน้าบน GPU เพื่อให้กระตุ้นได้รวดเร็ว ส่วนโคลด์นิวรอนจะคำนวณบน CPU เพื่อลดความต้องการหน่วยความจำ GPU และการรับส่งข้อมูลระหว่าง CPU-GPU อย่างมาก
ผสานตัวทำนายแบบปรับตัวและตัวดำเนินการแบบ sparse ที่รับรู้นิวรอน เพื่อเพิ่มประสิทธิภาพของการกระตุ้นนิวรอนและความกระจัดกระจายของการคำนวณให้เหมาะสมที่สุด
บน GPU เดี่ยว NVIDIA RTX 4090 สามารถสร้างโทเค็นได้เฉลี่ย 13.20 โทเค็น/วินาที และสูงสุด 29.08 โทเค็น/วินาที ครอบคลุม LLM หลากหลายรุ่น (รวมถึง OPT-175B)
- ซึ่งต่ำกว่าค่าที่ GPU ระดับเซิร์ฟเวอร์ชั้นนำอย่าง A100 ทำได้เพียง 18% เท่านั้น
- และยังเหนือกว่าประสิทธิภาพของ llama.cpp ได้สูงสุดถึง 11.69 เท่า โดยยังคงความแม่นยำของโมเดลไว้

1 ความคิดเห็น

cosine20 2023-12-28

4090 ก็ถือเป็น GPU สำหรับผู้บริโภคอยู่แหละ 555.....

PowerInfer - เสิร์ฟ LLM อย่างรวดเร็วด้วย GPU สำหรับผู้บริโภค

บทความที่เกี่ยวข้อง

1 ความคิดเห็น