16 คะแนน โดย xguru 2023-12-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • รัน Falcon(ReLU)-40B-FP16 บน RTX 4090(24G) ได้เร็วกว่า llama.cpp 11 เท่า
  • เอนจินอนุมาน LLM แบบไฮบริด CPU/GPU ที่ใช้ประโยชน์จาก Activation Locality ของอุปกรณ์
    • แบ่งออกเป็นฮอตนิวรอนบางส่วนที่ถูกกระตุ้นอย่างสม่ำเสมอ และโคลด์นิวรอนส่วนใหญ่ที่เปลี่ยนไปตามอินพุตเฉพาะ
    • ฮอตนิวรอนจะถูกโหลดไว้ล่วงหน้าบน GPU เพื่อให้กระตุ้นได้รวดเร็ว ส่วนโคลด์นิวรอนจะคำนวณบน CPU เพื่อลดความต้องการหน่วยความจำ GPU และการรับส่งข้อมูลระหว่าง CPU-GPU อย่างมาก
  • ผสานตัวทำนายแบบปรับตัวและตัวดำเนินการแบบ sparse ที่รับรู้นิวรอน เพื่อเพิ่มประสิทธิภาพของการกระตุ้นนิวรอนและความกระจัดกระจายของการคำนวณให้เหมาะสมที่สุด
  • บน GPU เดี่ยว NVIDIA RTX 4090 สามารถสร้างโทเค็นได้เฉลี่ย 13.20 โทเค็น/วินาที และสูงสุด 29.08 โทเค็น/วินาที ครอบคลุม LLM หลากหลายรุ่น (รวมถึง OPT-175B)
    • ซึ่งต่ำกว่าค่าที่ GPU ระดับเซิร์ฟเวอร์ชั้นนำอย่าง A100 ทำได้เพียง 18% เท่านั้น
    • และยังเหนือกว่าประสิทธิภาพของ llama.cpp ได้สูงสุดถึง 11.69 เท่า โดยยังคงความแม่นยำของโมเดลไว้

1 ความคิดเห็น

 
cosine20 2023-12-28

4090 ก็ถือเป็น GPU สำหรับผู้บริโภคอยู่แหละ 555.....