ExLlamaV2: ไลบรารี inference ความเร็วสูงสำหรับรัน Local LLMs บน GPU ทั่วไป

(github.com/turboderp)

3 คะแนน โดย GN⁺ 2023-09-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ไลบรารี inference ที่ออกแบบมาสำหรับรัน Local LLM บน GPU อย่าง 3090/4090
เป็นรีลีสเริ่มต้น และโค้ดยังอยู่ในขั้นทดสอบ โดยฟีเจอร์สำคัญบางส่วนยังไม่ได้ถูกพัฒนา
เมื่อเทียบกับ V1 แล้ว ExLlamaV2 เร็วกว่า มีเคอร์เนลที่ดีกว่า โค้ดเบสที่สะอาดและหลากหลายกว่า รวมถึงรองรับฟอร์แมตการทำ quantization แบบใหม่
อาศัย Torch C++ extension สำหรับฟังก์ชัน CUDA ซึ่งจะถูกคอมไพล์ตอนรันไทม์ การใช้งานครั้งแรกของไลบรารีจะใช้เวลา 10-20 วินาที แต่ extension จะถูกแคชไว้สำหรับการใช้งานครั้งถัดไป
รองรับโมเดล GPTQ แบบ 4 บิตเช่นเดียวกับ V1 และยังรองรับฟอร์แมตใหม่ "EXL2" ที่สามารถผสมระดับการ quantization ภายในโมเดล เพื่อให้ได้อัตราบิตเฉลี่ยตั้งแต่ 2 บิตถึง 8 บิต
การเลือกพารามิเตอร์สำหรับการ quantization ทำโดยอัตโนมัติ และมีสคริปต์สำหรับใช้ quantize โมเดลมาให้
ยังมีการกล่าวว่ามีการอัปโหลดโมเดลที่ถูก quantize แบบ EXL2 บางส่วนไว้บน HuggingFace เพื่อให้ผู้ใช้ทดลองใช้งานได้
แผนในอนาคตรวมถึงแพ็กเกจ PyPi ที่มี prebuilt extension, การรองรับ LoRA, เว็บ UI ตัวอย่าง, เว็บเซิร์ฟเวอร์ และ sampler เพิ่มเติม

1 ความคิดเห็น

GN⁺ 2023-09-14

ความคิดเห็นจาก Hacker News

บทความกล่าวถึง ExLlamaV2 ซึ่งเป็นไลบรารี inference ใหม่ที่ช่วยให้สามารถรันโมเดลภาษา (LLMs) บน GPU สำหรับผู้บริโภคได้
นี่อาจเป็นช่วงแรกที่ LLMs ขนาดใหญ่สามารถรันบน GPU สำหรับผู้บริโภคได้ด้วยความเร็วที่แข่งขันได้ และอาจแซงหน้า GPT-3.5-turbo หรือ GPT-4 ได้
ไลบรารีนี้ใช้วิธีเฉพาะในการ quantize เลเยอร์หรือโมดูลต่าง ๆ เพื่อลด perplexity ให้ต่ำที่สุดขณะปรับพารามิเตอร์
มีความสนใจในการเปรียบเทียบประสิทธิภาพของ GPU รุ่นต่าง ๆ เช่น 3090 และ 4090 รวมถึงดูว่าพวกมันจัดการกับโมเดลแต่ละแบบได้อย่างไร
บทความยังกล่าวถึงการเพิ่มการรองรับ ROCm ในระยะเริ่มต้น ซึ่งทำให้เกิดความสงสัยว่า RTX4090/3090 จะเทียบกับซีรีส์ 7900 ได้อย่างไร
ผู้อ่านสนใจการเปรียบเทียบความเร็วและการทำงานของโมเดลขนาดใหญ่บนฮาร์ดแวร์ระดับสูง เช่น การ์ด Nvidia ระดับท็อป
มีคำถามเกี่ยวกับประสิทธิภาพของโมเดลที่ต้องใช้การ์ดหลายใบเพื่อให้รันอยู่ในหน่วยความจำได้
บทความนี้ยังกระตุ้นให้เกิดการพูดคุยเกี่ยวกับรีลีสนี้ในซับเรดดิต "Local LLaMA"
ผู้อ่านสงสัยถึงผลของการลดโมเดลลงเหลือความกว้างบิตเดียว และมันยังทำงานได้อยู่หรือจะเริ่มสร้างข้อความไร้ความหมาย
มีคำถามเกี่ยวกับต้นทุนและ benchmark perplexity ของ ELX2 รวมถึงมีเสียงบ่นบางส่วนว่า Facebook ทำ llama v2 เป็น 70B แทนที่จะเป็น 65B
ผู้อ่านกำลังมองหาข้อมูลเพิ่มเติมเกี่ยวกับการ quantize แบบ EXL2/GPTQ ซึ่งดูเหมือนจะเป็นสาเหตุหลักของการเพิ่มความเร็วในโมเดลนี้
มีการเปรียบเทียบระหว่าง "70B Llama 2" กับ ChatGPT 3.5/4.0 พร้อมคำถามเกี่ยวกับประสิทธิภาพสัมพัทธ์ของพวกมัน

ExLlamaV2: ไลบรารี inference ความเร็วสูงสำหรับรัน Local LLMs บน GPU ทั่วไป

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News