NVIDIA เปิดโอเพนซอร์ส TensorRT-LLM เพื่อเร่งความเร็วการอนุมานของ LLM

xguru · 2023-09-13T10:17:02+09:00

รวมคอมไพเลอร์ดีปเลิร์นนิง TensorRT, เคอร์เนลที่ปรับแต่งมาแล้ว, ขั้นตอน preprocessing/postprocessing และองค์ประกอบพื้นฐานสำหรับการสื่อสารแบบ multi-GPU/multi-node เป็นต้น สามารถมอบทั้งประสิทธิภาพสูงสุดและความสามารถในการปรับแต่งให้กับ LLM ได้อย่างรวดเร็ว โดยไม่จำเป็นต้องมีความรู้เชิงลึกเกี่ยวกับ C++ หรือ CUDA มีโอเพนซอร์ส Python API แบบโมดูลาร์ เพื่อมอบความสะดวกในการใช้งานและการขยายระบบ รองรับ GPU ตระกูล Ampere, Lovelace และ Hopper เมื่อทดสอบโดยใช้ TensorRT-LLM บนพื้นฐาน H100 GPT-J-6B มีประสิทธิภาพการอนุมานดีขึ้น 8 เท่า, TCO ลดลง 5.3 เท่า, การใช้พลังงานลดลง 5.6 เท่า Llama2 70B มีประสิทธิภาพการอนุมานดีขึ้น 4.6 เท่า, TCO ลดลง 3 เท่า, การใช้พลังงานลดลง 3.2 เท่า มีเทคโนโลยีการจัดตารางแบบปรับแต่งที่เรียกว่า In-flight Batching NVIDIA H100 GPU ที่มาพร้อม TensorRT-LLM เปิดให้ผู้ใช้แปลง model weights ไปเป็นฟอร์แมต FP8 แบบใหม่ได้อย่างง่ายดาย และคอมไพล์โมเดลเพื่อใช้งานเคอร์เนล FP8 ที่ปรับแต่งมาแล้วโดยอัตโนมัติ เป็นไปได้ด้วยเทคโนโลยี Hopper Transformer Engine และไม่จำเป็นต้องเปลี่ยนโค้ดของโมเดล ขณะนี้เปิดให้ใช้งานแบบ early access แล้ว และมีกำหนดเปิดตัวภายในไม่กี่สัปดาห์

(developer.nvidia.com)

9 คะแนน โดย xguru 2023-09-13 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

รวมคอมไพเลอร์ดีปเลิร์นนิง TensorRT, เคอร์เนลที่ปรับแต่งมาแล้ว, ขั้นตอน preprocessing/postprocessing และองค์ประกอบพื้นฐานสำหรับการสื่อสารแบบ multi-GPU/multi-node เป็นต้น
สามารถมอบทั้งประสิทธิภาพสูงสุดและความสามารถในการปรับแต่งให้กับ LLM ได้อย่างรวดเร็ว โดยไม่จำเป็นต้องมีความรู้เชิงลึกเกี่ยวกับ C++ หรือ CUDA
มีโอเพนซอร์ส Python API แบบโมดูลาร์ เพื่อมอบความสะดวกในการใช้งานและการขยายระบบ
รองรับ GPU ตระกูล Ampere, Lovelace และ Hopper
เมื่อทดสอบโดยใช้ TensorRT-LLM บนพื้นฐาน H100
- GPT-J-6B มีประสิทธิภาพการอนุมานดีขึ้น 8 เท่า, TCO ลดลง 5.3 เท่า, การใช้พลังงานลดลง 5.6 เท่า
- Llama2 70B มีประสิทธิภาพการอนุมานดีขึ้น 4.6 เท่า, TCO ลดลง 3 เท่า, การใช้พลังงานลดลง 3.2 เท่า
มีเทคโนโลยีการจัดตารางแบบปรับแต่งที่เรียกว่า In-flight Batching
NVIDIA H100 GPU ที่มาพร้อม TensorRT-LLM เปิดให้ผู้ใช้แปลง model weights ไปเป็นฟอร์แมต FP8 แบบใหม่ได้อย่างง่ายดาย และคอมไพล์โมเดลเพื่อใช้งานเคอร์เนล FP8 ที่ปรับแต่งมาแล้วโดยอัตโนมัติ
- เป็นไปได้ด้วยเทคโนโลยี Hopper Transformer Engine และไม่จำเป็นต้องเปลี่ยนโค้ดของโมเดล
ขณะนี้เปิดให้ใช้งานแบบ early access แล้ว และมีกำหนดเปิดตัวภายในไม่กี่สัปดาห์

NVIDIA เปิดโอเพนซอร์ส TensorRT-LLM เพื่อเร่งความเร็วการอนุมานของ LLM

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น