- รวมคอมไพเลอร์ดีปเลิร์นนิง TensorRT, เคอร์เนลที่ปรับแต่งมาแล้ว, ขั้นตอน preprocessing/postprocessing และองค์ประกอบพื้นฐานสำหรับการสื่อสารแบบ multi-GPU/multi-node เป็นต้น
- สามารถมอบทั้งประสิทธิภาพสูงสุดและความสามารถในการปรับแต่งให้กับ LLM ได้อย่างรวดเร็ว โดยไม่จำเป็นต้องมีความรู้เชิงลึกเกี่ยวกับ C++ หรือ CUDA
- มีโอเพนซอร์ส Python API แบบโมดูลาร์ เพื่อมอบความสะดวกในการใช้งานและการขยายระบบ
- รองรับ GPU ตระกูล Ampere, Lovelace และ Hopper
- เมื่อทดสอบโดยใช้ TensorRT-LLM บนพื้นฐาน H100
- GPT-J-6B มีประสิทธิภาพการอนุมานดีขึ้น 8 เท่า, TCO ลดลง 5.3 เท่า, การใช้พลังงานลดลง 5.6 เท่า
- Llama2 70B มีประสิทธิภาพการอนุมานดีขึ้น 4.6 เท่า, TCO ลดลง 3 เท่า, การใช้พลังงานลดลง 3.2 เท่า
- มีเทคโนโลยีการจัดตารางแบบปรับแต่งที่เรียกว่า In-flight Batching
- NVIDIA H100 GPU ที่มาพร้อม TensorRT-LLM เปิดให้ผู้ใช้แปลง model weights ไปเป็นฟอร์แมต FP8 แบบใหม่ได้อย่างง่ายดาย และคอมไพล์โมเดลเพื่อใช้งานเคอร์เนล FP8 ที่ปรับแต่งมาแล้วโดยอัตโนมัติ
- เป็นไปได้ด้วยเทคโนโลยี Hopper Transformer Engine และไม่จำเป็นต้องเปลี่ยนโค้ดของโมเดล
- ขณะนี้เปิดให้ใช้งานแบบ early access แล้ว และมีกำหนดเปิดตัวภายในไม่กี่สัปดาห์
ยังไม่มีความคิดเห็น