• รวมคอมไพเลอร์ดีปเลิร์นนิง TensorRT, เคอร์เนลที่ปรับแต่งมาแล้ว, ขั้นตอน preprocessing/postprocessing และองค์ประกอบพื้นฐานสำหรับการสื่อสารแบบ multi-GPU/multi-node เป็นต้น
  • สามารถมอบทั้งประสิทธิภาพสูงสุดและความสามารถในการปรับแต่งให้กับ LLM ได้อย่างรวดเร็ว โดยไม่จำเป็นต้องมีความรู้เชิงลึกเกี่ยวกับ C++ หรือ CUDA
  • มีโอเพนซอร์ส Python API แบบโมดูลาร์ เพื่อมอบความสะดวกในการใช้งานและการขยายระบบ
  • รองรับ GPU ตระกูล Ampere, Lovelace และ Hopper
  • เมื่อทดสอบโดยใช้ TensorRT-LLM บนพื้นฐาน H100
    • GPT-J-6B มีประสิทธิภาพการอนุมานดีขึ้น 8 เท่า, TCO ลดลง 5.3 เท่า, การใช้พลังงานลดลง 5.6 เท่า
    • Llama2 70B มีประสิทธิภาพการอนุมานดีขึ้น 4.6 เท่า, TCO ลดลง 3 เท่า, การใช้พลังงานลดลง 3.2 เท่า
  • มีเทคโนโลยีการจัดตารางแบบปรับแต่งที่เรียกว่า In-flight Batching
  • NVIDIA H100 GPU ที่มาพร้อม TensorRT-LLM เปิดให้ผู้ใช้แปลง model weights ไปเป็นฟอร์แมต FP8 แบบใหม่ได้อย่างง่ายดาย และคอมไพล์โมเดลเพื่อใช้งานเคอร์เนล FP8 ที่ปรับแต่งมาแล้วโดยอัตโนมัติ
    • เป็นไปได้ด้วยเทคโนโลยี Hopper Transformer Engine และไม่จำเป็นต้องเปลี่ยนโค้ดของโมเดล
  • ขณะนี้เปิดให้ใช้งานแบบ early access แล้ว และมีกำหนดเปิดตัวภายในไม่กี่สัปดาห์

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น