• แปลงโครงข่ายประสาทเทียมเชิงลึกเป็นโค้ด C++ สำหรับ CUDA (NVIDIA GPU) / HIP (AMD GPU) เพื่อการอนุมานที่รวดเร็ว
  • ให้ประสิทธิภาพใกล้เคียงกับ roofline fp16 TensorCore/MatrixCore บนโมเดลหลัก ๆ เช่น ResNet, BERT, VisionTransformer, Stable Diffusion
  • เป็นโอเพนซอร์สที่เป็นหนึ่งเดียว เปิดกว้าง และยืดหยุ่น
  • รองรับความเข้ากันได้ย้อนหลังได้ดีเยี่ยม (ไม่ขึ้นกับไลบรารี/รันไทม์ของบุคคลที่สาม) โดยแต่ละโมเดลจะถูกคอมไพล์เป็นไบนารีแบบพกพา
  • Horizontal Fusion / Vertical Fusion / Memory Fusion
  • ใช้งานร่วมกับหรือไม่ใช้ PyTorch ก็ได้

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น