- แปลงโครงข่ายประสาทเทียมเชิงลึกเป็นโค้ด C++ สำหรับ CUDA (NVIDIA GPU) / HIP (AMD GPU) เพื่อการอนุมานที่รวดเร็ว
- ให้ประสิทธิภาพใกล้เคียงกับ roofline fp16 TensorCore/MatrixCore บนโมเดลหลัก ๆ เช่น ResNet, BERT, VisionTransformer, Stable Diffusion
- เป็นโอเพนซอร์สที่เป็นหนึ่งเดียว เปิดกว้าง และยืดหยุ่น
- รองรับความเข้ากันได้ย้อนหลังได้ดีเยี่ยม (ไม่ขึ้นกับไลบรารี/รันไทม์ของบุคคลที่สาม) โดยแต่ละโมเดลจะถูกคอมไพล์เป็นไบนารีแบบพกพา
- Horizontal Fusion / Vertical Fusion / Memory Fusion
- ใช้งานร่วมกับหรือไม่ใช้ PyTorch ก็ได้
ยังไม่มีความคิดเห็น