• AMD เพิ่งเปิดตัวกราฟิกแอกเซเลอเรเตอร์ MI300X พร้อมอ้างว่ามีประสิทธิภาพสูงกว่า H100 ของ Nvidia ได้สูงสุด 1.6 เท่า
    • ทาง Nvidia โต้แย้งว่า AMD ไม่ได้ใช้การปรับแต่งของ Nvidia เองในการเปรียบเทียบกับ H100
  • AMD ชี้ว่า Nvidia แสดงเฉพาะประสิทธิภาพด้าน throughput ที่ไม่ได้จำลองสถานการณ์จริง และไม่ได้คำนึงถึง latency ที่พบได้บ่อยในเซิร์ฟเวอร์เวิร์กโหลด
    • อีกทั้งยังอ้างว่า Nvidia ใช้ TensorRT-LLM ภายในของ H100 เพื่อทำเบนช์มาร์กกับชุดงานอินเฟอเรนซ์ที่คัดเลือกมา
  • AMD ระบุว่าการทดสอบของตนใช้ vLLM ที่นิยมใช้อย่างแพร่หลายและใช้ชนิดข้อมูล FP16 พร้อมย้ำว่า vLLM ยังไม่รองรับ FP8
  • AMD วิจารณ์ว่า Nvidia นำเสนอประสิทธิภาพด้าน throughput โดยไม่สะท้อนสภาพแวดล้อมเซิร์ฟเวอร์จริงและไม่คำนึงถึง latency

ผลทดสอบอัปเดตของ AMD ที่คำนึงถึงการปรับแต่งและ latency

  • AMD ทำการทดสอบประสิทธิภาพ 3 ครั้งโดยใช้ TensorRT-LLM ของ Nvidia
  • การทดสอบครั้งแรก เปรียบเทียบโดยทั้งสองบริษัทใช้ vLLM กับชุดข้อมูล FP16: MI300X เร็วกว่า 2.1 เท่า
  • การทดสอบครั้งที่สอง เปรียบเทียบประสิทธิภาพ vLLM ของ MI300X กับ TensorRT-LLM: MI300X เร็วกว่า 1.3 เท่า
  • การทดสอบครั้งที่สาม เปรียบเทียบ vLLM (FP16) ของ MI300X กับ TensorRT-LLM (FP8): H100 เร็วกว่าเล็กน้อยที่ 1.6 วินาที เทียบกับ 1.7 วินาที
  • AMD ยังยอมรับด้วยว่าหากต้องการใช้ FP8 ก็ต้องละทิ้ง FP16 ไปพร้อมกับระบบปิดของ TensorRT-LLM และในทางปฏิบัติก็เท่ากับต้องเลิกใช้ vLLM อย่างถาวร

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น