- AMD เพิ่งเปิดตัวกราฟิกแอกเซเลอเรเตอร์ MI300X พร้อมอ้างว่ามีประสิทธิภาพสูงกว่า H100 ของ Nvidia ได้สูงสุด 1.6 เท่า
- ทาง Nvidia โต้แย้งว่า AMD ไม่ได้ใช้การปรับแต่งของ Nvidia เองในการเปรียบเทียบกับ H100
- AMD ชี้ว่า Nvidia แสดงเฉพาะประสิทธิภาพด้าน throughput ที่ไม่ได้จำลองสถานการณ์จริง และไม่ได้คำนึงถึง latency ที่พบได้บ่อยในเซิร์ฟเวอร์เวิร์กโหลด
- อีกทั้งยังอ้างว่า Nvidia ใช้ TensorRT-LLM ภายในของ H100 เพื่อทำเบนช์มาร์กกับชุดงานอินเฟอเรนซ์ที่คัดเลือกมา
- AMD ระบุว่าการทดสอบของตนใช้ vLLM ที่นิยมใช้อย่างแพร่หลายและใช้ชนิดข้อมูล FP16 พร้อมย้ำว่า vLLM ยังไม่รองรับ FP8
- AMD วิจารณ์ว่า Nvidia นำเสนอประสิทธิภาพด้าน throughput โดยไม่สะท้อนสภาพแวดล้อมเซิร์ฟเวอร์จริงและไม่คำนึงถึง latency
ผลทดสอบอัปเดตของ AMD ที่คำนึงถึงการปรับแต่งและ latency
- AMD ทำการทดสอบประสิทธิภาพ 3 ครั้งโดยใช้ TensorRT-LLM ของ Nvidia
- การทดสอบครั้งแรก เปรียบเทียบโดยทั้งสองบริษัทใช้ vLLM กับชุดข้อมูล FP16: MI300X เร็วกว่า 2.1 เท่า
- การทดสอบครั้งที่สอง เปรียบเทียบประสิทธิภาพ vLLM ของ MI300X กับ TensorRT-LLM: MI300X เร็วกว่า 1.3 เท่า
- การทดสอบครั้งที่สาม เปรียบเทียบ vLLM (FP16) ของ MI300X กับ TensorRT-LLM (FP8): H100 เร็วกว่าเล็กน้อยที่ 1.6 วินาที เทียบกับ 1.7 วินาที
- AMD ยังยอมรับด้วยว่าหากต้องการใช้ FP8 ก็ต้องละทิ้ง FP16 ไปพร้อมกับระบบปิดของ TensorRT-LLM และในทางปฏิบัติก็เท่ากับต้องเลิกใช้ vLLM อย่างถาวร
ยังไม่มีความคิดเห็น