AMD MI300X แสดงประสิทธิภาพเหนือกว่า Nvidia H100 อยู่ 30%

xguru · 2023-12-20T10:02:01+09:00

AMD เพิ่งเปิดตัวกราฟิกแอกเซเลอเรเตอร์ MI300X พร้อมอ้างว่ามีประสิทธิภาพสูงกว่า H100 ของ Nvidia ได้สูงสุด 1.6 เท่า ทาง Nvidia โต้แย้งว่า AMD ไม่ได้ใช้การปรับแต่งของ Nvidia เองในการเปรียบเทียบกับ H100 AMD ชี้ว่า Nvidia แสดงเฉพาะประสิทธิภาพด้าน throughput ที่ไม่ได้จำลองสถานการณ์จริง และไม่ได้คำนึงถึง latency ที่พบได้บ่อยในเซิร์ฟเวอร์เวิร์กโหลด อีกทั้งยังอ้างว่า Nvidia ใช้ TensorRT-LLM ภายในของ H100 เพื่อทำเบนช์มาร์กกับชุดงานอินเฟอเรนซ์ที่คัดเลือกมา AMD ระบุว่าการทดสอบของตนใช้ vLLM ที่นิยมใช้อย่างแพร่หลายและใช้ชนิดข้อมูล FP16 พร้อมย้ำว่า vLLM ยังไม่รองรับ FP8 AMD วิจารณ์ว่า Nvidia นำเสนอประสิทธิภาพด้าน throughput โดยไม่สะท้อนสภาพแวดล้อมเซิร์ฟเวอร์จริงและไม่คำนึงถึง latency ผลทดสอบอัปเดตของ AMD ที่คำนึงถึงการปรับแต่งและ latency AMD ทำการทดสอบประสิทธิภาพ 3 ครั้งโดยใช้ TensorRT-LLM ของ Nvidia การทดสอบครั้งแรก เปรียบเทียบโดยทั้งสองบริษัทใช้ vLLM กับชุดข้อมูล FP16: MI300X เร็วกว่า 2.1 เท่า การทดสอบครั้งที่สอง เปรียบเทียบประสิทธิภาพ vLLM ของ MI300X กับ TensorRT-LLM: MI300X เร็วกว่า 1.3 เท่า การทดสอบครั้งที่สาม เปรียบเทียบ vLLM (FP16) ของ MI300X กับ TensorRT-LLM (FP8): H100 เร็วกว่าเล็กน้อยที่ 1.6 วินาที เทียบกับ 1.7 วินาที AMD ยังยอมรับด้วยว่าหากต้องการใช้ FP8 ก็ต้องละทิ้ง FP16 ไปพร้อมกับระบบปิดของ TensorRT-LLM และในทางปฏิบัติก็เท่ากับต้องเลิกใช้ vLLM อย่างถาวร

(tomshardware.com)

5 คะแนน โดย xguru 2023-12-20 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

AMD เพิ่งเปิดตัวกราฟิกแอกเซเลอเรเตอร์ MI300X พร้อมอ้างว่ามีประสิทธิภาพสูงกว่า H100 ของ Nvidia ได้สูงสุด 1.6 เท่า
- ทาง Nvidia โต้แย้งว่า AMD ไม่ได้ใช้การปรับแต่งของ Nvidia เองในการเปรียบเทียบกับ H100
AMD ชี้ว่า Nvidia แสดงเฉพาะประสิทธิภาพด้าน throughput ที่ไม่ได้จำลองสถานการณ์จริง และไม่ได้คำนึงถึง latency ที่พบได้บ่อยในเซิร์ฟเวอร์เวิร์กโหลด
- อีกทั้งยังอ้างว่า Nvidia ใช้ TensorRT-LLM ภายในของ H100 เพื่อทำเบนช์มาร์กกับชุดงานอินเฟอเรนซ์ที่คัดเลือกมา
AMD ระบุว่าการทดสอบของตนใช้ vLLM ที่นิยมใช้อย่างแพร่หลายและใช้ชนิดข้อมูล FP16 พร้อมย้ำว่า vLLM ยังไม่รองรับ FP8
AMD วิจารณ์ว่า Nvidia นำเสนอประสิทธิภาพด้าน throughput โดยไม่สะท้อนสภาพแวดล้อมเซิร์ฟเวอร์จริงและไม่คำนึงถึง latency

ผลทดสอบอัปเดตของ AMD ที่คำนึงถึงการปรับแต่งและ latency

AMD ทำการทดสอบประสิทธิภาพ 3 ครั้งโดยใช้ TensorRT-LLM ของ Nvidia
การทดสอบครั้งแรก เปรียบเทียบโดยทั้งสองบริษัทใช้ vLLM กับชุดข้อมูล FP16: MI300X เร็วกว่า 2.1 เท่า
การทดสอบครั้งที่สอง เปรียบเทียบประสิทธิภาพ vLLM ของ MI300X กับ TensorRT-LLM: MI300X เร็วกว่า 1.3 เท่า
การทดสอบครั้งที่สาม เปรียบเทียบ vLLM (FP16) ของ MI300X กับ TensorRT-LLM (FP8): H100 เร็วกว่าเล็กน้อยที่ 1.6 วินาที เทียบกับ 1.7 วินาที
AMD ยังยอมรับด้วยว่าหากต้องการใช้ FP8 ก็ต้องละทิ้ง FP16 ไปพร้อมกับระบบปิดของ TensorRT-LLM และในทางปฏิบัติก็เท่ากับต้องเลิกใช้ vLLM อย่างถาวร

AMD MI300X แสดงประสิทธิภาพเหนือกว่า Nvidia H100 อยู่ 30%

ผลทดสอบอัปเดตของ AMD ที่คำนึงถึงการปรับแต่งและ latency

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น