1 คะแนน โดย GN⁺ 2024-06-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ในการเปรียบเทียบการอนุมาน Mixtral 8x7B ของ TensorWave และ MK1 พบว่าชุด MI300X+MK1 Flywheel ให้ปริมาณงานสูงกว่าชุด H100 SXM+vLLM อยู่ 33% เมื่ออิงจากกรณีใช้งานแชตจริง
  • แกนสำคัญของการทดสอบคือโมเดล MoE โดย Mixtral 8x7B สามารถอยู่ใน VRAM 192GB ของ MI300X เพียงใบเดียวได้ แต่ H100 ที่มี VRAM 80GB ต้องใช้ 2 ใบและ tensor parallelism 2
  • ในงานอนุมานแบบแบตช์ออฟไลน์ ชุด MI300X ทำได้ดีกว่าทุกขนาดแบตช์ โดยช่องว่างด้านประสิทธิภาพอยู่ในช่วง 1.22x~2.94x
  • การทดสอบการกระจายตัวของแชตออนไลน์ใช้คำขอที่มีค่าเฉลี่ย โทเค็นขาเข้า 573 ตัว และ โทเค็นขาออก 50 ตัว และที่เป้าหมายเวลาแฝงเฉลี่ย 5 วินาที MI300X 2 ใบประมวลผลคำขอต่อวินาทีได้มากกว่า H100 2 ใบ 33%
  • TensorWave มองว่าเมื่อพิจารณาทั้งปริมาณงาน ความคุ้มค่าด้านต้นทุน และ ความพร้อมใช้งานของฮาร์ดแวร์ แล้ว MI300X อาจเป็นตัวเลือกที่น่าสนใจสำหรับการรันงานอนุมานขนาดใหญ่บนคลาวด์

ประเด็นหลักของการเปรียบเทียบ: MI300X จะนำหน้า H100 ในงานอนุมาน MoE ได้หรือไม่

  • แกนกลางของการทดสอบคือการดูว่า MI300X ซึ่งเป็นตัวเร่งเรือธงของ AMD จะสามารถเหนือกว่าสถาปัตยกรรม Hopper ของ NVIDIA ในเวิร์กโหลด AI จริงได้หรือไม่
  • TensorWave และ MK1 ร่วมมือกันตลอดหนึ่งเดือนเพื่อดึงประสิทธิภาพงานอนุมาน AI บนฮาร์ดแวร์ AMD ออกมาให้มากที่สุด
  • จุดโฟกัสแรกเริ่มคือสถาปัตยกรรม Mixture of Experts(MoE)
    • เลือก MoE เพราะประสิทธิภาพเชิงคำนวณและความนิยม
    • ถูกอธิบายว่าเป็นโครงสร้างที่ใช้ในโอเพนซอร์ส LLM ประสิทธิภาพสูงจาก Mistral, Meta, Databricks และ X.ai
  • MI300X ที่ใช้ซอฟต์แวร์อนุมาน MK1 ทำปริมาณงานได้สูงกว่าชุด H100 SXM และ vLLM อยู่ 33% ในกรณีใช้งานแชตจริงบนพื้นฐาน Mixtral 8x7B
  • TensorWave ยอมรับว่าระบบนิเวศซอฟต์แวร์ของ NVIDIA ยังพัฒนามากกว่า แต่ก็ประเมินว่า AMD เป็นคู่แข่งที่แข็งแกร่งในตลาด AI อยู่แล้ว

การตั้งค่าเบนช์มาร์ก

  • เบนช์มาร์กทั้งหมดดำเนินการด้วยโมเดล Mixtral 8x7B
  • เฟรมเวิร์กอนุมานทั้งหมดถูกตั้งค่าให้ใช้เส้นทางการคำนวณแบบ FP16
    • การเปิดใช้การคำนวณแบบ FP8 ยังเป็นงานในอนาคต
  • เพื่อเปรียบเทียบการตั้งค่า tensor parallelism ที่ต่างกัน ปริมาณงานของ MI300X ถูกคาดคะเนแบบ extrapolate เป็น 2 เท่า
  • ระบบ AMD

    • โหนดของ TensorWave ทดสอบด้วยตัวเร่ง MI300X 8 ใบ, ซีพียู AMD EPYC 2 ตัว, รวม 192 คอร์ และ DDR5 RAM 2.3TB
    • สเปกของตัวเร่ง MI300X มีดังนี้
      • VRAM 192GB
      • 5.3TB/s
      • FP16 ประมาณ 1300 TFLOPS
    • การตั้งค่าซอฟต์แวร์มีดังนี้
      • ROCm 6.1.2
      • เอนจินอนุมาน MK1 Flywheel v0.9.2
      • vLLM fork ที่ปรับแต่งสำหรับ AMD ROCm คือ rocm/vllm v0.4.0
    • เนื่องจากโมเดล Mixtral 8x7B ทั้งหมดสามารถอยู่ใน VRAM 192GB ของ MI300X เพียงใบเดียวได้ จึงตั้งค่า tensor parallelism เป็น 1(tp=1)
  • ระบบ NVIDIA

    • ระบบ H100 ถูกทดสอบด้วยตัวเร่ง H100 SXM5 8 ใบ ที่มี NVLink, คอร์ซีพียู 160 คอร์ และ DDR5 RAM 1.2TB
    • สเปกของตัวเร่ง H100 SXM5 มีดังนี้
      • VRAM 80GB
      • 3.35TB/s
      • FP16 ประมาณ 986 TFLOPS
    • การตั้งค่าซอฟต์แวร์มีดังนี้
      • CUDA 12.2
      • vLLM v4.3
        • เพื่อให้ Mixtral 8x7B พอดีกับ VRAM 80GB ของ H100 2 ใบ จึงตั้งค่า tensor parallelism เป็น 2(tp=2)

ผลลัพธ์การอนุมานแบบออฟไลน์

  • การทดสอบออฟไลน์จะสร้างพรอมป์ต์ขนาดคงที่แล้วส่งตรงให้โมเดล เพื่อวัด ปริมาณงานสูงสุด ของโซลูชันอนุมานแต่ละแบบ
  • การแบตช์แบบออฟไลน์ช่วยเพิ่มประสิทธิภาพฮาร์ดแวร์ด้วยการประมวลผลหลายพรอมป์ต์พร้อมกัน
    • เมื่อขนาดแบตช์ใหญ่ขึ้น ปริมาณงานก็เพิ่มขึ้น
    • แต่เวลาแฝงก็เพิ่มขึ้นเช่นกัน เพราะต้องประมวลผลคำขอพร้อมกันมากขึ้น
  • ตามแนวปฏิบัติมาตรฐาน คำขอภายในหนึ่งแบตช์ถูกจำกัดให้มีขนาดอินพุตเท่ากันและขนาดเอาต์พุตเท่ากัน
  • การทดสอบดำเนินการโดยปรับแก้ benchmark_throughput.py จาก repository ของ vLLM
    • มีการรีแฟกเตอร์ให้รองรับ Flywheel เป็นแบ็กเอนด์
    • เพื่อเอากลไกแคชออก พรอมป์ต์ในแต่ละแบตช์จึงถูกสุ่มสร้างขึ้น
  • ชุด MI300X และ MK1 Flywheel แสดงประสิทธิภาพสูงกว่าชุด H100 และ vLLM ในทุกขนาดแบตช์
    • ระดับการปรับปรุงประสิทธิภาพอยู่ในช่วง 1.22x~2.94x

การทดสอบการกระจายตัวของแชตออนไลน์

  • เบนช์มาร์กออนไลน์ถูกออกแบบมาเพื่อจำลองแอปพลิเคชันแชตทั่วไปที่สมจริง
  • การทดสอบทำโดยสร้าง worker อิสระเพื่อส่งคำขอไปยังเอนด์พอยต์ และเพิ่มจำนวน worker เพื่อเพิ่มจำนวนคำขอพร้อมกัน
  • คำขอถูกสร้างขึ้นโดยใช้การกระจายตัวของข้อความแชตมาตรฐาน
    • โทเค็นขาเข้าเฉลี่ย 573 ตัว
    • โทเค็นขาออกเฉลี่ย 50 ตัว
  • เครื่องมือเบนช์มาร์กรองรับการกระจายข้อมูลแบบกำหนดเองได้
  • มีตัวชี้วัดที่วัดอยู่ 3 รายการ
    • ปริมาณงาน: จำนวนคำขอที่ประมวลผลได้ต่อวินาทีภายใต้เวิร์กโหลดที่กำหนด
    • เวลาแฝงเฉลี่ย: เวลาเฉลี่ยที่ใช้ในการสร้างคำตอบครบถ้วนสำหรับแต่ละคำขอ
    • TPOT(Time Per Output Token): เวลาเฉลี่ยในการสร้างแต่ละโทเค็นถัดไปหลังโทเค็นแรก ซึ่งมีผลต่อความเร็วในการสร้างคำตอบยาว
  • ผลลัพธ์แบบไม่สตรีมมิง

    • เบนช์มาร์กออนไลน์ชุดแรกทดสอบกรณีใช้งานแบบ ไม่สตรีมมิง
    • วัดปริมาณงานและเวลาแฝงที่ต้องใช้เพื่อส่งมอบคำตอบครบถ้วน
    • ที่เป้าหมายเวลาแฝงเฉลี่ย 5 วินาที MI300X 2 ใบ(tp=1) ประมวลผลคำขอต่อวินาทีได้มากกว่า H100 2 ใบ(tp=2) อยู่ 33%
    • จึงสามารถใช้ตัวเร่งน้อยกว่าเพื่อรองรับจำนวนผู้ใช้เท่าเดิมภายใต้คุณภาพการให้บริการระดับเดียวกัน
  • ผลลัพธ์แบบสตรีมมิง

    • เบนช์มาร์กออนไลน์ชุดที่สองเปิดใช้ สตรีมมิง และวัดปริมาณงานกับ TPOT ระหว่างที่มีการสตรีมโทเค็น
    • MI300X แสดงปริมาณงานสูงกว่า H100 ในทุกค่า TPOT
    • แม้ในปริมาณทราฟฟิกที่สูงกว่า MI300X ก็ยังสร้างข้อความได้เร็วกว่า

บทสรุปและข้อเสนอด้านการใช้งานจริง

  • จากผลเบนช์มาร์ก AMD MI300X แสดงประสิทธิภาพสูงกว่า NVIDIA H100 ในงานอนุมานแบบออฟไลน์และออนไลน์ของสถาปัตยกรรม MoE อย่าง Mixtral 8x7B
  • MI300X ให้ผลลัพธ์ที่ดีกว่าไม่ใช่แค่ด้านปริมาณงานสูง แต่รวมถึงสถานการณ์จริงที่ต้องการเวลาตอบสนองรวดเร็วด้วย
  • TensorWave เสนอว่าเมื่อคำนึงถึง ประสิทธิภาพ ความคุ้มค่าด้านต้นทุน และความพร้อมใช้งานของฮาร์ดแวร์ แล้ว MI300X ที่ใช้ร่วมกับซอฟต์แวร์ MK1 เหมาะกับการขยายงานอนุมาน AI ขององค์กร
  • TensorWave ระบุว่ามีการให้บริการ MI300X พร้อมซอฟต์แวร์อนุมาน MK1 และเปิดให้ผู้ใช้ทดลองทดสอบได้

1 ความคิดเห็น

 
GN⁺ 2024-06-14
ความเห็นจาก Hacker News
  • เมื่อดูจากข้อเท็จจริงที่ว่า TensorWave เป็นผู้ให้บริการคลาวด์ที่เชี่ยวชาญเวิร์กโหลด AI และใช้ AMD Instinct MI300X รายงานนี้ก็ควรอ่านอย่างกลั่นกรองพอสมควร

    • กำลังเปรียบเทียบแบบฉบับของ AMD: เทียบ 8x AMD MI300X(192GB, 750W) กับ 8x H100 SXM5(80GB, 700W)
      การเปรียบเทียบที่ยุติธรรมกว่าน่าจะเป็น 8x H100 NVL(188GB, <800W)
      ราคาก็บอกอะไรได้มาก ถ้าประสิทธิภาพของ AMD เทียบชั้น Nvidia ได้ ก็ไม่มีเหตุผลที่จะขายการ์ดในราคา 1/4
    • ข้อดีคือระบุไว้อย่างชัดเจนว่ารัน benchmark อย่างไรบ้าง ถ้ามีฮาร์ดแวร์ ก็ทำซ้ำเพื่อโต้แย้งหรือยืนยันได้ง่าย
    • ถ้าใช้ชิป Nvidia ก็ไม่แน่ใจว่าโพสต์บล็อกนี้จะดีขึ้นหรือไม่
  • ไม่เข้าใจว่าทำไมในปี 2024 ยังทำ benchmark ด้วย 128 input tokens กันอยู่ มันไม่ได้เป็นตัวแทนเวิร์กโหลดส่วนใหญ่ และประสิทธิภาพ prefill สำคัญมาก

    • อยากรู้ว่ามองว่าความยาว input ที่เหมาะสมควรอยู่ประมาณไหน
      เหตุผลที่ 128 ไม่เหมาะสมก็น่าจะต่างกันไป ขึ้นอยู่กับว่า query จริงสั้นกว่าหรือยาวกว่า
      ถ้านับหนึ่งคำเป็นหนึ่ง token สำหรับผม query ส่วนใหญ่สั้นกว่า 128 คำ
  • ผมพยายามมองส่วนนี้ในแง่ดี วงการนี้ต้องการ การแข่งขัน อย่างยิ่ง และตอนนี้ มูลค่าตลาดของ $NVDA ใหญ่ผิดปกติ ใหญ่กว่าตลาดหลักทรัพย์แฟรงก์เฟิร์ตทั้งตลาดราว 0.6 ล้านล้านดอลลาร์

    • มูลค่าของตลาดหลักทรัพย์แฟรงก์เฟิร์ตน่าจะอยู่ฝั่งที่เล็กเกินไปมากกว่า ผมสงสัยมาตลอดว่าทำไมนักพัฒนาในยุโรปทำงานแบบเดียวกันแต่ค่าแรงต่ำกว่าในสหรัฐฯ เหตุผลก็คืออันนั้นแหละ
    • ตลาดหลักทรัพย์แฟรงก์เฟิร์ตหรือ DAX โดยรวมแล้วมีความหมายไม่มากนัก เยอรมนีมีบริษัท Mittelstand ที่แข็งแกร่งและเป็นธุรกิจครอบครัวจำนวนมาก ซึ่งไม่ได้จดทะเบียนในตลาดหลักทรัพย์
      ยังมีบริษัทยักษ์ใหญ่ที่ไม่ได้จดทะเบียนซึ่งชาวเยอรมันผู้มั่งคั่งเป็นเจ้าของ เช่น ยักษ์ค้าปลีกลดราคาอย่าง Lidl, Aldi หรือผู้ผลิตชิ้นส่วนรถยนต์ Bosch
    • ตอนนี้เราอยู่กลาง ฟองสบู่ LLM
      ปัญหาของ Nvidia มีแนวโน้มสูงที่จะค่อย ๆ คลี่คลายเองในช่วงไม่กี่เดือนถึงไม่กี่ปีข้างหน้า
  • ในฐานะนักวิทยาศาสตร์ AI ที่ฝึกโมเดลจำนวนมาก โดยส่วนตัวผมมองว่า AMD ถูกประเมินค่าต่ำเกินไปเมื่อเทียบกับ Nvidia
    ชิปไม่ได้เร็วเท่าผลิตภัณฑ์ล่าสุดของ Nvidia และมีบางจุดที่ต้องฝ่าฟันเพื่อให้ใช้งานได้
    แต่สำหรับเวิร์กโหลดส่วนใหญ่ในอุตสาหกรรมส่วนใหญ่ ถ้าไม่นับประเด็นว่า AI เองเป็นวิธีใช้เงินทุนที่ดีหรือไม่ AMD คุ้มค่ากว่ามากและให้ผลลัพธ์ได้แทบเหมือนกัน

  • ตลาดและราคาขายสะท้อน คุณค่าที่ถูกรับรู้ ของโซลูชัน Nvidia และ AMD เป็นผลลัพธ์ที่รวมทั้งเครื่องมือ ซอฟต์แวร์ ต้นทุนรวมในการเป็นเจ้าของ และความง่ายในการจัดการ
    อีกอย่างก็สงสัยว่ามีบริษัทสักกี่แห่งที่จะซื้อ accelerator ราคาแพงขนาดนั้นเพื่อรันโมเดลพารามิเตอร์ 7B จำนวน 8 ตัวแบบขนาน
    ยังมีการพูดกันว่าสามารถฝึกโมเดล 14B บน accelerator ตัวเดียวได้ ผมจึงอยากเห็นเวิร์กโหลดแบบ “การฝึกและ inference ที่ใช้ accelerator ทั้งตัว” เช่น หลังฝึกโมเดล 14B แล้ว throughput ของ inference ในเวิร์กโหลด 4x14B จะออกมาเป็นอย่างไร
    AMD และบริษัทส่วนใหญ่ที่อ้างประสิทธิภาพ inference จนถึงตอนนี้ โดยเฉพาะ Intel และ Apple มักเลือกนำเสนอเฉพาะ benchmark ที่ตัวเองชนะได้ และมองข้ามส่วนที่ Nvidia นำหน้า ในบทความนี้ก็เช่นกัน ตามที่หลายคอมเมนต์ชี้ไว้ ใช้โมเดลเปรียบเทียบที่อยู่คนละรุ่นกลาง ๆ

    • MI300X ชนะในเวิร์กโหลด inference บางส่วน ส่วน H100 ชนะในการฝึกและเวิร์กโหลด inference บางส่วนอื่น ๆ ตัวอย่างเช่น H100 แข็งแกร่งใน FP8 inference ที่ใช้ TensorRT-LLM และ ROCm ยังอายุน้อยแต่กำลังเติบโตอย่างรวดเร็ว
      สำหรับ LLM บนระบบเดียว คือคอนฟิก accelerator 8 ตัว MI300X แข่งขันได้สูงมากในด้านต้นทุนรวมในการเป็นเจ้าของของ inference เมื่อเทียบกับ H100
      ตามข้อมูลของ Microsoft, AMD Instinct MI300X มีประสิทธิภาพต่อราคาดีที่สุดสำหรับ GPT-4 และ AMD กำลังมุ่งสู่เป้าหมายเพิ่มประสิทธิภาพต่อวัตต์ 100 เท่าภายในปี 2027
      https://wccftech.com/amd-instinct-mi300x-best-price-performa...
    • ตลาดและราคาขายยังรวมถึง กลยุทธ์การขาย ด้วย หากต้องเข้าสู่พื้นที่ที่ผู้เล่นที่แข็งแกร่งครองตลาดและใช้กลยุทธ์การขายที่ค่อนข้าง “ฉลาด” ผลิตภัณฑ์ที่มีความสุกงอมน้อยกว่า โดยเฉพาะผลิตภัณฑ์ที่ซอฟต์แวร์ยังไม่สุกงอม ก็ต้องมีกลยุทธ์ด้านราคาและการจัดสรรปริมาณที่สอดคล้องกัน
      https://www.techspot.com/news/102056-nvidia-allegedly-punish...
    • ปริมาณการผลิต MI300X กำลังเพิ่มขึ้น ในการแถลงผลประกอบการล่าสุด Lisa Su กล่าวว่าครึ่งแรกของปี 2024 มีข้อจำกัดด้านการผลิต แต่ในครึ่งหลัง ปริมาณการผลิตจะเพิ่มขึ้นและยังมีปริมาณที่สามารถขายได้อยู่ น่าจะเป็นเพราะอุปทาน CoWoS และ HBM3/HBM3E ดีขึ้น
      คำสั่งซื้อ accelerator จำนวนมากแบบนี้มักเข้ามาล่วงหน้าหลายเดือน
      ขณะเดียวกัน MI300X ของ Microsoft ถูกจองหมดแล้ว
      https://techcommunity.microsoft.com/t5/azure-high-performanc...
      “VM เหล่านี้และซอฟต์แวร์ที่ขับเคลื่อนมันถูกสร้างขึ้นมาให้ตรงวัตถุประสงค์สำหรับเวิร์กโหลดใช้งานจริงของบริการ Azure AI เรายังได้ปรับแต่ง GPT-4 Turbo ซึ่งเป็นโมเดลภาษาธรรมชาติที่ทรงพลังที่สุดในโลก ให้เหมาะกับ VM เหล่านี้แล้วด้วย ND MI300X v5 VM มอบประสิทธิภาพด้านต้นทุนระดับแนวหน้าสำหรับโมเดลยอดนิยมของ OpenAI และโอเพนซอร์ส”
  • สงสัยว่า การตั้งค่า tensor parallel ส่งผลต่อประสิทธิภาพหรือไม่ ถ้าเดาแบบง่าย ๆ ก็น่าจะใช่ แต่ไม่มั่นใจ
    ตามบทความ การตั้งค่าของ AMD สามารถใส่ Mixtral 8x7B ทั้งหมดลงใน VRAM 192GB ของ MI300X ตัวเดียวได้ จึงใช้ tensor parallelism เป็น tp=1 ส่วนการตั้งค่าของ NVIDIA ต้องใส่ลงใน VRAM 80GB ของ H100 2 ตัว จึงต้องใช้ tp=2

    • โดยส่วนตัวมองว่าการเปรียบเทียบแบบนี้ไม่ยุติธรรม การเปรียบเทียบที่ดีควรปรับให้เหมาะกับการตั้งค่าของอุปกรณ์แต่ละฝั่ง
      กล่าวคือควรใช้โมเดลที่อยู่ภายในข้อจำกัด VRAM ได้ และถ้าให้ประสิทธิภาพดีขึ้นก็ใช้การควอนไทซ์ 8 บิต เพื่อไม่ให้เผยข้อเสียของอุปกรณ์ทั้งสองฝั่งโดยไม่จำเป็น
  • AMD ดูเหมือนมีฮาร์ดแวร์ที่ดีกว่า แต่ยังไม่มี กำลังการผลิต ที่จะแข่งขันกับ Nvidia ได้ ถ้าการแข่งขันจริงตามทันขึ้นมา กระบวนการที่มาร์จินลดลงน่าจะน่าสนใจ
    ทุกคนคิดว่าสาเหตุของอำนาจครอบงำของ Nvidia คือ CUDA แต่ไม่ใช่ ปีนี้เกือบ 40% ของรายได้มาจากบริษัทขนาดไฮเปอร์สเกลที่ใช้สแตกแบบปรับแต่งเองซึ่งโต้ตอบกับ GPU
    เป็นเพียงเรื่องของเวลาก่อนที่คู่แข่งจะตามทันและเสนอ GPU ที่ถูกกว่า

    • คำว่า “สแตกแบบปรับแต่งเองซึ่งโต้ตอบกับ GPU” แทบจะเป็นเรื่องที่แต่งขึ้นมาล้วน ๆ
      ดูเหมือนจะสับสนระหว่างแพลตฟอร์ม CUDA กับภาษาคล้าย C/C++ ที่ผู้คนเขียนในไฟล์ .cu
      จริงอยู่ว่าบางส่วนไม่ได้เขียนไฟล์ .cu โดยตรง แต่ไม่มีใครข้าม CUDA stack ส่วนที่เหลืออย่าง nvcc, PTX, SASS, runtime, driver ไปได้
      ผมเองก็ทำงานอยู่ในหนึ่งใน “บริษัทขนาดไฮเปอร์สเกล” แบบนั้น ถ้าไม่เชื่อ ลองดูว่า PyTorch มี CUDA kernel มากแค่ไหน: https://github.com/pytorch/pytorch/tree/main/aten/src/ATen/n...
      สิ่งที่ทำให้ Nvidia ครองตลาดคือ CUDA 100%
    • อยากให้ช่วยอธิบายเพิ่มเติมหรือให้แหล่งอ้างอิงได้ไหมว่า stack ที่ไม่มี CUDA เป็นอย่างไร
    • สุดท้ายแล้ว กำลังการผลิตเป็นเรื่องของการเจรจากับ TSMC หรือคู่แข่งไม่กี่ราย
      เหมือนว่า TSMC ก็เริ่มเดินสายการผลิตบางส่วนในสหรัฐฯ หรือ EU แล้วด้วย
      Nvidia ก็ใช้ TSMC และ AMD ก็ใช้ TSMC
  • เป็นจุดเริ่มต้นที่ดีสำหรับ AMD ผมยังสนใจและใช้ Groq เป็นบางครั้งด้วย ในฐานะอีกตัวเลือกสำหรับ inference ที่ไม่ใช่ Nvidia
    Nvidia พึ่งพา TSMC ในการผลิต การที่ Samsung กำลังสร้างโครงสร้างพื้นฐานการผลิตที่แข่งขันได้ก็เป็นเรื่องดี เพราะช่วยไม่ให้ Taiwan กลายเป็นจุดล้มเหลวเดียว

  • หากไม่มี ตัวชี้วัดทางสถิติ ที่เหมาะสม โดยเฉพาะการใช้ค่าเฉลี่ยแทน percentile ที่ 95 ซึ่งใช้กันแพร่หลาย และไม่มีประสิทธิภาพต่อวัตต์ ก็เป็นการเปรียบเทียบที่ไร้ประโยชน์

    • และยังต้องมีประสิทธิภาพต่อราคาด้วย สุดท้ายแล้วนั่นคือประเด็นสำคัญ
    • ผมคิดว่าค่าเฉลี่ยอาจเป็นตัวชี้วัดที่บอก throughput ได้ดีกว่า
      ถ้ามี percentile ที่ 95 ด้วยก็คงดี
  • ถ้ามี benchmark INT8/FP8 ด้วยก็คงดี การ์ดทั้งสองตัวน่าจะโหลดโมเดลด้วย VRAM ราว 60GB ได้โดยไม่ต้องใช้ tp=2 บน H100