ชิป Intel Gaudi 2 เหนือกว่า Nvidia H100 ในเบนช์มาร์ก Diffusion Transformer

xguru · 2024-03-12T10:46:01+09:00

ซีรีส์ "Behind the Compute" เป็นชุดบล็อกโพสต์ที่บันทึกเส้นทางธุรกิจของ Stability AI และมอบข้อมูลเชิงลึกเพื่อให้ผู้อื่นสามารถใช้ประโยชน์จากพลังของ generative AI ได้ ตอนนี้จะพาไปเจาะลึกยิ่งขึ้นเกี่ยวกับเบนช์มาร์กด้านประสิทธิภาพและข้อดีของโซลูชันคอมพิวต์หลากหลายรูปแบบ การวิเคราะห์ประสิทธิภาพ มีการวิเคราะห์ประสิทธิภาพโดยฝึกโมเดล 2 ตัว ซึ่งหนึ่งในนั้นคือ Stable Diffusion 3 ที่ได้รับการจับตามองอย่างมาก วัดความเร็วในการฝึกโดยเปรียบเทียบตัวเร่ง Intel Gaudi 2 กับ Nvidia A100 และ H100 สิ่งเหล่านี้เป็นตัวเลือกที่สตาร์ตอัปและนักพัฒนาใช้กันมากที่สุดในการฝึก large language model โมเดล 1: Stable Diffusion 3 Stable Diffusion 3 เป็นโมเดล text-to-image ที่มีความสามารถสูงสุดตัวหนึ่ง และกำลังจะเข้าสู่ช่วงพรีวิวเบื้องต้นในเร็ว ๆ นี้ Stable Diffusion 3 เวอร์ชันสาธารณะจะมีขนาดตั้งแต่ 800M ถึง 8B พารามิเตอร์ การวิเคราะห์โดยใช้เวอร์ชัน 2B พารามิเตอร์แสดงผลลัพธ์ที่ดีกว่าคาด มีการวัด throughput ในการฝึกของโมเดลสถาปัตยกรรม 2B Multimodal Diffusion Transformer (MMDiT) โดยใช้ d=24, BFloat16 mixed precision และ attention ที่ปรับแต่งแล้ว (xFormers สำหรับ A100 และ FusedSDPA สำหรับ Intel Gaudi) โมเดลเวอร์ชันนี้เรียกว่า MMDiT-ps2-d24 เมื่อดูผลเบนช์มาร์กการฝึกบน 2 โหนด รวมตัวเร่งทั้งหมด 16 ตัว (Gaudi/GPU) ระบบ Gaudi 2 ประมวลผลภาพฝึกได้ 927 ภาพต่อวินาที โดยคง batch size ต่อ accelerator ไว้ที่ 16 — เร็วกว่า H100-80GB 1.5 เท่า ด้วยการใช้หน่วยความจำแบนด์วิดท์สูง 96GB (HBM2E) ของ Gaudi 2 จึงเพิ่ม batch size ต่อ accelerator เป็น 32 และเร่งความเร็วการฝึกได้อีกเป็น 1,254 ภาพต่อวินาที เมื่อขยายการฝึกแบบกระจายไปยัง 32 โหนดของ Gaudi 2 (รวม 256 accelerators) ก็ยังวัดได้ว่ามีประสิทธิภาพที่แข่งขันได้อย่างมาก ในคอนฟิกนี้ คลัสเตอร์ Gaudi 2 ประมวลผลภาพต่อวินาทีได้มากกว่า A100-80GB GPU มากกว่า 3 เท่า ซึ่งน่าประทับใจแม้ A100 จะมีซอฟต์แวร์สแตกที่ได้รับการปรับแต่งอย่างมาก ในการทดสอบ inference ของโมเดล Stable Diffusion 3 ขนาด 8B พารามิเตอร์ ชิป Gaudi 2 ให้ความเร็ว inference ใกล้เคียงกับชิป Nvidia A100 เมื่อใช้ PyTorch แบบพื้นฐาน อย่างไรก็ตาม เมื่อใช้การปรับแต่ง TensorRT ชิป A100 สร้างภาพได้เร็วกว่า Gaudi 2 อยู่ 40% คาดว่าด้วยการปรับแต่งเพิ่มเติม Gaudi 2 จะสามารถแซง A100 ในโมเดลนี้ได้ในไม่ช้า ในการทดสอบก่อนหน้านี้ที่ใช้ PyTorch แบบพื้นฐาน Gaudi 2 สร้างภาพขนาด 1024x1024 ใน 30 ขั้นตอนได้ภายใน 3.2 วินาที ขณะที่ A100 ใช้เวลา 3.6 วินาทีเมื่อใช้ PyTorch และ 2.7 วินาทีเมื่อใช้ TensorRT ด้วยหน่วยความจำที่มากกว่า อินเตอร์คอนเนกต์ที่เร็วกว่า และข้อพิจารณาด้านการออกแบบอื่น ๆ ของ Gaudi 2 ทำให้การรันสถาปัตยกรรม Diffusion Transformer ซึ่งรองรับโมเดลสื่อรุ่นถัดไปมีความสามารถในการแข่งขัน โมเดล 2: Stable Beluga 2.5 70B Stable Beluga 2.5 70B เป็นเวอร์ชันที่ fine-tune จาก LLaMA 2 70B และต่อยอดจาก Stable Beluga 2 ซึ่งเป็นโอเพนโมเดลตัวแรกที่เอาชนะ ChatGPT 3.5 ได้ในบางเบนช์มาร์ก มีการรันเบนช์มาร์กการฝึกนี้บนตัวเร่ง Gaudi 2 จำนวน 256 ตัว และวัด average total throughput ได้ที่ 116,777 โทเคนต่อวินาที โดยรันโค้ด PyTorch เดิมตรง ๆ โดยไม่มีการปรับแต่งเพิ่มเติม การทดสอบนี้ใช้ชนิดข้อมูล FP16, global batch size 1024, gradient accumulation steps 2 และ micro-batch size 2 เมื่อทดสอบ inference ของโมเดลภาษา 70B บน Gaudi 2 พบว่าสามารถสร้างได้ 673 โทเคนต่อวินาทีต่อ accelerator โดยใช้ขนาด input token 128 และ output token 2048 เมื่อเทียบกับ TensorRT-LLM แล้ว Gaudi 2 เร็วกว่า A100 ที่ 525 โทเคนต่อวินาทีอยู่ 28% คาดว่าจะได้ความเร็วเพิ่มขึ้นอีกด้วย FP8 ความต้องการต่อโซลูชันคอมพิวต์ บริษัทอย่างเราเผชิญกับความต้องการที่เพิ่มขึ้นเรื่อย ๆ สำหรับโซลูชันคอมพิวต์ที่ทรงพลังและมีประสิทธิภาพมากขึ้น สิ่งที่เราค้นพบเน้นย้ำถึงความจำเป็นของทางเลือกอย่าง Gaudi 2 ซึ่งไม่เพียงให้ประสิทธิภาพเหนือกว่าชิป 7nm อื่น ๆ แต่ยังตอบโจทย์ความต้องการสำคัญของตลาด เช่น อัตราประสิทธิภาพต่อราคา ราคาที่เข้าถึงได้มากกว่า และระยะเวลารอคอยที่ลดลง การมีทางเลือกในด้านคอมพิวต์ช่วยขยายการมีส่วนร่วมและนวัตกรรม และทำให้เทคโนโลยี AI ขั้นสูงเข้าถึงได้มากขึ้นสำหรับทุกคน

(stability.ai)

6 คะแนน โดย xguru 2024-03-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ซีรีส์ "Behind the Compute" เป็นชุดบล็อกโพสต์ที่บันทึกเส้นทางธุรกิจของ Stability AI และมอบข้อมูลเชิงลึกเพื่อให้ผู้อื่นสามารถใช้ประโยชน์จากพลังของ generative AI ได้
ตอนนี้จะพาไปเจาะลึกยิ่งขึ้นเกี่ยวกับเบนช์มาร์กด้านประสิทธิภาพและข้อดีของโซลูชันคอมพิวต์หลากหลายรูปแบบ

การวิเคราะห์ประสิทธิภาพ

มีการวิเคราะห์ประสิทธิภาพโดยฝึกโมเดล 2 ตัว ซึ่งหนึ่งในนั้นคือ Stable Diffusion 3 ที่ได้รับการจับตามองอย่างมาก
วัดความเร็วในการฝึกโดยเปรียบเทียบตัวเร่ง Intel Gaudi 2 กับ Nvidia A100 และ H100
สิ่งเหล่านี้เป็นตัวเลือกที่สตาร์ตอัปและนักพัฒนาใช้กันมากที่สุดในการฝึก large language model

โมเดล 1: Stable Diffusion 3

Stable Diffusion 3 เป็นโมเดล text-to-image ที่มีความสามารถสูงสุดตัวหนึ่ง และกำลังจะเข้าสู่ช่วงพรีวิวเบื้องต้นในเร็ว ๆ นี้
Stable Diffusion 3 เวอร์ชันสาธารณะจะมีขนาดตั้งแต่ 800M ถึง 8B พารามิเตอร์
การวิเคราะห์โดยใช้เวอร์ชัน 2B พารามิเตอร์แสดงผลลัพธ์ที่ดีกว่าคาด
มีการวัด throughput ในการฝึกของโมเดลสถาปัตยกรรม 2B Multimodal Diffusion Transformer (MMDiT) โดยใช้ d=24, BFloat16 mixed precision และ attention ที่ปรับแต่งแล้ว (xFormers สำหรับ A100 และ FusedSDPA สำหรับ Intel Gaudi)
โมเดลเวอร์ชันนี้เรียกว่า MMDiT-ps2-d24
เมื่อดูผลเบนช์มาร์กการฝึกบน 2 โหนด รวมตัวเร่งทั้งหมด 16 ตัว (Gaudi/GPU) ระบบ Gaudi 2 ประมวลผลภาพฝึกได้ 927 ภาพต่อวินาที โดยคง batch size ต่อ accelerator ไว้ที่ 16 — เร็วกว่า H100-80GB 1.5 เท่า
ด้วยการใช้หน่วยความจำแบนด์วิดท์สูง 96GB (HBM2E) ของ Gaudi 2 จึงเพิ่ม batch size ต่อ accelerator เป็น 32 และเร่งความเร็วการฝึกได้อีกเป็น 1,254 ภาพต่อวินาที
เมื่อขยายการฝึกแบบกระจายไปยัง 32 โหนดของ Gaudi 2 (รวม 256 accelerators) ก็ยังวัดได้ว่ามีประสิทธิภาพที่แข่งขันได้อย่างมาก
ในคอนฟิกนี้ คลัสเตอร์ Gaudi 2 ประมวลผลภาพต่อวินาทีได้มากกว่า A100-80GB GPU มากกว่า 3 เท่า ซึ่งน่าประทับใจแม้ A100 จะมีซอฟต์แวร์สแตกที่ได้รับการปรับแต่งอย่างมาก
ในการทดสอบ inference ของโมเดล Stable Diffusion 3 ขนาด 8B พารามิเตอร์ ชิป Gaudi 2 ให้ความเร็ว inference ใกล้เคียงกับชิป Nvidia A100 เมื่อใช้ PyTorch แบบพื้นฐาน
อย่างไรก็ตาม เมื่อใช้การปรับแต่ง TensorRT ชิป A100 สร้างภาพได้เร็วกว่า Gaudi 2 อยู่ 40%
คาดว่าด้วยการปรับแต่งเพิ่มเติม Gaudi 2 จะสามารถแซง A100 ในโมเดลนี้ได้ในไม่ช้า
ในการทดสอบก่อนหน้านี้ที่ใช้ PyTorch แบบพื้นฐาน Gaudi 2 สร้างภาพขนาด 1024x1024 ใน 30 ขั้นตอนได้ภายใน 3.2 วินาที ขณะที่ A100 ใช้เวลา 3.6 วินาทีเมื่อใช้ PyTorch และ 2.7 วินาทีเมื่อใช้ TensorRT
ด้วยหน่วยความจำที่มากกว่า อินเตอร์คอนเนกต์ที่เร็วกว่า และข้อพิจารณาด้านการออกแบบอื่น ๆ ของ Gaudi 2 ทำให้การรันสถาปัตยกรรม Diffusion Transformer ซึ่งรองรับโมเดลสื่อรุ่นถัดไปมีความสามารถในการแข่งขัน

โมเดล 2: Stable Beluga 2.5 70B

Stable Beluga 2.5 70B เป็นเวอร์ชันที่ fine-tune จาก LLaMA 2 70B และต่อยอดจาก Stable Beluga 2 ซึ่งเป็นโอเพนโมเดลตัวแรกที่เอาชนะ ChatGPT 3.5 ได้ในบางเบนช์มาร์ก
มีการรันเบนช์มาร์กการฝึกนี้บนตัวเร่ง Gaudi 2 จำนวน 256 ตัว และวัด average total throughput ได้ที่ 116,777 โทเคนต่อวินาที โดยรันโค้ด PyTorch เดิมตรง ๆ โดยไม่มีการปรับแต่งเพิ่มเติม
การทดสอบนี้ใช้ชนิดข้อมูล FP16, global batch size 1024, gradient accumulation steps 2 และ micro-batch size 2
เมื่อทดสอบ inference ของโมเดลภาษา 70B บน Gaudi 2 พบว่าสามารถสร้างได้ 673 โทเคนต่อวินาทีต่อ accelerator โดยใช้ขนาด input token 128 และ output token 2048
เมื่อเทียบกับ TensorRT-LLM แล้ว Gaudi 2 เร็วกว่า A100 ที่ 525 โทเคนต่อวินาทีอยู่ 28%
คาดว่าจะได้ความเร็วเพิ่มขึ้นอีกด้วย FP8

ความต้องการต่อโซลูชันคอมพิวต์

บริษัทอย่างเราเผชิญกับความต้องการที่เพิ่มขึ้นเรื่อย ๆ สำหรับโซลูชันคอมพิวต์ที่ทรงพลังและมีประสิทธิภาพมากขึ้น
สิ่งที่เราค้นพบเน้นย้ำถึงความจำเป็นของทางเลือกอย่าง Gaudi 2 ซึ่งไม่เพียงให้ประสิทธิภาพเหนือกว่าชิป 7nm อื่น ๆ แต่ยังตอบโจทย์ความต้องการสำคัญของตลาด เช่น อัตราประสิทธิภาพต่อราคา ราคาที่เข้าถึงได้มากกว่า และระยะเวลารอคอยที่ลดลง
การมีทางเลือกในด้านคอมพิวต์ช่วยขยายการมีส่วนร่วมและนวัตกรรม และทำให้เทคโนโลยี AI ขั้นสูงเข้าถึงได้มากขึ้นสำหรับทุกคน

1 ความคิดเห็น

xguru 2024-03-12

ความคิดเห็นบน Hacker News

น่าสนใจที่ TPUs เอาชนะ A100s ได้อย่างสบาย ๆ ผู้คนที่ dreamlook.ai ซึ่งให้บริการ fine-tuning ของ Stable Diffusion โดยใช้ TPUs ต่างประหลาดใจกับความเร็วในการให้บริการและต้นทุน แต่จริง ๆ แล้วไม่มีความลับอะไร แค่ใช้ฮาร์ดแวร์ที่เร็วกว่าและถูกกว่าต่องานหนึ่งหน่วย
การกระตุ้นการแข่งขันด้านการฝึกโมเดลด้วยฮาร์ดแวร์ใหม่เป็นเรื่องดี แต่ความพร้อมใช้งานของเครื่องเหล่านี้ยังมีจำกัดมาก ผู้ให้บริการคลาวด์รายใหญ่ไม่อนุญาตให้เช่า VM ที่ใช้ Gaudi2 แบบรายชั่วโมง และเว็บไซต์ของ Intel เองก็พาไปสู่การซื้อเซิร์ฟเวอร์ 8x GPU ราคาเกิน 40k USD ตอนนี้ Nvidia ยังได้เปรียบทั้งด้านซอฟต์แวร์สแต็กและความพร้อมใช้งาน แต่ภายในปลายปีนี้อาจเริ่มมีการเปลี่ยนแปลง
NVIDIA ทำกำไรจาก H100 ได้เกือบ 92% น่าแปลกใจที่ยังไม่มีบริษัทชิปมากกว่านี้กระโจนเข้าสู่ตลาด "ML accelerator"
ถ้ามีการวิเคราะห์ว่าทำไมมันถึงเร็วขึ้น 3 เท่าได้ทั้งที่เมตริกฮาร์ดแวร์ไม่ได้ดีขึ้น 3 เท่า นั่นจะเป็นข้อมูลที่มีประโยชน์และให้มุมมองเชิงลึกจริง ๆ ไม่อย่างนั้นมันก็เป็นแค่โฆษณา
H100 เปิดตัวไปเกือบ 1 ปีแล้ว ดังนั้นถ้า Intel พร้อมจะแข่งขันกับรุ่นของปีก่อนก็ถือว่าใช้ได้ ต้องจำไว้ว่า CUDA เป็นส่วนที่สำคัญมาก และทั้งฮาร์ดแวร์กับซอฟต์แวร์ต้องใช้เวลาถึง 10 ปีจึงจะเติบโตเต็มที่ไปด้วยกัน
H100 ถูกส่งมอบในปริมาณมากมาแล้วเกือบ 1 ปี Gaudi2 มีพร้อมใช้งานในสเกลใกล้เคียงกันแล้วหรือยัง? จนกว่า NVIDIA จะไม่สามารถรักษาความนำเหนือชิ้นส่วนคู่แข่งได้อย่างชัดเจนในช่วงเวลาใกล้เคียงกัน ก็ไม่ควรมองข้าม NVIDIA เด็ดขาด
ไม่มีใคร รวมถึงพนักงาน Intel AXG เอง สามารถตอบได้อย่างน่าพอใจว่าทำไมทั้ง Gaudi และ Ponte Vecchio ถึงยังมีอยู่พร้อมกัน Intel จะมีโอกาสสำเร็จมากกว่านี้ไหมถ้ามุ่งเน้นไปที่สายผลิตภัณฑ์เดียว
สงสัยว่านักวิทยาศาสตร์ด้าน AI ทุกวันนี้ทำงานกันอย่างไร พวกเขานั่งแฮ็ก Cudakernels กันจริง ๆ หรือแค่ประกอบโมเดลด้วยทูลคิตระดับสูงอย่าง pytorch? ถ้าเป็นอย่างหลัง แล้วหาก pytorch มีแบ็กเอนด์ที่ปรับแต่งมาสำหรับฮาร์ดแวร์หลายแบบ CUDA ยังเป็นกำแพงใหญ่จริงหรือ?