- ซีรีส์ "Behind the Compute" เป็นชุดบล็อกโพสต์ที่บันทึกเส้นทางธุรกิจของ Stability AI และมอบข้อมูลเชิงลึกเพื่อให้ผู้อื่นสามารถใช้ประโยชน์จากพลังของ generative AI ได้
- ตอนนี้จะพาไปเจาะลึกยิ่งขึ้นเกี่ยวกับเบนช์มาร์กด้านประสิทธิภาพและข้อดีของโซลูชันคอมพิวต์หลากหลายรูปแบบ
การวิเคราะห์ประสิทธิภาพ
- มีการวิเคราะห์ประสิทธิภาพโดยฝึกโมเดล 2 ตัว ซึ่งหนึ่งในนั้นคือ Stable Diffusion 3 ที่ได้รับการจับตามองอย่างมาก
- วัดความเร็วในการฝึกโดยเปรียบเทียบตัวเร่ง Intel Gaudi 2 กับ Nvidia A100 และ H100
- สิ่งเหล่านี้เป็นตัวเลือกที่สตาร์ตอัปและนักพัฒนาใช้กันมากที่สุดในการฝึก large language model
โมเดล 1: Stable Diffusion 3
- Stable Diffusion 3 เป็นโมเดล text-to-image ที่มีความสามารถสูงสุดตัวหนึ่ง และกำลังจะเข้าสู่ช่วงพรีวิวเบื้องต้นในเร็ว ๆ นี้
- Stable Diffusion 3 เวอร์ชันสาธารณะจะมีขนาดตั้งแต่ 800M ถึง 8B พารามิเตอร์
- การวิเคราะห์โดยใช้เวอร์ชัน 2B พารามิเตอร์แสดงผลลัพธ์ที่ดีกว่าคาด
- มีการวัด throughput ในการฝึกของโมเดลสถาปัตยกรรม 2B Multimodal Diffusion Transformer (MMDiT) โดยใช้ d=24, BFloat16 mixed precision และ attention ที่ปรับแต่งแล้ว (xFormers สำหรับ A100 และ FusedSDPA สำหรับ Intel Gaudi)
- โมเดลเวอร์ชันนี้เรียกว่า MMDiT-ps2-d24
- เมื่อดูผลเบนช์มาร์กการฝึกบน 2 โหนด รวมตัวเร่งทั้งหมด 16 ตัว (Gaudi/GPU) ระบบ Gaudi 2 ประมวลผลภาพฝึกได้ 927 ภาพต่อวินาที โดยคง batch size ต่อ accelerator ไว้ที่ 16 — เร็วกว่า H100-80GB 1.5 เท่า
- ด้วยการใช้หน่วยความจำแบนด์วิดท์สูง 96GB (HBM2E) ของ Gaudi 2 จึงเพิ่ม batch size ต่อ accelerator เป็น 32 และเร่งความเร็วการฝึกได้อีกเป็น 1,254 ภาพต่อวินาที
- เมื่อขยายการฝึกแบบกระจายไปยัง 32 โหนดของ Gaudi 2 (รวม 256 accelerators) ก็ยังวัดได้ว่ามีประสิทธิภาพที่แข่งขันได้อย่างมาก
- ในคอนฟิกนี้ คลัสเตอร์ Gaudi 2 ประมวลผลภาพต่อวินาทีได้มากกว่า A100-80GB GPU มากกว่า 3 เท่า ซึ่งน่าประทับใจแม้ A100 จะมีซอฟต์แวร์สแตกที่ได้รับการปรับแต่งอย่างมาก
- ในการทดสอบ inference ของโมเดล Stable Diffusion 3 ขนาด 8B พารามิเตอร์ ชิป Gaudi 2 ให้ความเร็ว inference ใกล้เคียงกับชิป Nvidia A100 เมื่อใช้ PyTorch แบบพื้นฐาน
- อย่างไรก็ตาม เมื่อใช้การปรับแต่ง TensorRT ชิป A100 สร้างภาพได้เร็วกว่า Gaudi 2 อยู่ 40%
- คาดว่าด้วยการปรับแต่งเพิ่มเติม Gaudi 2 จะสามารถแซง A100 ในโมเดลนี้ได้ในไม่ช้า
- ในการทดสอบก่อนหน้านี้ที่ใช้ PyTorch แบบพื้นฐาน Gaudi 2 สร้างภาพขนาด 1024x1024 ใน 30 ขั้นตอนได้ภายใน 3.2 วินาที ขณะที่ A100 ใช้เวลา 3.6 วินาทีเมื่อใช้ PyTorch และ 2.7 วินาทีเมื่อใช้ TensorRT
- ด้วยหน่วยความจำที่มากกว่า อินเตอร์คอนเนกต์ที่เร็วกว่า และข้อพิจารณาด้านการออกแบบอื่น ๆ ของ Gaudi 2 ทำให้การรันสถาปัตยกรรม Diffusion Transformer ซึ่งรองรับโมเดลสื่อรุ่นถัดไปมีความสามารถในการแข่งขัน
โมเดล 2: Stable Beluga 2.5 70B
- Stable Beluga 2.5 70B เป็นเวอร์ชันที่ fine-tune จาก LLaMA 2 70B และต่อยอดจาก Stable Beluga 2 ซึ่งเป็นโอเพนโมเดลตัวแรกที่เอาชนะ ChatGPT 3.5 ได้ในบางเบนช์มาร์ก
- มีการรันเบนช์มาร์กการฝึกนี้บนตัวเร่ง Gaudi 2 จำนวน 256 ตัว และวัด average total throughput ได้ที่ 116,777 โทเคนต่อวินาที โดยรันโค้ด PyTorch เดิมตรง ๆ โดยไม่มีการปรับแต่งเพิ่มเติม
- การทดสอบนี้ใช้ชนิดข้อมูล FP16, global batch size 1024, gradient accumulation steps 2 และ micro-batch size 2
- เมื่อทดสอบ inference ของโมเดลภาษา 70B บน Gaudi 2 พบว่าสามารถสร้างได้ 673 โทเคนต่อวินาทีต่อ accelerator โดยใช้ขนาด input token 128 และ output token 2048
- เมื่อเทียบกับ TensorRT-LLM แล้ว Gaudi 2 เร็วกว่า A100 ที่ 525 โทเคนต่อวินาทีอยู่ 28%
- คาดว่าจะได้ความเร็วเพิ่มขึ้นอีกด้วย FP8
ความต้องการต่อโซลูชันคอมพิวต์
- บริษัทอย่างเราเผชิญกับความต้องการที่เพิ่มขึ้นเรื่อย ๆ สำหรับโซลูชันคอมพิวต์ที่ทรงพลังและมีประสิทธิภาพมากขึ้น
- สิ่งที่เราค้นพบเน้นย้ำถึงความจำเป็นของทางเลือกอย่าง Gaudi 2 ซึ่งไม่เพียงให้ประสิทธิภาพเหนือกว่าชิป 7nm อื่น ๆ แต่ยังตอบโจทย์ความต้องการสำคัญของตลาด เช่น อัตราประสิทธิภาพต่อราคา ราคาที่เข้าถึงได้มากกว่า และระยะเวลารอคอยที่ลดลง
- การมีทางเลือกในด้านคอมพิวต์ช่วยขยายการมีส่วนร่วมและนวัตกรรม และทำให้เทคโนโลยี AI ขั้นสูงเข้าถึงได้มากขึ้นสำหรับทุกคน
1 ความคิดเห็น
ความคิดเห็นบน Hacker News