คู่มือ Cloud GPU - ควรใช้ GPU ตัวไหน ที่ไหน สำหรับ AI?

xguru · 2023-08-23T11:04:02+09:00

หากสร้างเครื่องมือ AI โดยใช้ StableDiffusion, Whisper, LLM โอเพนซอร์ส เป็นต้น ก็จำเป็นต้องมีที่สำหรับรันอย่างต่อเนื่องจากที่ไหนสักแห่ง ควรใช้ GPU ตัวไหน? หากใช้ Cloud GPU: Falcon-40B, Falcon-40B-Uncensored หรือ Falcon-40B-Instruct ถ้าต้องการประสิทธิภาพสูงสุดโดยไม่สนค่าใช้จ่าย: H100 2 ตัว ถ้าต้องการสมดุลระหว่างราคาและประสิทธิภาพ: RTX 6000 Ada 2 ตัว (ไม่ใช่ A6000 หรือ RTX6000) ถ้าต้องการราคาถูก: A6000 2 ตัว MPT-30B ประสิทธิภาพสูงสุดหรือความคุ้มค่า: H100 1 ตัว ราคาถูก: A100 80GB 1 ตัว Stable Diffusion ประสิทธิภาพสูงสุด: H100 1 ตัว คุ้มค่า: 4090 1 ตัว ราคาถูก: 3090 1 ตัว Whisper เหมือนกับ Stable Diffusion Whisper-Large สามารถรันได้ด้วย VRAM ที่น้อยกว่า แต่คลาวด์ส่วนใหญ่ไม่มีการ์ดแบบนั้น 4090/3090 ก็ทำงานได้ดี และใช้ CPU ก็ได้ หากต้องการ fine-tune LLM ขนาดใหญ่ H100 cluster หรือ A100 cluster หากต้องการเทรน LLM ขนาดใหญ่ H100 cluster ขนาดใหญ่ หากใช้ GPU แบบโลคัล: เกือบเหมือนด้านบน แต่ไม่สามารถเทรนหรือ fine-tune LLM ได้ LLM ส่วนใหญ่มีเวอร์ชันที่รันได้บน VRAM ขนาดเล็ก (Falcon บน 40GB) ควรรันโมเดลบนเครื่องโลคัล หรือใช้ Cloud GPU? ทั้งสองแบบเป็นตัวเลือกที่สมเหตุสมผล หากต้องการรันโมเดลบนคลาวด์ ตัวเลือกที่ง่ายที่สุดคือ เทมเพลตของ Runpod ตัวเลือกที่ง่ายที่สุดคือใช้อินสแตนซ์แบบโฮสต์: DreamStudio, RunDiffusion, Playground AI สำหรับ stable diffusion เป็นต้น RTX 6000, A6000, 6000 Ada ต่างกันอย่างไร? ทั้งสามตัวต่างกันโดยสิ้นเชิง RTX 6000 (Quadro RTX 6000, VRAM 24 GB, เปิดตัว 2018/08/13) RTX A6000 (VRAM 48 GB, เปิดตัว 2020/10/05) RTX 6000 Ada (VRAM 48 GB, เปิดตัว 2022/12/03) DGX GH200, GH200, H100? DGX GH200 1 เครื่อง ประกอบด้วย GH200 จำนวน 256 ตัว GH200 1 ตัว ประกอบด้วย H100 1 ตัว และ Grace CPU 1 ตัว H100 เป็นการอัปเกรดครั้งใหญ่จาก A100 หรือไม่? แน่นอน ความเร็วเพิ่มขึ้นมาก H100 สามารถขยายไปใช้ GPU จำนวนมากได้มากกว่า A100 กล่าวคือ สำหรับการเทรน LLM การใช้ H100 หลายตัวคือทางเลือกที่ดีที่สุด แล้ว AMD, Intel, Cerebras ล่ะ? ณ ตอนนี้ Nvidia ใช้งานได้ง่ายที่สุด ควรใช้ GPU cloud เจ้าไหน? หากต้องการ A100/H100 จำนวนมาก: ติดต่อ Oracle, FluidStack, Lambda Labs เป็นต้น หากต้องการ A100 ไม่กี่ตัว: FluidStack หรือ Runpod หากต้องการ H100 1 ตัว: FluidStack หรือ Lambda Labs ถ้าต้องการ 3090s, 4090s, A6000s ราคาถูก: Tensordock หากต้องการเพียง Stable Diffusion inference: Salad หากต้องการ GPU หลายประเภท: Runpod หรือ FluidStack หากต้องการใช้เทมเพลตหรือทำเป็นงานอดิเรก: Runpod คลาวด์รายใหญ่มีราคาแพงและซับซ้อน GPU Cloud ที่เริ่มต้นได้ง่ายที่สุด ใช้เทมเพลตบน RunPod โปรดทราบว่า RunPod pod ไม่ใช่ VM ที่มีฟังก์ชันครบถ้วน แต่เป็น Docker container บนเครื่องโฮสต์ ต้องใช้ VRAM, system RAM และ vCPU เท่าไร? VRAM (Video RAM / GPU RAM) Falcon-40B: 85-100GB MPT-30B: 80GB Stable Diffusion: แนะนำ 16GB+ ขึ้นไป Whisper: 12GB+ (หากใช้เวอร์ชันของ OpenAI จะประมาณนี้ ส่วนเวอร์ชันคอมมูนิตี้สามารถใช้ CPU ได้) System ram 1~2 เท่าของ VRAM vCPUs 8-16 vCPU ก็เพียงพอแล้ว เว้นแต่จะเป็นงาน GPU ขนาดใหญ่มาก พื้นที่ดิสก์ ขึ้นอยู่กับ use case หากไม่แน่ใจ ให้เริ่มที่ 100GB แล้วดูว่าเหมาะกับ use case ของคุณหรือไม่

(gpus.llm-utils.org)

37 คะแนน โดย xguru 2023-08-23 | 6 ความคิดเห็น | แชร์ทาง WhatsApp

หากสร้างเครื่องมือ AI โดยใช้ StableDiffusion, Whisper, LLM โอเพนซอร์ส เป็นต้น ก็จำเป็นต้องมีที่สำหรับรันอย่างต่อเนื่องจากที่ไหนสักแห่ง

ควรใช้ GPU ตัวไหน?

หากใช้ Cloud GPU:

Falcon-40B, Falcon-40B-Uncensored หรือ Falcon-40B-Instruct
- ถ้าต้องการประสิทธิภาพสูงสุดโดยไม่สนค่าใช้จ่าย: H100 2 ตัว
- ถ้าต้องการสมดุลระหว่างราคาและประสิทธิภาพ: RTX 6000 Ada 2 ตัว (ไม่ใช่ A6000 หรือ RTX6000)
- ถ้าต้องการราคาถูก: A6000 2 ตัว
MPT-30B
- ประสิทธิภาพสูงสุดหรือความคุ้มค่า: H100 1 ตัว
- ราคาถูก: A100 80GB 1 ตัว
Stable Diffusion
- ประสิทธิภาพสูงสุด: H100 1 ตัว
- คุ้มค่า: 4090 1 ตัว
- ราคาถูก: 3090 1 ตัว
โฆษณา
Whisper
- เหมือนกับ Stable Diffusion
- Whisper-Large สามารถรันได้ด้วย VRAM ที่น้อยกว่า แต่คลาวด์ส่วนใหญ่ไม่มีการ์ดแบบนั้น
- 4090/3090 ก็ทำงานได้ดี และใช้ CPU ก็ได้
หากต้องการ fine-tune LLM ขนาดใหญ่
- H100 cluster หรือ A100 cluster
หากต้องการเทรน LLM ขนาดใหญ่
- H100 cluster ขนาดใหญ่
  หากใช้ GPU แบบโลคัล:
เกือบเหมือนด้านบน แต่ไม่สามารถเทรนหรือ fine-tune LLM ได้
LLM ส่วนใหญ่มีเวอร์ชันที่รันได้บน VRAM ขนาดเล็ก (Falcon บน 40GB)

ควรรันโมเดลบนเครื่องโลคัล หรือใช้ Cloud GPU?

ทั้งสองแบบเป็นตัวเลือกที่สมเหตุสมผล
หากต้องการรันโมเดลบนคลาวด์ ตัวเลือกที่ง่ายที่สุดคือ เทมเพลตของ Runpod
ตัวเลือกที่ง่ายที่สุดคือใช้อินสแตนซ์แบบโฮสต์: DreamStudio, RunDiffusion, Playground AI สำหรับ stable diffusion เป็นต้น

RTX 6000, A6000, 6000 Ada ต่างกันอย่างไร?

ทั้งสามตัวต่างกันโดยสิ้นเชิง

RTX 6000 (Quadro RTX 6000, VRAM 24 GB, เปิดตัว 2018/08/13)
RTX A6000 (VRAM 48 GB, เปิดตัว 2020/10/05)
RTX 6000 Ada (VRAM 48 GB, เปิดตัว 2022/12/03)

DGX GH200, GH200, H100?

DGX GH200 1 เครื่อง ประกอบด้วย GH200 จำนวน 256 ตัว
GH200 1 ตัว ประกอบด้วย H100 1 ตัว และ Grace CPU 1 ตัว

H100 เป็นการอัปเกรดครั้งใหญ่จาก A100 หรือไม่?

แน่นอน ความเร็วเพิ่มขึ้นมาก H100 สามารถขยายไปใช้ GPU จำนวนมากได้มากกว่า A100
กล่าวคือ สำหรับการเทรน LLM การใช้ H100 หลายตัวคือทางเลือกที่ดีที่สุด

แล้ว AMD, Intel, Cerebras ล่ะ?

ณ ตอนนี้ Nvidia ใช้งานได้ง่ายที่สุด

ควรใช้ GPU cloud เจ้าไหน?

หากต้องการ A100/H100 จำนวนมาก: ติดต่อ Oracle, FluidStack, Lambda Labs เป็นต้น
หากต้องการ A100 ไม่กี่ตัว: FluidStack หรือ Runpod
หากต้องการ H100 1 ตัว: FluidStack หรือ Lambda Labs
ถ้าต้องการ 3090s, 4090s, A6000s ราคาถูก: Tensordock
หากต้องการเพียง Stable Diffusion inference: Salad
หากต้องการ GPU หลายประเภท: Runpod หรือ FluidStack
หากต้องการใช้เทมเพลตหรือทำเป็นงานอดิเรก: Runpod
คลาวด์รายใหญ่มีราคาแพงและซับซ้อน

GPU Cloud ที่เริ่มต้นได้ง่ายที่สุด

ใช้เทมเพลตบน RunPod
โปรดทราบว่า RunPod pod ไม่ใช่ VM ที่มีฟังก์ชันครบถ้วน แต่เป็น Docker container บนเครื่องโฮสต์

ต้องใช้ VRAM, system RAM และ vCPU เท่าไร?

VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: แนะนำ 16GB+ ขึ้นไป
- Whisper: 12GB+ (หากใช้เวอร์ชันของ OpenAI จะประมาณนี้ ส่วนเวอร์ชันคอมมูนิตี้สามารถใช้ CPU ได้)
System ram
- 1~2 เท่าของ VRAM
vCPUs
- 8-16 vCPU ก็เพียงพอแล้ว เว้นแต่จะเป็นงาน GPU ขนาดใหญ่มาก
พื้นที่ดิสก์
ขึ้นอยู่กับ use case หากไม่แน่ใจ ให้เริ่มที่ 100GB แล้วดูว่าเหมาะกับ use case ของคุณหรือไม่

6 ความคิดเห็น

wlsdk318 2024-01-30

ฉันใช้ Runpod อยู่ ราคาถูก ใช้งานง่าย และดีมากเลย! ขอบคุณสำหรับข้อมูลดี ๆ ครับ

geekbini 2023-08-24

ข้อมูลดีมากเลย!

ninebow 2023-08-24

ดูเหมือนว่าจะมีส่วนเล็ก ๆ ด้านล่างหายไปประมาณ 2 หัวข้อ เลยลองเพิ่มเข้าไปครับ :)

ต้องใช้ SXM หรือ PCIe, NVLink ไหม?

ถ้ายังไม่แน่ใจ ให้สมมุติไว้ก่อนว่ายังไม่สำคัญ
หากต้องการดูรายละเอียดเพิ่มเติม: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

แล้ว InfiniBand ล่ะ?

หากใช้ GPU 1~2 ตัว ก็ไม่จำเป็น หากใช้คลัสเตอร์ระดับหลายพันตัวจึงค่อยจำเป็น