คู่มือ Cloud GPU - ควรใช้ GPU ตัวไหน ที่ไหน สำหรับ AI?
(gpus.llm-utils.org)- หากสร้างเครื่องมือ AI โดยใช้ StableDiffusion, Whisper, LLM โอเพนซอร์ส เป็นต้น ก็จำเป็นต้องมีที่สำหรับรันอย่างต่อเนื่องจากที่ไหนสักแห่ง
ควรใช้ GPU ตัวไหน?
หากใช้ Cloud GPU:
- Falcon-40B, Falcon-40B-Uncensored หรือ Falcon-40B-Instruct
- ถ้าต้องการประสิทธิภาพสูงสุดโดยไม่สนค่าใช้จ่าย: H100 2 ตัว
- ถ้าต้องการสมดุลระหว่างราคาและประสิทธิภาพ: RTX 6000 Ada 2 ตัว (ไม่ใช่ A6000 หรือ RTX6000)
- ถ้าต้องการราคาถูก: A6000 2 ตัว
- MPT-30B
- ประสิทธิภาพสูงสุดหรือความคุ้มค่า: H100 1 ตัว
- ราคาถูก: A100 80GB 1 ตัว
- Stable Diffusion
- ประสิทธิภาพสูงสุด: H100 1 ตัว
- คุ้มค่า: 4090 1 ตัว
- ราคาถูก: 3090 1 ตัว
- Whisper
- เหมือนกับ Stable Diffusion
- Whisper-Large สามารถรันได้ด้วย VRAM ที่น้อยกว่า แต่คลาวด์ส่วนใหญ่ไม่มีการ์ดแบบนั้น
- 4090/3090 ก็ทำงานได้ดี และใช้ CPU ก็ได้
- หากต้องการ fine-tune LLM ขนาดใหญ่
- H100 cluster หรือ A100 cluster
- หากต้องการเทรน LLM ขนาดใหญ่
- H100 cluster ขนาดใหญ่
หากใช้ GPU แบบโลคัล:
- H100 cluster ขนาดใหญ่
- เกือบเหมือนด้านบน แต่ไม่สามารถเทรนหรือ fine-tune LLM ได้
- LLM ส่วนใหญ่มีเวอร์ชันที่รันได้บน VRAM ขนาดเล็ก (Falcon บน 40GB)
ควรรันโมเดลบนเครื่องโลคัล หรือใช้ Cloud GPU?
- ทั้งสองแบบเป็นตัวเลือกที่สมเหตุสมผล
- หากต้องการรันโมเดลบนคลาวด์ ตัวเลือกที่ง่ายที่สุดคือ เทมเพลตของ Runpod
- ตัวเลือกที่ง่ายที่สุดคือใช้อินสแตนซ์แบบโฮสต์: DreamStudio, RunDiffusion, Playground AI สำหรับ stable diffusion เป็นต้น
RTX 6000, A6000, 6000 Ada ต่างกันอย่างไร?
ทั้งสามตัวต่างกันโดยสิ้นเชิง
- RTX 6000 (Quadro RTX 6000, VRAM 24 GB, เปิดตัว 2018/08/13)
- RTX A6000 (VRAM 48 GB, เปิดตัว 2020/10/05)
- RTX 6000 Ada (VRAM 48 GB, เปิดตัว 2022/12/03)
DGX GH200, GH200, H100?
- DGX GH200 1 เครื่อง ประกอบด้วย GH200 จำนวน 256 ตัว
- GH200 1 ตัว ประกอบด้วย H100 1 ตัว และ Grace CPU 1 ตัว
H100 เป็นการอัปเกรดครั้งใหญ่จาก A100 หรือไม่?
- แน่นอน ความเร็วเพิ่มขึ้นมาก H100 สามารถขยายไปใช้ GPU จำนวนมากได้มากกว่า A100
- กล่าวคือ สำหรับการเทรน LLM การใช้ H100 หลายตัวคือทางเลือกที่ดีที่สุด
แล้ว AMD, Intel, Cerebras ล่ะ?
- ณ ตอนนี้ Nvidia ใช้งานได้ง่ายที่สุด
ควรใช้ GPU cloud เจ้าไหน?
- หากต้องการ A100/H100 จำนวนมาก: ติดต่อ Oracle, FluidStack, Lambda Labs เป็นต้น
- หากต้องการ A100 ไม่กี่ตัว: FluidStack หรือ Runpod
- หากต้องการ H100 1 ตัว: FluidStack หรือ Lambda Labs
- ถ้าต้องการ 3090s, 4090s, A6000s ราคาถูก: Tensordock
- หากต้องการเพียง Stable Diffusion inference: Salad
- หากต้องการ GPU หลายประเภท: Runpod หรือ FluidStack
- หากต้องการใช้เทมเพลตหรือทำเป็นงานอดิเรก: Runpod
- คลาวด์รายใหญ่มีราคาแพงและซับซ้อน
GPU Cloud ที่เริ่มต้นได้ง่ายที่สุด
- ใช้เทมเพลตบน RunPod
- โปรดทราบว่า RunPod pod ไม่ใช่ VM ที่มีฟังก์ชันครบถ้วน แต่เป็น Docker container บนเครื่องโฮสต์
ต้องใช้ VRAM, system RAM และ vCPU เท่าไร?
- VRAM (Video RAM / GPU RAM)
- Falcon-40B: 85-100GB
- MPT-30B: 80GB
- Stable Diffusion: แนะนำ 16GB+ ขึ้นไป
- Whisper: 12GB+ (หากใช้เวอร์ชันของ OpenAI จะประมาณนี้ ส่วนเวอร์ชันคอมมูนิตี้สามารถใช้ CPU ได้)
- System ram
- 1~2 เท่าของ VRAM
- vCPUs
- 8-16 vCPU ก็เพียงพอแล้ว เว้นแต่จะเป็นงาน GPU ขนาดใหญ่มาก
- พื้นที่ดิสก์
- ขึ้นอยู่กับ use case หากไม่แน่ใจ ให้เริ่มที่ 100GB แล้วดูว่าเหมาะกับ use case ของคุณหรือไม่
6 ความคิดเห็น
ฉันใช้ Runpod อยู่ ราคาถูก ใช้งานง่าย และดีมากเลย! ขอบคุณสำหรับข้อมูลดี ๆ ครับ
ข้อมูลดีมากเลย!
ดูเหมือนว่าจะมีส่วนเล็ก ๆ ด้านล่างหายไปประมาณ 2 หัวข้อ เลยลองเพิ่มเข้าไปครับ :)
ต้องใช้ SXM หรือ PCIe, NVLink ไหม?
แล้ว InfiniBand ล่ะ?
ขอบคุณสำหรับบทความดีๆ ครับ!
น่าจะเป็นข้อมูลที่มีคุณค่ามากสำหรับผู้ที่เกี่ยวข้อง
โอ้ เป็นข้อมูลที่มีประโยชน์มากเลยครับ