37 คะแนน โดย xguru 2023-08-23 | 6 ความคิดเห็น | แชร์ทาง WhatsApp
  • หากสร้างเครื่องมือ AI โดยใช้ StableDiffusion, Whisper, LLM โอเพนซอร์ส เป็นต้น ก็จำเป็นต้องมีที่สำหรับรันอย่างต่อเนื่องจากที่ไหนสักแห่ง

ควรใช้ GPU ตัวไหน?

หากใช้ Cloud GPU:

  • Falcon-40B, Falcon-40B-Uncensored หรือ Falcon-40B-Instruct
    • ถ้าต้องการประสิทธิภาพสูงสุดโดยไม่สนค่าใช้จ่าย: H100 2 ตัว
    • ถ้าต้องการสมดุลระหว่างราคาและประสิทธิภาพ: RTX 6000 Ada 2 ตัว (ไม่ใช่ A6000 หรือ RTX6000)
    • ถ้าต้องการราคาถูก: A6000 2 ตัว
  • MPT-30B
    • ประสิทธิภาพสูงสุดหรือความคุ้มค่า: H100 1 ตัว
    • ราคาถูก: A100 80GB 1 ตัว
  • Stable Diffusion
    • ประสิทธิภาพสูงสุด: H100 1 ตัว
    • คุ้มค่า: 4090 1 ตัว
    • ราคาถูก: 3090 1 ตัว
  • Whisper
    • เหมือนกับ Stable Diffusion
    • Whisper-Large สามารถรันได้ด้วย VRAM ที่น้อยกว่า แต่คลาวด์ส่วนใหญ่ไม่มีการ์ดแบบนั้น
    • 4090/3090 ก็ทำงานได้ดี และใช้ CPU ก็ได้
  • หากต้องการ fine-tune LLM ขนาดใหญ่
    • H100 cluster หรือ A100 cluster
  • หากต้องการเทรน LLM ขนาดใหญ่
    • H100 cluster ขนาดใหญ่
      หากใช้ GPU แบบโลคัล:
  • เกือบเหมือนด้านบน แต่ไม่สามารถเทรนหรือ fine-tune LLM ได้
  • LLM ส่วนใหญ่มีเวอร์ชันที่รันได้บน VRAM ขนาดเล็ก (Falcon บน 40GB)

ควรรันโมเดลบนเครื่องโลคัล หรือใช้ Cloud GPU?

  • ทั้งสองแบบเป็นตัวเลือกที่สมเหตุสมผล
  • หากต้องการรันโมเดลบนคลาวด์ ตัวเลือกที่ง่ายที่สุดคือ เทมเพลตของ Runpod
  • ตัวเลือกที่ง่ายที่สุดคือใช้อินสแตนซ์แบบโฮสต์: DreamStudio, RunDiffusion, Playground AI สำหรับ stable diffusion เป็นต้น

RTX 6000, A6000, 6000 Ada ต่างกันอย่างไร?

ทั้งสามตัวต่างกันโดยสิ้นเชิง

  • RTX 6000 (Quadro RTX 6000, VRAM 24 GB, เปิดตัว 2018/08/13)
  • RTX A6000 (VRAM 48 GB, เปิดตัว 2020/10/05)
  • RTX 6000 Ada (VRAM 48 GB, เปิดตัว 2022/12/03)

DGX GH200, GH200, H100?

  • DGX GH200 1 เครื่อง ประกอบด้วย GH200 จำนวน 256 ตัว
  • GH200 1 ตัว ประกอบด้วย H100 1 ตัว และ Grace CPU 1 ตัว

H100 เป็นการอัปเกรดครั้งใหญ่จาก A100 หรือไม่?

  • แน่นอน ความเร็วเพิ่มขึ้นมาก H100 สามารถขยายไปใช้ GPU จำนวนมากได้มากกว่า A100
  • กล่าวคือ สำหรับการเทรน LLM การใช้ H100 หลายตัวคือทางเลือกที่ดีที่สุด

แล้ว AMD, Intel, Cerebras ล่ะ?

  • ณ ตอนนี้ Nvidia ใช้งานได้ง่ายที่สุด

ควรใช้ GPU cloud เจ้าไหน?

  • หากต้องการ A100/H100 จำนวนมาก: ติดต่อ Oracle, FluidStack, Lambda Labs เป็นต้น
  • หากต้องการ A100 ไม่กี่ตัว: FluidStack หรือ Runpod
  • หากต้องการ H100 1 ตัว: FluidStack หรือ Lambda Labs
  • ถ้าต้องการ 3090s, 4090s, A6000s ราคาถูก: Tensordock
  • หากต้องการเพียง Stable Diffusion inference: Salad
  • หากต้องการ GPU หลายประเภท: Runpod หรือ FluidStack
  • หากต้องการใช้เทมเพลตหรือทำเป็นงานอดิเรก: Runpod
  • คลาวด์รายใหญ่มีราคาแพงและซับซ้อน

GPU Cloud ที่เริ่มต้นได้ง่ายที่สุด

  • ใช้เทมเพลตบน RunPod
  • โปรดทราบว่า RunPod pod ไม่ใช่ VM ที่มีฟังก์ชันครบถ้วน แต่เป็น Docker container บนเครื่องโฮสต์

ต้องใช้ VRAM, system RAM และ vCPU เท่าไร?

  • VRAM (Video RAM / GPU RAM)
    • Falcon-40B: 85-100GB
    • MPT-30B: 80GB
    • Stable Diffusion: แนะนำ 16GB+ ขึ้นไป
    • Whisper: 12GB+ (หากใช้เวอร์ชันของ OpenAI จะประมาณนี้ ส่วนเวอร์ชันคอมมูนิตี้สามารถใช้ CPU ได้)
  • System ram
    • 1~2 เท่าของ VRAM
  • vCPUs
    • 8-16 vCPU ก็เพียงพอแล้ว เว้นแต่จะเป็นงาน GPU ขนาดใหญ่มาก
  • พื้นที่ดิสก์
  • ขึ้นอยู่กับ use case หากไม่แน่ใจ ให้เริ่มที่ 100GB แล้วดูว่าเหมาะกับ use case ของคุณหรือไม่

6 ความคิดเห็น

 
wlsdk318 2024-01-30

ฉันใช้ Runpod อยู่ ราคาถูก ใช้งานง่าย และดีมากเลย! ขอบคุณสำหรับข้อมูลดี ๆ ครับ

 
geekbini 2023-08-24

ข้อมูลดีมากเลย!

 
ninebow 2023-08-24

ดูเหมือนว่าจะมีส่วนเล็ก ๆ ด้านล่างหายไปประมาณ 2 หัวข้อ เลยลองเพิ่มเข้าไปครับ :)


ต้องใช้ SXM หรือ PCIe, NVLink ไหม?

  • ถ้ายังไม่แน่ใจ ให้สมมุติไว้ก่อนว่ายังไม่สำคัญ
  • หากต้องการดูรายละเอียดเพิ่มเติม: https://gpus.llm-utils.org/nvlink-sxm-and-pcie/

แล้ว InfiniBand ล่ะ?

  • หากใช้ GPU 1~2 ตัว ก็ไม่จำเป็น หากใช้คลัสเตอร์ระดับหลายพันตัวจึงค่อยจำเป็น
 
ninebow 2023-08-24

ขอบคุณสำหรับบทความดีๆ ครับ!

 
nicewook 2023-08-23

น่าจะเป็นข้อมูลที่มีคุณค่ามากสำหรับผู้ที่เกี่ยวข้อง

 
ragingwind 2023-08-23

โอ้ เป็นข้อมูลที่มีประโยชน์มากเลยครับ