15 คะแนน โดย xguru 2024-06-17 | 4 ความคิดเห็น | แชร์ทาง WhatsApp
  • ค่าใช้จ่ายในการโฮสต์โมเดลภาษาขนาดใหญ่ (LLM) เองมีเท่าไร?
  • หากโฮสต์โมเดล Llama-3 8B-Instruct บน EKS จะมีค่าใช้จ่ายราว $17 ต่อ 1 ล้านโทเค็น
  • หากใช้ ChatGPT สำหรับงานเดียวกัน จะมีค่าใช้จ่าย $1 ต่อ 1 ล้านโทเค็น
  • หากเซลฟ์โฮสต์ด้วยฮาร์ดแวร์ของตัวเอง ต้นทุนต่อ 1 ล้านโทเค็นจะลดลงเหลือต่ำกว่า $0.01 และต้องใช้เวลาประมาณ 5.5 ปีจึงจะถึงจุดคุ้มทุน
    • คำนวณจาก 4x NVidia Tesla T4 GPU และค่าใช้จ่ายฮาร์ดแวร์อื่น ๆ ($3800) + ค่าใช้จ่ายรายเดือน (ค่าไฟและอื่น ๆ) $100

กระบวนการตัดสินใจเลือกฮาร์ดแวร์ที่เหมาะสมที่สุด

  • สภาพแวดล้อมการทดสอบ: การทดสอบทั้งหมดรันบนคลัสเตอร์ EKS

  • ความพยายามครั้งแรก: อินสแตนซ์ AWS g4dn.2xlarge ที่ใช้ Nvidia Tesla T4 GPU

    • สเปก: 1 NVidia Tesla T4, หน่วยความจำ 32GB, 8 vCPUs
    • ผลลัพธ์: ไม่สามารถรัน Llama 3 เวอร์ชันพารามิเตอร์ 8B หรือ 70B ได้
    • ปัญหา: เกิด OOM (Out of Memory) และใช้เวลาตอบสนองประมาณ 10 นาที
  • ความพยายามครั้งที่สอง: อินสแตนซ์ AWS g4dn.16xlarge ที่ใช้ Nvidia Tesla T4 GPU 4 ตัว

    • สเปก: 4 NVidia Tesla T4, หน่วยความจำ 192GB, 48 vCPUs
    • ผลลัพธ์: เวลาตอบสนองลดลงเหลือต่ำกว่า 10 วินาที

การติดตั้งใช้งานช่วงแรก

  • วิธีการติดตั้ง: คัดลอกโค้ด Llama-3 จาก Hugging Face มาใช้งาน
  • การคำนวณต้นทุน:
    • ค่าใช้อินสแตนซ์ g5dn.12xlarge: $3.912 ต่อชั่วโมง
    • เมื่อคำนวณเป็นรายเดือน จะมีค่าใช้จ่ายราว $167.17 ต่อ 1 ล้านโทเค็น
    • ค่าใช้จ่ายของ ChatGPT 3.5 Turbo: $1 ต่อ 1 ล้านโทเค็น

การแก้ปัญหา

  • การตระหนักถึงปัญหา: พบว่าวิธีเดิมไม่ถูกต้อง จึงเปลี่ยนมาใช้ vLLM
  • ผลลัพธ์หลังปรับปรุง:
    • ติดตั้ง ray และ vllm เพื่อโฮสต์ API server
    • ใช้ออปชัน —tensor-parallel-size 4 เพื่อใช้งาน GPU ทั้ง 4 ตัว
    • ผลลัพธ์: เวลาตอบสนองดีขึ้นมาก เหลือ 2044ms
    • เมื่อคำนวณต้นทุน จะมีค่าใช้จ่ายราว $17 ต่อ 1 ล้านโทเค็น

แนวทางทางเลือก

  • โฮสต์ด้วยฮาร์ดแวร์ของตัวเอง:
    • ฮาร์ดแวร์ที่ต้องใช้: 4x NVidia Tesla T4 GPU ราคาประมาณ $700 บน eBay
    • รวมค่าใช้จ่ายอื่น ๆ แล้ว ต้นทุนติดตั้งรวมอยู่ที่ประมาณ $3,800
    • ค่าไฟต่อเดือนประมาณ $50
    • คำนวณค่าใช้จ่ายรวมต่อเดือนเป็นประมาณ $100
    • ต้องใช้เวลาประมาณ 66 เดือน (5.5 ปี) จึงจะถึงจุดคุ้มทุน

สรุป

  • ข้อดี: การโฮสต์ด้วยฮาร์ดแวร์ของตัวเองช่วยลดต้นทุนได้
  • ข้อเสีย: ต้องดูแลฮาร์ดแวร์และการสเกลระบบ
    • สมมติฐานการใช้งาน 100% เป็นเรื่องไม่สมจริง จึงควรประเมินตามสภาพการใช้งานจริง

4 ความคิดเห็น

 
iolothebard 2024-06-17

ไม่ได้ถึงกับต้องสร้างโมเดลเองด้วยซ้ำ
แค่รัน inference ด้วย Llama 8B ก็ใช้อุปกรณ์แรงเกินไปแล้ว
ถ้าเป็น GPU 24GB (3090 หรือ 4090) ก็เพียงพอแล้ว (2–3 ล้านวอน) ค่าไฟต่อเดือนราว ๆ 30,000 วอนก็น่าจะพอ
พอเขียนแล้วดู เห็นว่ามีบอกไว้ข้างล่างแล้ว ฮ่า

 
wedding 2024-06-17

5.5 ปีก็นานอยู่นะ..

 
ragingwind 2024-06-17

โมเดล 8B สามารถใช้งานได้ในระดับที่มากกว่าแค่ของเล่นไหม?

 
xguru 2024-06-17

ความเห็นจาก Hacker News

  • หากโฮสต์ฮาร์ดแวร์เองแทน AWS จะลดต้นทุนได้มาก
    • ใช้ NVidia Tesla T4 4 ใบ จะมีค่าใช้จ่ายประมาณ $3,800
    • ถ้าใช้โมเดล Llama 3 8b ก็ใช้แค่ GPU 3090 หรือ 4090 เพียงใบเดียวก็พอ
    • ซื้อ GPU จาก eBay ก็ช่วยประหยัดค่าใช้จ่ายได้
  • โมเดล Llama 8B บน AWS Bedrock มีราคาถูกกว่าโมเดลของ OpenAI โดยคิด $0.40 ต่อ 1M input tokens และ $0.60 ต่อ output token
    • ต้องคำนึงถึงเวลาและค่าใช้จ่ายในการติดตั้งและบำรุงรักษาเซิร์ฟเวอร์ด้วย
  • ราคา Jetstream + Maxtext
    • ราคาแบบผูกสัญญา 3 ปีเมื่อใช้ TPU v5e อยู่ที่ $0.25 ต่อ 1M tokens
    • ราคาแบบ on-demand อยู่ที่ประมาณ $0.45 ต่อ 1M tokens
    • ดูรายละเอียดเพิ่มเติมได้ในเซสชัน Google Next 2024
  • คาดการณ์ว่ามูลค่าตลาดของ NVIDIA จะลดลง
    • มีความเป็นไปได้ว่ามูลค่าตลาดของ NVIDIA จะลดลง เมื่อประสิทธิภาพของ LLM เริ่มชะงัก และ LLM ถูกทำให้เป็นเชิงพาณิชย์
    • ความต้องการคอมพิวต์สำหรับการเทรนก็น่าจะลดลงเร็วกว่าที่คาด
  • ปัญหาของการวิเคราะห์ต้นทุน
    • การรันด้วย batch size 1 ทำให้การวิเคราะห์ต้นทุนคลาดเคลื่อนอย่างมาก
    • แพงกว่าต้นทุนที่ผู้ให้บริการ API เรียกเก็บอยู่ 100 ถึง 1000 เท่า
  • ต้นทุนการรันโมเดล 8B
    • ใช้ 3090 กับระบบพื้นฐานก็รันโมเดล 8B ได้สบาย
    • ต้นทุนของ OpenAI กับ AWS ต่างกันมาก ($1 เทียบกับ $17)
    • ในความเป็นจริง AWS อาจถูกกว่าก็ได้
  • ปัญหาในการทำความเข้าใจต้นทุน
    • การพยายามทำความเข้าใจต้นทุนจากคำขอแบบ synchronous เดี่ยว ๆ นั้นไม่เหมาะสม
    • ChatGPT ประมวลผลคำขอจำนวนมากแบบขนาน
    • คำขอที่ใหญ่ขึ้น, คำขอพร้อมกัน, และการเข้าคิวคำขอ สามารถลดต้นทุนได้มาก
  • ต้นทุนในการเข้าถึง LLM
    • ต้นทุนในการเข้าถึง LLM ต่ำมาก
    • เมื่อเทียบกับความก้าวหน้าทางเทคโนโลยีแล้ว ต้นทุนถือว่าต่ำจนวิศวกรควรรู้สึกยินดี
  • T4 เป็นการ์ดที่มีอายุ 6 ปีแล้ว ดังนั้นการเปรียบเทียบกับ 3090, 4090, A10, A100 เป็นต้น จะเหมาะสมกว่า