ต้นทุนการโฮสต์โมเดล Llama-3 8B-Instruct แบบเซลฟ์โฮสต์

xguru · 2024-06-17T10:08:01+09:00

ค่าใช้จ่ายในการโฮสต์โมเดลภาษาขนาดใหญ่ (LLM) เองมีเท่าไร? หากโฮสต์โมเดล Llama-3 8B-Instruct บน EKS จะมีค่าใช้จ่ายราว $17 ต่อ 1 ล้านโทเค็น หากใช้ ChatGPT สำหรับงานเดียวกัน จะมีค่าใช้จ่าย $1 ต่อ 1 ล้านโทเค็น หากเซลฟ์โฮสต์ด้วยฮาร์ดแวร์ของตัวเอง ต้นทุนต่อ 1 ล้านโทเค็นจะลดลงเหลือต่ำกว่า $0.01 และต้องใช้เวลาประมาณ 5.5 ปีจึงจะถึงจุดคุ้มทุน คำนวณจาก 4x NVidia Tesla T4 GPU และค่าใช้จ่ายฮาร์ดแวร์อื่น ๆ ($3800) + ค่าใช้จ่ายรายเดือน (ค่าไฟและอื่น ๆ) $100 กระบวนการตัดสินใจเลือกฮาร์ดแวร์ที่เหมาะสมที่สุด สภาพแวดล้อมการทดสอบ: การทดสอบทั้งหมดรันบนคลัสเตอร์ EKS ความพยายามครั้งแรก: อินสแตนซ์ AWS g4dn.2xlarge ที่ใช้ Nvidia Tesla T4 GPU สเปก: 1 NVidia Tesla T4, หน่วยความจำ 32GB, 8 vCPUs ผลลัพธ์: ไม่สามารถรัน Llama 3 เวอร์ชันพารามิเตอร์ 8B หรือ 70B ได้ ปัญหา: เกิด OOM (Out of Memory) และใช้เวลาตอบสนองประมาณ 10 นาที ความพยายามครั้งที่สอง: อินสแตนซ์ AWS g4dn.16xlarge ที่ใช้ Nvidia Tesla T4 GPU 4 ตัว สเปก: 4 NVidia Tesla T4, หน่วยความจำ 192GB, 48 vCPUs ผลลัพธ์: เวลาตอบสนองลดลงเหลือต่ำกว่า 10 วินาที การติดตั้งใช้งานช่วงแรก วิธีการติดตั้ง: คัดลอกโค้ด Llama-3 จาก Hugging Face มาใช้งาน การคำนวณต้นทุน: ค่าใช้อินสแตนซ์ g5dn.12xlarge: $3.912 ต่อชั่วโมง เมื่อคำนวณเป็นรายเดือน จะมีค่าใช้จ่ายราว $167.17 ต่อ 1 ล้านโทเค็น ค่าใช้จ่ายของ ChatGPT 3.5 Turbo: $1 ต่อ 1 ล้านโทเค็น การแก้ปัญหา การตระหนักถึงปัญหา: พบว่าวิธีเดิมไม่ถูกต้อง จึงเปลี่ยนมาใช้ vLLM ผลลัพธ์หลังปรับปรุง: ติดตั้ง ray และ vllm เพื่อโฮสต์ API server ใช้ออปชัน —tensor-parallel-size 4 เพื่อใช้งาน GPU ทั้ง 4 ตัว ผลลัพธ์: เวลาตอบสนองดีขึ้นมาก เหลือ 2044ms เมื่อคำนวณต้นทุน จะมีค่าใช้จ่ายราว $17 ต่อ 1 ล้านโทเค็น แนวทางทางเลือก โฮสต์ด้วยฮาร์ดแวร์ของตัวเอง: ฮาร์ดแวร์ที่ต้องใช้: 4x NVidia Tesla T4 GPU ราคาประมาณ $700 บน eBay รวมค่าใช้จ่ายอื่น ๆ แล้ว ต้นทุนติดตั้งรวมอยู่ที่ประมาณ $3,800 ค่าไฟต่อเดือนประมาณ $50 คำนวณค่าใช้จ่ายรวมต่อเดือนเป็นประมาณ $100 ต้องใช้เวลาประมาณ 66 เดือน (5.5 ปี) จึงจะถึงจุดคุ้มทุน สรุป ข้อดี: การโฮสต์ด้วยฮาร์ดแวร์ของตัวเองช่วยลดต้นทุนได้ ข้อเสีย: ต้องดูแลฮาร์ดแวร์และการสเกลระบบ สมมติฐานการใช้งาน 100% เป็นเรื่องไม่สมจริง จึงควรประเมินตามสภาพการใช้งานจริง

(blog.lytix.co)

15 คะแนน โดย xguru 2024-06-17 | 4 ความคิดเห็น | แชร์ทาง WhatsApp

ค่าใช้จ่ายในการโฮสต์โมเดลภาษาขนาดใหญ่ (LLM) เองมีเท่าไร?
หากโฮสต์โมเดล Llama-3 8B-Instruct บน EKS จะมีค่าใช้จ่ายราว $17 ต่อ 1 ล้านโทเค็น
หากใช้ ChatGPT สำหรับงานเดียวกัน จะมีค่าใช้จ่าย $1 ต่อ 1 ล้านโทเค็น
หากเซลฟ์โฮสต์ด้วยฮาร์ดแวร์ของตัวเอง ต้นทุนต่อ 1 ล้านโทเค็นจะลดลงเหลือต่ำกว่า $0.01 และต้องใช้เวลาประมาณ 5.5 ปีจึงจะถึงจุดคุ้มทุน
- คำนวณจาก 4x NVidia Tesla T4 GPU และค่าใช้จ่ายฮาร์ดแวร์อื่น ๆ ($3800) + ค่าใช้จ่ายรายเดือน (ค่าไฟและอื่น ๆ) $100

กระบวนการตัดสินใจเลือกฮาร์ดแวร์ที่เหมาะสมที่สุด

สภาพแวดล้อมการทดสอบ: การทดสอบทั้งหมดรันบนคลัสเตอร์ EKS
ความพยายามครั้งแรก: อินสแตนซ์ AWS g4dn.2xlarge ที่ใช้ Nvidia Tesla T4 GPU
- สเปก: 1 NVidia Tesla T4, หน่วยความจำ 32GB, 8 vCPUs
- ผลลัพธ์: ไม่สามารถรัน Llama 3 เวอร์ชันพารามิเตอร์ 8B หรือ 70B ได้
- ปัญหา: เกิด OOM (Out of Memory) และใช้เวลาตอบสนองประมาณ 10 นาที
โฆษณา
ความพยายามครั้งที่สอง: อินสแตนซ์ AWS g4dn.16xlarge ที่ใช้ Nvidia Tesla T4 GPU 4 ตัว
- สเปก: 4 NVidia Tesla T4, หน่วยความจำ 192GB, 48 vCPUs
- ผลลัพธ์: เวลาตอบสนองลดลงเหลือต่ำกว่า 10 วินาที

การติดตั้งใช้งานช่วงแรก

วิธีการติดตั้ง: คัดลอกโค้ด Llama-3 จาก Hugging Face มาใช้งาน
การคำนวณต้นทุน:
- ค่าใช้อินสแตนซ์ g5dn.12xlarge: $3.912 ต่อชั่วโมง
- เมื่อคำนวณเป็นรายเดือน จะมีค่าใช้จ่ายราว $167.17 ต่อ 1 ล้านโทเค็น
- ค่าใช้จ่ายของ ChatGPT 3.5 Turbo: $1 ต่อ 1 ล้านโทเค็น

การแก้ปัญหา

การตระหนักถึงปัญหา: พบว่าวิธีเดิมไม่ถูกต้อง จึงเปลี่ยนมาใช้ vLLM
ผลลัพธ์หลังปรับปรุง:
- ติดตั้ง ray และ vllm เพื่อโฮสต์ API server
- ใช้ออปชัน —tensor-parallel-size 4 เพื่อใช้งาน GPU ทั้ง 4 ตัว
- ผลลัพธ์: เวลาตอบสนองดีขึ้นมาก เหลือ 2044ms
- เมื่อคำนวณต้นทุน จะมีค่าใช้จ่ายราว $17 ต่อ 1 ล้านโทเค็น
โฆษณา

แนวทางทางเลือก

โฮสต์ด้วยฮาร์ดแวร์ของตัวเอง:
- ฮาร์ดแวร์ที่ต้องใช้: 4x NVidia Tesla T4 GPU ราคาประมาณ $700 บน eBay
- รวมค่าใช้จ่ายอื่น ๆ แล้ว ต้นทุนติดตั้งรวมอยู่ที่ประมาณ $3,800
- ค่าไฟต่อเดือนประมาณ $50
- คำนวณค่าใช้จ่ายรวมต่อเดือนเป็นประมาณ $100
- ต้องใช้เวลาประมาณ 66 เดือน (5.5 ปี) จึงจะถึงจุดคุ้มทุน

สรุป

ข้อดี: การโฮสต์ด้วยฮาร์ดแวร์ของตัวเองช่วยลดต้นทุนได้
ข้อเสีย: ต้องดูแลฮาร์ดแวร์และการสเกลระบบ
- สมมติฐานการใช้งาน 100% เป็นเรื่องไม่สมจริง จึงควรประเมินตามสภาพการใช้งานจริง

4 ความคิดเห็น

iolothebard 2024-06-17

ไม่ได้ถึงกับต้องสร้างโมเดลเองด้วยซ้ำ
แค่รัน inference ด้วย Llama 8B ก็ใช้อุปกรณ์แรงเกินไปแล้ว
ถ้าเป็น GPU 24GB (3090 หรือ 4090) ก็เพียงพอแล้ว (2–3 ล้านวอน) ค่าไฟต่อเดือนราว ๆ 30,000 วอนก็น่าจะพอ
พอเขียนแล้วดู เห็นว่ามีบอกไว้ข้างล่างแล้ว ฮ่า

wedding 2024-06-17

5.5 ปีก็นานอยู่นะ..

ragingwind 2024-06-17

โมเดล 8B สามารถใช้งานได้ในระดับที่มากกว่าแค่ของเล่นไหม?

xguru 2024-06-17

ความเห็นจาก Hacker News

หากโฮสต์ฮาร์ดแวร์เองแทน AWS จะลดต้นทุนได้มาก
- ใช้ NVidia Tesla T4 4 ใบ จะมีค่าใช้จ่ายประมาณ $3,800
- ถ้าใช้โมเดล Llama 3 8b ก็ใช้แค่ GPU 3090 หรือ 4090 เพียงใบเดียวก็พอ
- ซื้อ GPU จาก eBay ก็ช่วยประหยัดค่าใช้จ่ายได้
โมเดล Llama 8B บน AWS Bedrock มีราคาถูกกว่าโมเดลของ OpenAI โดยคิด $0.40 ต่อ 1M input tokens และ $0.60 ต่อ output token
- ต้องคำนึงถึงเวลาและค่าใช้จ่ายในการติดตั้งและบำรุงรักษาเซิร์ฟเวอร์ด้วย
ราคา Jetstream + Maxtext
- ราคาแบบผูกสัญญา 3 ปีเมื่อใช้ TPU v5e อยู่ที่ $0.25 ต่อ 1M tokens
- ราคาแบบ on-demand อยู่ที่ประมาณ $0.45 ต่อ 1M tokens
- ดูรายละเอียดเพิ่มเติมได้ในเซสชัน Google Next 2024
คาดการณ์ว่ามูลค่าตลาดของ NVIDIA จะลดลง
- มีความเป็นไปได้ว่ามูลค่าตลาดของ NVIDIA จะลดลง เมื่อประสิทธิภาพของ LLM เริ่มชะงัก และ LLM ถูกทำให้เป็นเชิงพาณิชย์
- ความต้องการคอมพิวต์สำหรับการเทรนก็น่าจะลดลงเร็วกว่าที่คาด
ปัญหาของการวิเคราะห์ต้นทุน
- การรันด้วย batch size 1 ทำให้การวิเคราะห์ต้นทุนคลาดเคลื่อนอย่างมาก
- แพงกว่าต้นทุนที่ผู้ให้บริการ API เรียกเก็บอยู่ 100 ถึง 1000 เท่า
ต้นทุนการรันโมเดล 8B
- ใช้ 3090 กับระบบพื้นฐานก็รันโมเดล 8B ได้สบาย
- ต้นทุนของ OpenAI กับ AWS ต่างกันมาก ($1 เทียบกับ $17)
- ในความเป็นจริง AWS อาจถูกกว่าก็ได้
ปัญหาในการทำความเข้าใจต้นทุน
- การพยายามทำความเข้าใจต้นทุนจากคำขอแบบ synchronous เดี่ยว ๆ นั้นไม่เหมาะสม
- ChatGPT ประมวลผลคำขอจำนวนมากแบบขนาน
- คำขอที่ใหญ่ขึ้น, คำขอพร้อมกัน, และการเข้าคิวคำขอ สามารถลดต้นทุนได้มาก
ต้นทุนในการเข้าถึง LLM
- ต้นทุนในการเข้าถึง LLM ต่ำมาก
- เมื่อเทียบกับความก้าวหน้าทางเทคโนโลยีแล้ว ต้นทุนถือว่าต่ำจนวิศวกรควรรู้สึกยินดี
T4 เป็นการ์ดที่มีอายุ 6 ปีแล้ว ดังนั้นการเปรียบเทียบกับ 3090, 4090, A10, A100 เป็นต้น จะเหมาะสมกว่า