ต้นทุนการโฮสต์โมเดล Llama-3 8B-Instruct แบบเซลฟ์โฮสต์
(blog.lytix.co)- ค่าใช้จ่ายในการโฮสต์โมเดลภาษาขนาดใหญ่ (LLM) เองมีเท่าไร?
- หากโฮสต์โมเดล Llama-3 8B-Instruct บน EKS จะมีค่าใช้จ่ายราว $17 ต่อ 1 ล้านโทเค็น
- หากใช้ ChatGPT สำหรับงานเดียวกัน จะมีค่าใช้จ่าย $1 ต่อ 1 ล้านโทเค็น
- หากเซลฟ์โฮสต์ด้วยฮาร์ดแวร์ของตัวเอง ต้นทุนต่อ 1 ล้านโทเค็นจะลดลงเหลือต่ำกว่า $0.01 และต้องใช้เวลาประมาณ 5.5 ปีจึงจะถึงจุดคุ้มทุน
- คำนวณจาก 4x NVidia Tesla T4 GPU และค่าใช้จ่ายฮาร์ดแวร์อื่น ๆ ($3800) + ค่าใช้จ่ายรายเดือน (ค่าไฟและอื่น ๆ) $100
กระบวนการตัดสินใจเลือกฮาร์ดแวร์ที่เหมาะสมที่สุด
-
สภาพแวดล้อมการทดสอบ: การทดสอบทั้งหมดรันบนคลัสเตอร์ EKS
-
ความพยายามครั้งแรก: อินสแตนซ์ AWS
g4dn.2xlargeที่ใช้ Nvidia Tesla T4 GPU- สเปก: 1 NVidia Tesla T4, หน่วยความจำ 32GB, 8 vCPUs
- ผลลัพธ์: ไม่สามารถรัน Llama 3 เวอร์ชันพารามิเตอร์ 8B หรือ 70B ได้
- ปัญหา: เกิด OOM (Out of Memory) และใช้เวลาตอบสนองประมาณ 10 นาที
-
ความพยายามครั้งที่สอง: อินสแตนซ์ AWS
g4dn.16xlargeที่ใช้ Nvidia Tesla T4 GPU 4 ตัว- สเปก: 4 NVidia Tesla T4, หน่วยความจำ 192GB, 48 vCPUs
- ผลลัพธ์: เวลาตอบสนองลดลงเหลือต่ำกว่า 10 วินาที
การติดตั้งใช้งานช่วงแรก
- วิธีการติดตั้ง: คัดลอกโค้ด Llama-3 จาก Hugging Face มาใช้งาน
- การคำนวณต้นทุน:
- ค่าใช้อินสแตนซ์
g5dn.12xlarge: $3.912 ต่อชั่วโมง - เมื่อคำนวณเป็นรายเดือน จะมีค่าใช้จ่ายราว $167.17 ต่อ 1 ล้านโทเค็น
- ค่าใช้จ่ายของ ChatGPT 3.5 Turbo: $1 ต่อ 1 ล้านโทเค็น
- ค่าใช้อินสแตนซ์
การแก้ปัญหา
- การตระหนักถึงปัญหา: พบว่าวิธีเดิมไม่ถูกต้อง จึงเปลี่ยนมาใช้
vLLM - ผลลัพธ์หลังปรับปรุง:
- ติดตั้ง
rayและvllmเพื่อโฮสต์ API server - ใช้ออปชัน
—tensor-parallel-size 4เพื่อใช้งาน GPU ทั้ง 4 ตัว - ผลลัพธ์: เวลาตอบสนองดีขึ้นมาก เหลือ 2044ms
- เมื่อคำนวณต้นทุน จะมีค่าใช้จ่ายราว $17 ต่อ 1 ล้านโทเค็น
- ติดตั้ง
แนวทางทางเลือก
- โฮสต์ด้วยฮาร์ดแวร์ของตัวเอง:
- ฮาร์ดแวร์ที่ต้องใช้: 4x NVidia Tesla T4 GPU ราคาประมาณ $700 บน eBay
- รวมค่าใช้จ่ายอื่น ๆ แล้ว ต้นทุนติดตั้งรวมอยู่ที่ประมาณ $3,800
- ค่าไฟต่อเดือนประมาณ $50
- คำนวณค่าใช้จ่ายรวมต่อเดือนเป็นประมาณ $100
- ต้องใช้เวลาประมาณ 66 เดือน (5.5 ปี) จึงจะถึงจุดคุ้มทุน
สรุป
- ข้อดี: การโฮสต์ด้วยฮาร์ดแวร์ของตัวเองช่วยลดต้นทุนได้
- ข้อเสีย: ต้องดูแลฮาร์ดแวร์และการสเกลระบบ
- สมมติฐานการใช้งาน 100% เป็นเรื่องไม่สมจริง จึงควรประเมินตามสภาพการใช้งานจริง
4 ความคิดเห็น
ไม่ได้ถึงกับต้องสร้างโมเดลเองด้วยซ้ำ
แค่รัน inference ด้วย Llama 8B ก็ใช้อุปกรณ์แรงเกินไปแล้ว
ถ้าเป็น GPU 24GB (3090 หรือ 4090) ก็เพียงพอแล้ว (2–3 ล้านวอน) ค่าไฟต่อเดือนราว ๆ 30,000 วอนก็น่าจะพอ
พอเขียนแล้วดู เห็นว่ามีบอกไว้ข้างล่างแล้ว ฮ่า
5.5 ปีก็นานอยู่นะ..
โมเดล 8B สามารถใช้งานได้ในระดับที่มากกว่าแค่ของเล่นไหม?
ความเห็นจาก Hacker News