AI ที่ให้บริการจากห้องใต้ดิน – 192GB + 8x RTX 3090

(ahmadosman.com)

3 คะแนน โดย GN⁺ 2024-09-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เมื่อการทดลอง LLM ส่วนตัวขยายตัวขึ้น จึงสร้างเซิร์ฟเวอร์ AI เฉพาะทางไว้ที่บ้านเอง พร้อม 8x RTX 3090 และ 192GB VRAM รวม
สภาพแวดล้อมเดิมที่มี 48GB VRAM เริ่มตามการทดลองไม่ทัน จึงขยายเป็นโหนดหลาย GPU โดยคำนึงถึงการรัน Llama-3.1 405B ของ Meta ด้วย
องค์ประกอบหลักคือ Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, DDR4-3200 RDIMM 512GB, พาวเวอร์ซัพพลาย 1600W 3 ตัว และ RTX 3090 8 ตัวที่เชื่อมเป็นคู่ด้วย 4x NVLink
NVLink ให้อัตราการถ่ายโอน 112GB/s ต่อคู่ GPU และคอขวดอย่าง PCIe lanes, riser, inference engine และ fine-tuning ยังเป็นหัวข้อสำคัญในบทความถัดไป
การสร้างเซิร์ฟเวอร์ LLM ขนาดใหญ่สำหรับใช้ในบ้านนั้นทำได้ แต่มีจุดยากในการประกอบและค่าใช้จ่ายสูงที่ทำให้พลาดได้มาก การเลือกฮาร์ดแวร์และกระบวนการตรวจสอบจึงเป็นตัวชี้ขาดความสำเร็จ

เป้าหมายของเซิร์ฟเวอร์ LLM ในห้องใต้ดิน

ไซด์โปรเจกต์ล่าสุด AI from The Basement เป็นเซิร์ฟเวอร์ LLM เฉพาะทางที่มีการ์ดจอ 8x RTX 3090 และ VRAM รวม 192GB
หนึ่งในเป้าหมายคือการรัน Llama-3.1 405B ของ Meta
เดิมใช้ VRAM 48GB สำหรับการทดลอง LLM แต่ราวเดือนมีนาคม 2024 ตัดสินว่าความจุระดับนี้เริ่มตามการทดลองไม่ทัน
ในกระบวนการเลือกฮาร์ดแวร์ ได้พิจารณา CPU และแพลตฟอร์ม, ความเร็วหน่วยความจำ, จำนวน PCIe lanes, การจัดชุด GPU จำนวน 2^n ตัว, tensor parallelism และการเลือก inference engine ไปพร้อมกัน

ประเด็นด้านการจัดฮาร์ดแวร์และกระบวนการสร้าง

แพลตฟอร์มสุดท้ายประกอบด้วยเมนบอร์ดระดับเซิร์ฟเวอร์, CPU EPYC, หน่วยความจำขนาดใหญ่, พาวเวอร์ซัพพลายหลายตัว และ GPU 8 ตัว
- เมนบอร์ด Asrock Rack ROMED8-2T: สล็อต 7x PCIe 4.0 x16, PCIe lanes 128 เลน
- CPU AMD Epyc Milan 7713: 2.00GHz, บูสต์ 3.675GHz, 64 คอร์/128 เธรด
- หน่วยความจำ 512GB DDR4-3200 3DS RDIMM
- พาวเวอร์ซัพพลาย 1600W 3 ตัว
- GPU 8x RTX 3090 และ 4x NVLink
NVLink ให้อัตราการถ่ายโอนข้อมูล 112GB/s ระหว่าง GPU แต่ละคู่
ในการประกอบจริงเกิดปัญหาทางกายภาพ เช่น การเจาะรูบนโครงโลหะ, การเพิ่มเบรกเกอร์ 30A 240V และขาในซ็อกเก็ต CPU งอ
ยังกล่าวถึงความสำคัญของ SAS Device Adapter, Redriver และ Retimer เพื่อแก้ปัญหา PCIe riser และให้การเชื่อมต่อ PCIe ปราศจากข้อผิดพลาด
ในบทความถัดไปจะกล่าวต่อถึงความเร็วของ NVLink, แบนด์วิดท์ของ PCIe lanes, ความเร็วการถ่ายโอน VRAM และการตัดสินใจของ Nvidia ที่บล็อกแบนด์วิดท์ P2P native PCIe ในระดับซอฟต์แวร์
เบนช์มาร์ก inference engine ที่รองรับ tensor parallelism เช่น TensorRT-LLM, vLLM, Aphrodite Engine รวมถึงการฝึกและ fine-tuning LLM เอง ยังเป็นหัวข้อถัดไปด้วย
ยกตัวอย่างพัฒนาการทางเทคโนโลยี โดยเปรียบเทียบกับประสบการณ์ในปี 2004 ที่เคยดีใจกับ HDD 60GB แต่ 20 ปีต่อมากลับมีความจุมากกว่านั้นเกินสามเท่าอยู่ในการ์ดจอของเครื่องเดียว
จุดประสงค์ของโปรเจกต์คือการมีส่วนช่วยสร้างสิ่งเจ๋ง ๆ ที่จะเกิดขึ้นในอนาคต และเชื่อว่าสักวันหนึ่งอาจมองย้อนกลับมาว่า VRAM 192GB ก็ไม่ได้มากมาย
Part II of this Blogpost Series เป็นบทความต่อเนื่อง

1 ความคิดเห็น

brainer 2024-09-09

ได้แค่อิจฉาเฉย ๆ..

AI ที่ให้บริการจากห้องใต้ดิน – 192GB + 8x RTX 3090

เป้าหมายของเซิร์ฟเวอร์ LLM ในห้องใต้ดิน

ประเด็นด้านการจัดฮาร์ดแวร์และกระบวนการสร้าง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น