AI ที่ให้บริการจากห้องใต้ดิน – 192GB + 8x RTX 3090
(ahmadosman.com)- เมื่อการทดลอง LLM ส่วนตัวขยายตัวขึ้น จึงสร้างเซิร์ฟเวอร์ AI เฉพาะทางไว้ที่บ้านเอง พร้อม 8x RTX 3090 และ 192GB VRAM รวม
- สภาพแวดล้อมเดิมที่มี 48GB VRAM เริ่มตามการทดลองไม่ทัน จึงขยายเป็นโหนดหลาย GPU โดยคำนึงถึงการรัน Llama-3.1 405B ของ Meta ด้วย
- องค์ประกอบหลักคือ Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, DDR4-3200 RDIMM 512GB, พาวเวอร์ซัพพลาย 1600W 3 ตัว และ RTX 3090 8 ตัวที่เชื่อมเป็นคู่ด้วย 4x NVLink
- NVLink ให้อัตราการถ่ายโอน 112GB/s ต่อคู่ GPU และคอขวดอย่าง PCIe lanes, riser, inference engine และ fine-tuning ยังเป็นหัวข้อสำคัญในบทความถัดไป
- การสร้างเซิร์ฟเวอร์ LLM ขนาดใหญ่สำหรับใช้ในบ้านนั้นทำได้ แต่มีจุดยากในการประกอบและค่าใช้จ่ายสูงที่ทำให้พลาดได้มาก การเลือกฮาร์ดแวร์และกระบวนการตรวจสอบจึงเป็นตัวชี้ขาดความสำเร็จ
เป้าหมายของเซิร์ฟเวอร์ LLM ในห้องใต้ดิน
- ไซด์โปรเจกต์ล่าสุด AI from The Basement เป็นเซิร์ฟเวอร์ LLM เฉพาะทางที่มีการ์ดจอ 8x RTX 3090 และ VRAM รวม 192GB
- หนึ่งในเป้าหมายคือการรัน Llama-3.1 405B ของ Meta
- เดิมใช้ VRAM 48GB สำหรับการทดลอง LLM แต่ราวเดือนมีนาคม 2024 ตัดสินว่าความจุระดับนี้เริ่มตามการทดลองไม่ทัน
- ในกระบวนการเลือกฮาร์ดแวร์ ได้พิจารณา CPU และแพลตฟอร์ม, ความเร็วหน่วยความจำ, จำนวน PCIe lanes, การจัดชุด GPU จำนวน 2^n ตัว, tensor parallelism และการเลือก inference engine ไปพร้อมกัน
ประเด็นด้านการจัดฮาร์ดแวร์และกระบวนการสร้าง
- แพลตฟอร์มสุดท้ายประกอบด้วยเมนบอร์ดระดับเซิร์ฟเวอร์, CPU EPYC, หน่วยความจำขนาดใหญ่, พาวเวอร์ซัพพลายหลายตัว และ GPU 8 ตัว
- เมนบอร์ด Asrock Rack ROMED8-2T: สล็อต 7x PCIe 4.0 x16, PCIe lanes 128 เลน
- CPU AMD Epyc Milan 7713: 2.00GHz, บูสต์ 3.675GHz, 64 คอร์/128 เธรด
- หน่วยความจำ 512GB DDR4-3200 3DS RDIMM
- พาวเวอร์ซัพพลาย 1600W 3 ตัว
- GPU 8x RTX 3090 และ 4x NVLink
- NVLink ให้อัตราการถ่ายโอนข้อมูล 112GB/s ระหว่าง GPU แต่ละคู่
- ในการประกอบจริงเกิดปัญหาทางกายภาพ เช่น การเจาะรูบนโครงโลหะ, การเพิ่มเบรกเกอร์ 30A 240V และขาในซ็อกเก็ต CPU งอ
- ยังกล่าวถึงความสำคัญของ SAS Device Adapter, Redriver และ Retimer เพื่อแก้ปัญหา PCIe riser และให้การเชื่อมต่อ PCIe ปราศจากข้อผิดพลาด
- ในบทความถัดไปจะกล่าวต่อถึงความเร็วของ NVLink, แบนด์วิดท์ของ PCIe lanes, ความเร็วการถ่ายโอน VRAM และการตัดสินใจของ Nvidia ที่บล็อกแบนด์วิดท์ P2P native PCIe ในระดับซอฟต์แวร์
- เบนช์มาร์ก inference engine ที่รองรับ tensor parallelism เช่น TensorRT-LLM, vLLM, Aphrodite Engine รวมถึงการฝึกและ fine-tuning LLM เอง ยังเป็นหัวข้อถัดไปด้วย
- ยกตัวอย่างพัฒนาการทางเทคโนโลยี โดยเปรียบเทียบกับประสบการณ์ในปี 2004 ที่เคยดีใจกับ HDD 60GB แต่ 20 ปีต่อมากลับมีความจุมากกว่านั้นเกินสามเท่าอยู่ในการ์ดจอของเครื่องเดียว
- จุดประสงค์ของโปรเจกต์คือการมีส่วนช่วยสร้างสิ่งเจ๋ง ๆ ที่จะเกิดขึ้นในอนาคต และเชื่อว่าสักวันหนึ่งอาจมองย้อนกลับมาว่า VRAM 192GB ก็ไม่ได้มากมาย
- Part II of this Blogpost Series เป็นบทความต่อเนื่อง
1 ความคิดเห็น
ได้แค่อิจฉาเฉย ๆ..