3 คะแนน โดย GN⁺ 2024-09-09 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เมื่อการทดลอง LLM ส่วนตัวขยายตัวขึ้น จึงสร้างเซิร์ฟเวอร์ AI เฉพาะทางไว้ที่บ้านเอง พร้อม 8x RTX 3090 และ 192GB VRAM รวม
  • สภาพแวดล้อมเดิมที่มี 48GB VRAM เริ่มตามการทดลองไม่ทัน จึงขยายเป็นโหนดหลาย GPU โดยคำนึงถึงการรัน Llama-3.1 405B ของ Meta ด้วย
  • องค์ประกอบหลักคือ Asrock Rack ROMED8-2T, AMD Epyc Milan 7713, DDR4-3200 RDIMM 512GB, พาวเวอร์ซัพพลาย 1600W 3 ตัว และ RTX 3090 8 ตัวที่เชื่อมเป็นคู่ด้วย 4x NVLink
  • NVLink ให้อัตราการถ่ายโอน 112GB/s ต่อคู่ GPU และคอขวดอย่าง PCIe lanes, riser, inference engine และ fine-tuning ยังเป็นหัวข้อสำคัญในบทความถัดไป
  • การสร้างเซิร์ฟเวอร์ LLM ขนาดใหญ่สำหรับใช้ในบ้านนั้นทำได้ แต่มีจุดยากในการประกอบและค่าใช้จ่ายสูงที่ทำให้พลาดได้มาก การเลือกฮาร์ดแวร์และกระบวนการตรวจสอบจึงเป็นตัวชี้ขาดความสำเร็จ

เป้าหมายของเซิร์ฟเวอร์ LLM ในห้องใต้ดิน

  • ไซด์โปรเจกต์ล่าสุด AI from The Basement เป็นเซิร์ฟเวอร์ LLM เฉพาะทางที่มีการ์ดจอ 8x RTX 3090 และ VRAM รวม 192GB
  • หนึ่งในเป้าหมายคือการรัน Llama-3.1 405B ของ Meta
  • เดิมใช้ VRAM 48GB สำหรับการทดลอง LLM แต่ราวเดือนมีนาคม 2024 ตัดสินว่าความจุระดับนี้เริ่มตามการทดลองไม่ทัน
  • ในกระบวนการเลือกฮาร์ดแวร์ ได้พิจารณา CPU และแพลตฟอร์ม, ความเร็วหน่วยความจำ, จำนวน PCIe lanes, การจัดชุด GPU จำนวน 2^n ตัว, tensor parallelism และการเลือก inference engine ไปพร้อมกัน

ประเด็นด้านการจัดฮาร์ดแวร์และกระบวนการสร้าง

  • แพลตฟอร์มสุดท้ายประกอบด้วยเมนบอร์ดระดับเซิร์ฟเวอร์, CPU EPYC, หน่วยความจำขนาดใหญ่, พาวเวอร์ซัพพลายหลายตัว และ GPU 8 ตัว
    • เมนบอร์ด Asrock Rack ROMED8-2T: สล็อต 7x PCIe 4.0 x16, PCIe lanes 128 เลน
    • CPU AMD Epyc Milan 7713: 2.00GHz, บูสต์ 3.675GHz, 64 คอร์/128 เธรด
    • หน่วยความจำ 512GB DDR4-3200 3DS RDIMM
    • พาวเวอร์ซัพพลาย 1600W 3 ตัว
    • GPU 8x RTX 3090 และ 4x NVLink
  • NVLink ให้อัตราการถ่ายโอนข้อมูล 112GB/s ระหว่าง GPU แต่ละคู่
  • ในการประกอบจริงเกิดปัญหาทางกายภาพ เช่น การเจาะรูบนโครงโลหะ, การเพิ่มเบรกเกอร์ 30A 240V และขาในซ็อกเก็ต CPU งอ
  • ยังกล่าวถึงความสำคัญของ SAS Device Adapter, Redriver และ Retimer เพื่อแก้ปัญหา PCIe riser และให้การเชื่อมต่อ PCIe ปราศจากข้อผิดพลาด
  • ในบทความถัดไปจะกล่าวต่อถึงความเร็วของ NVLink, แบนด์วิดท์ของ PCIe lanes, ความเร็วการถ่ายโอน VRAM และการตัดสินใจของ Nvidia ที่บล็อกแบนด์วิดท์ P2P native PCIe ในระดับซอฟต์แวร์
  • เบนช์มาร์ก inference engine ที่รองรับ tensor parallelism เช่น TensorRT-LLM, vLLM, Aphrodite Engine รวมถึงการฝึกและ fine-tuning LLM เอง ยังเป็นหัวข้อถัดไปด้วย
  • ยกตัวอย่างพัฒนาการทางเทคโนโลยี โดยเปรียบเทียบกับประสบการณ์ในปี 2004 ที่เคยดีใจกับ HDD 60GB แต่ 20 ปีต่อมากลับมีความจุมากกว่านั้นเกินสามเท่าอยู่ในการ์ดจอของเครื่องเดียว
  • จุดประสงค์ของโปรเจกต์คือการมีส่วนช่วยสร้างสิ่งเจ๋ง ๆ ที่จะเกิดขึ้นในอนาคต และเชื่อว่าสักวันหนึ่งอาจมองย้อนกลับมาว่า VRAM 192GB ก็ไม่ได้มากมาย
  • Part II of this Blogpost Series เป็นบทความต่อเนื่อง

1 ความคิดเห็น

 
brainer 2024-09-09

ได้แค่อิจฉาเฉย ๆ..