วิธีรันโมเดล DeepSeek R1 671b แบบโลคัลบนเซิร์ฟเวอร์ EPYC ราคา $2000

(digitalspaceport.com)

3 คะแนน โดย GN⁺ 2025-02-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Deepseek AI Rig ที่ใช้ระบบ AMD EPYC Rome ให้ประสิทธิภาพที่ยอดเยี่ยม
โมเดล Q4 671b ทำได้ 3.5 TPS จาก 4.25 ซึ่งหมายความว่าสามารถรันได้ดีด้วย CPU เพียงอย่างเดียว
ระบบนี้ทำงานได้โดยไม่ต้องใช้ GPU VRAM ขนาดใหญ่ และอาจเป็นโปรเจกต์ที่สนุกสำหรับผู้ที่ชื่นชอบความท้าทายทางเทคนิค
เวอร์ชัน distilled มีประสิทธิภาพด้อยกว่า จึงแนะนำให้ใช้ "โมเดลเต็ม"
- รองรับ context window มากกว่า 16K จึงให้ประสิทธิภาพที่ดีกว่า

Local AI CPU Compute Hardware

ระบบที่ประกอบตามไกด์เดิมแบบ quad 3090 ยังทรงพลังอยู่เหมือนเดิม เมนบอร์ด MZ32-AR0 ช่วยให้จัดสเปก RAM ระบบ 512GB ถึง 1TB ได้ในราคาที่ไม่แพง ปัจจุบันใช้ RAM DDR4 2400 แต่มีความเป็นไปได้ว่าประสิทธิภาพจะดีขึ้นหากใช้ DDR4 ECC RAM ความเร็ว 3200
ส่วนประกอบและค่าใช้จ่าย:
- โครงแร็ก: $55
- เมนบอร์ด MZ32-AR0: $500
- ชุดระบายความร้อนด้วยน้ำ 420mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 64 คอร์: $650
- ECC RAM 512GB 2400: $400
- 1TB NVMe – Samsung 980 Pro: $75
- PSU 850W: $80
ราคารวม: ประมาณ $2000

การประกอบแร็ก

ประกอบเหมือนกับไกด์เดิม แต่ตัด GPU และการ์ดไรเซอร์ออก
หากมีแผนจะเพิ่ม GPU ภายหลัง ควรใช้ PSU 1500W หรือ 1600W ตั้งแต่แรก
แนะนำให้ทำ fan wall โดยใช้ พัดลม 80mm จำนวน 4 ตัว เพื่อลดอุณหภูมิของแรมสติก

หมายเหตุเกี่ยวกับการอัปเกรดเมนบอร์ด

หากใช้ CPU AMD EPYC 7V13 ควรใช้เมนบอร์ด MZ32-AR0 เวอร์ชัน V3
เมนบอร์ดเวอร์ชัน V1 อาจไม่รองรับ CPU Milan ดังนั้นจึงต้องอัปเดต BIOS เพื่ออัปเกรดเป็น V3

การตั้งค่าซอฟต์แวร์ Local AI แบบ self-hosted

แนะนำให้ติดตั้ง Ubuntu 24.04 เวอร์ชันเซิร์ฟเวอร์
ตั้งค่า IP เครือข่ายเป็น fixed IP ผ่าน การตั้งค่า BMC
ทำการเปลี่ยนค่าต่อไปนี้ใน การตั้งค่า BIOS:
- ตั้งค่า NPS เป็น 1
- ตั้งค่า CCD เป็น Auto
- ปิดใช้งาน SMT
- ปิดใช้งาน SVM
- ปิดใช้งาน IOMMU
- ตั้งค่า cTDP เป็น 200
- ตั้งค่า deterministic control เป็น manual และเลื่อนสไลเดอร์ไปที่ performance
- ตั้งค่า quick power policy เป็น performance
- ตั้งค่า BoostFMax เป็น manual และกำหนดค่าเป็น 3400

การติดตั้ง Ollama

ติดตั้ง Ollama ด้วยคำสั่งต่อไปนี้:

curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
sudo usermod -a -G ollama $(whoami)

ตั้งค่าตัวแปรสภาพแวดล้อม และสร้างไฟล์ ollama.service เพื่อลงทะเบียนเป็น service

ดาวน์โหลดโมเดล DeepSeek 671b

ดาวน์โหลดโมเดล DeepSeek 671b ด้วยคำสั่งต่อไปนี้:
```
ollama pull deepseek-r1:671b  
```
โมเดลนี้ใช้พื้นที่ดิสก์ประมาณ 400GB ดังนั้นควรเตรียมพื้นที่เก็บข้อมูลให้เพียงพอ

การติดตั้ง OpenWEBUI

ติดตั้ง OpenWEBUI โดยใช้ Docker
ตั้งค่าและรันบริการ OpenWEBUI ด้วย Docker Compose

เชื่อมต่อ OpenWEBUI กับ Ollama

ในการตั้งค่าของ OpenWEBUI ให้เพิ่ม เซิร์ฟเวอร์ Ollama และตรวจสอบสถานะการเชื่อมต่อ
ในพารามิเตอร์ขั้นสูง ให้ตั้งค่า GPU, Reasoning Effort, Context Length, num_thread เป็นต้น

การทดสอบรัน

เริ่มแชตใหม่ใน OpenWEBUI แล้วเลือกโมเดล DeepSeek-r1:671b เพื่อทดสอบการสนทนา

หากทำตามไกด์นี้ คุณจะสามารถรันโมเดล DeepSeek R1 671b แบบโลคัลได้ด้วยงบประมาณประมาณ $2000

1 ความคิดเห็น

GN⁺ 2025-02-02

ความเห็นบน Hacker News

ค่าใช้จ่ายในการรันโมเดล 671B แบบ quantization Q4 บนเซิร์ฟเวอร์ Epyc แบบซ็อกเก็ตเดียวอยู่ที่ $2K และใช้ RAM 512GB ส่วน Q8 บนเซิร์ฟเวอร์ Epyc แบบดูอัลซ็อกเก็ตพร้อม RAM 768GB ให้ความเร็ว 6-8 TPS โดยมีค่าใช้จ่าย $6K และสงสัยว่าความเร็ว RAM ส่งผลต่อ TPS มากแค่ไหน
ค่าใช้งาน R1 แบบออนไลน์อยู่ที่ $2/MTok และเครื่องนี้ทำได้มากกว่า 4 tok/s ทำให้มีต้นทุน $0.04 ต่อชั่วโมง โดยประเมินค่าไฟไว้ที่ $0.20 ต่อชั่วโมง จึงคิดว่านอกจากเรื่องความเป็นส่วนตัวแล้วก็ไม่ได้มีความหมายมากนัก
ความแปลกของ AI ในตอนนี้คืออยากรันโมเดลที่ดีที่สุด แต่ต้นทุนฮาร์ดแวร์แพงมาก ในยุค 1990 เราสามารถรัน Linux บนฮาร์ดแวร์ราคาถูกได้ แต่โมเดล AI รุ่นใหม่ต้องใช้ RAM มากกว่า และสงสัยว่าในอดีตเคยมีอะไรแบบนี้หรือไม่ โดยเกมคอมพิวเตอร์อาจเป็นตัวอย่างที่ดี
คิดว่าการได้ 5-10 tokens/sec จากโมเดลขนาดเล็กกว่า (33b-70b) น่าจะน่าสนใจกว่า และไม่อยากจ่ายเงินกับ GPU ราคา $3k หรือเครื่องราคา $2k
สงสัยว่าโมเดลขนาดเล็กที่ทำแค่แปลอังกฤษและสเปน หรือโมเดลที่เข้าใจยูทิลิตี Unix และ bash จะมีความหมายหรือไม่ และไม่แน่ใจว่าการจำกัดเนื้อหาที่ใช้ฝึกจะส่งผลต่อคุณภาพผลลัพธ์หรือขนาดโมเดลหรือเปล่า
เคยประกอบเวิร์กสเตชันด้วย EPYC 9274F และ RAM 384GB แต่ไม่ได้ประสิทธิภาพตามที่คาดหวัง แม้จะทดสอบ benchmark หลายแบบแล้วก็ยังได้ผลไม่ถึงครึ่งของ benchmark จาก Fujitsu
น่าแปลกใจที่ $3000 NVIDIA Digits ไม่ถูกพูดถึงบ่อยกว่านี้ เดิมทีเคยมอง AI แบบกังขา แต่ตอนนี้วางแผนจะรัน DeepSeek แบบโลคัลแล้ว
น่าทึ่งที่ซื้อได้ในราคา $2K และกำลังมองหาคำแนะนำในการประกอบเดสก์ท็อปประหยัดพลังงาน
ในฐานะยูทูบเบอร์ ได้แชร์สถิติเกี่ยวกับพลังงานและความเร็ว RAM โดยใช้ไฟขณะ idle 60w ใช้ไฟขณะโหลด 260w และ RAM มีความเร็ว 2400
เคยรันโมเดลบน r6a.16xlarge แต่หลังจากพรอมป์แรกแล้วการโหลดโมเดลใช้เวลานานมาก และด้วย RAM 512GB ก็ไม่สามารถใช้ context size มากกว่า 4k ได้ อาจมีบางอย่างที่พลาดไปเพราะยังไม่คุ้นกับการตั้งค่าโมเดล