วิธีรันโมเดล DeepSeek R1 671b แบบโลคัลบนเซิร์ฟเวอร์ EPYC ราคา $2000
(digitalspaceport.com)- Deepseek AI Rig ที่ใช้ระบบ AMD EPYC Rome ให้ประสิทธิภาพที่ยอดเยี่ยม
- โมเดล Q4 671b ทำได้ 3.5 TPS จาก 4.25 ซึ่งหมายความว่าสามารถรันได้ดีด้วย CPU เพียงอย่างเดียว
- ระบบนี้ทำงานได้โดยไม่ต้องใช้ GPU VRAM ขนาดใหญ่ และอาจเป็นโปรเจกต์ที่สนุกสำหรับผู้ที่ชื่นชอบความท้าทายทางเทคนิค
- เวอร์ชัน distilled มีประสิทธิภาพด้อยกว่า จึงแนะนำให้ใช้ "โมเดลเต็ม"
- รองรับ context window มากกว่า 16K จึงให้ประสิทธิภาพที่ดีกว่า
Local AI CPU Compute Hardware
- ระบบที่ประกอบตามไกด์เดิมแบบ quad 3090 ยังทรงพลังอยู่เหมือนเดิม เมนบอร์ด MZ32-AR0 ช่วยให้จัดสเปก RAM ระบบ 512GB ถึง 1TB ได้ในราคาที่ไม่แพง ปัจจุบันใช้ RAM DDR4 2400 แต่มีความเป็นไปได้ว่าประสิทธิภาพจะดีขึ้นหากใช้ DDR4 ECC RAM ความเร็ว 3200
- ส่วนประกอบและค่าใช้จ่าย:
- โครงแร็ก: $55
- เมนบอร์ด MZ32-AR0: $500
- ชุดระบายความร้อนด้วยน้ำ 420mm Corsair h170i elite capellix xt: $170
- AMD EPYC 7702 64 คอร์: $650
- ECC RAM 512GB 2400: $400
- 1TB NVMe – Samsung 980 Pro: $75
- PSU 850W: $80
- ราคารวม: ประมาณ $2000
การประกอบแร็ก
- ประกอบเหมือนกับไกด์เดิม แต่ตัด GPU และการ์ดไรเซอร์ออก
- หากมีแผนจะเพิ่ม GPU ภายหลัง ควรใช้ PSU 1500W หรือ 1600W ตั้งแต่แรก
- แนะนำให้ทำ fan wall โดยใช้ พัดลม 80mm จำนวน 4 ตัว เพื่อลดอุณหภูมิของแรมสติก
หมายเหตุเกี่ยวกับการอัปเกรดเมนบอร์ด
- หากใช้ CPU AMD EPYC 7V13 ควรใช้เมนบอร์ด MZ32-AR0 เวอร์ชัน V3
- เมนบอร์ดเวอร์ชัน V1 อาจไม่รองรับ CPU Milan ดังนั้นจึงต้องอัปเดต BIOS เพื่ออัปเกรดเป็น V3
การตั้งค่าซอฟต์แวร์ Local AI แบบ self-hosted
- แนะนำให้ติดตั้ง Ubuntu 24.04 เวอร์ชันเซิร์ฟเวอร์
- ตั้งค่า IP เครือข่ายเป็น fixed IP ผ่าน การตั้งค่า BMC
- ทำการเปลี่ยนค่าต่อไปนี้ใน การตั้งค่า BIOS:
- ตั้งค่า NPS เป็น 1
- ตั้งค่า CCD เป็น Auto
- ปิดใช้งาน SMT
- ปิดใช้งาน SVM
- ปิดใช้งาน IOMMU
- ตั้งค่า cTDP เป็น 200
- ตั้งค่า deterministic control เป็น manual และเลื่อนสไลเดอร์ไปที่ performance
- ตั้งค่า quick power policy เป็น performance
- ตั้งค่า BoostFMax เป็น manual และกำหนดค่าเป็น 3400
การติดตั้ง Ollama
-
ติดตั้ง Ollama ด้วยคำสั่งต่อไปนี้:
curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz sudo tar -C /usr -xzf ollama-linux-amd64.tgz sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama sudo usermod -a -G ollama $(whoami) -
ตั้งค่าตัวแปรสภาพแวดล้อม และสร้างไฟล์ ollama.service เพื่อลงทะเบียนเป็น service
ดาวน์โหลดโมเดล DeepSeek 671b
-
ดาวน์โหลดโมเดล DeepSeek 671b ด้วยคำสั่งต่อไปนี้:
ollama pull deepseek-r1:671b -
โมเดลนี้ใช้พื้นที่ดิสก์ประมาณ 400GB ดังนั้นควรเตรียมพื้นที่เก็บข้อมูลให้เพียงพอ
การติดตั้ง OpenWEBUI
- ติดตั้ง OpenWEBUI โดยใช้ Docker
- ตั้งค่าและรันบริการ OpenWEBUI ด้วย Docker Compose
เชื่อมต่อ OpenWEBUI กับ Ollama
- ในการตั้งค่าของ OpenWEBUI ให้เพิ่ม เซิร์ฟเวอร์ Ollama และตรวจสอบสถานะการเชื่อมต่อ
- ในพารามิเตอร์ขั้นสูง ให้ตั้งค่า GPU, Reasoning Effort, Context Length, num_thread เป็นต้น
การทดสอบรัน
- เริ่มแชตใหม่ใน OpenWEBUI แล้วเลือกโมเดล DeepSeek-r1:671b เพื่อทดสอบการสนทนา
หากทำตามไกด์นี้ คุณจะสามารถรันโมเดล DeepSeek R1 671b แบบโลคัลได้ด้วยงบประมาณประมาณ $2000
1 ความคิดเห็น
ความเห็นบน Hacker News
ค่าใช้จ่ายในการรันโมเดล 671B แบบ quantization Q4 บนเซิร์ฟเวอร์ Epyc แบบซ็อกเก็ตเดียวอยู่ที่ $2K และใช้ RAM 512GB ส่วน Q8 บนเซิร์ฟเวอร์ Epyc แบบดูอัลซ็อกเก็ตพร้อม RAM 768GB ให้ความเร็ว 6-8 TPS โดยมีค่าใช้จ่าย $6K และสงสัยว่าความเร็ว RAM ส่งผลต่อ TPS มากแค่ไหน
ค่าใช้งาน R1 แบบออนไลน์อยู่ที่ $2/MTok และเครื่องนี้ทำได้มากกว่า 4 tok/s ทำให้มีต้นทุน $0.04 ต่อชั่วโมง โดยประเมินค่าไฟไว้ที่ $0.20 ต่อชั่วโมง จึงคิดว่านอกจากเรื่องความเป็นส่วนตัวแล้วก็ไม่ได้มีความหมายมากนัก
ความแปลกของ AI ในตอนนี้คืออยากรันโมเดลที่ดีที่สุด แต่ต้นทุนฮาร์ดแวร์แพงมาก ในยุค 1990 เราสามารถรัน Linux บนฮาร์ดแวร์ราคาถูกได้ แต่โมเดล AI รุ่นใหม่ต้องใช้ RAM มากกว่า และสงสัยว่าในอดีตเคยมีอะไรแบบนี้หรือไม่ โดยเกมคอมพิวเตอร์อาจเป็นตัวอย่างที่ดี
คิดว่าการได้ 5-10 tokens/sec จากโมเดลขนาดเล็กกว่า (33b-70b) น่าจะน่าสนใจกว่า และไม่อยากจ่ายเงินกับ GPU ราคา $3k หรือเครื่องราคา $2k
สงสัยว่าโมเดลขนาดเล็กที่ทำแค่แปลอังกฤษและสเปน หรือโมเดลที่เข้าใจยูทิลิตี Unix และ bash จะมีความหมายหรือไม่ และไม่แน่ใจว่าการจำกัดเนื้อหาที่ใช้ฝึกจะส่งผลต่อคุณภาพผลลัพธ์หรือขนาดโมเดลหรือเปล่า
เคยประกอบเวิร์กสเตชันด้วย EPYC 9274F และ RAM 384GB แต่ไม่ได้ประสิทธิภาพตามที่คาดหวัง แม้จะทดสอบ benchmark หลายแบบแล้วก็ยังได้ผลไม่ถึงครึ่งของ benchmark จาก Fujitsu
น่าแปลกใจที่ $3000 NVIDIA Digits ไม่ถูกพูดถึงบ่อยกว่านี้ เดิมทีเคยมอง AI แบบกังขา แต่ตอนนี้วางแผนจะรัน DeepSeek แบบโลคัลแล้ว
น่าทึ่งที่ซื้อได้ในราคา $2K และกำลังมองหาคำแนะนำในการประกอบเดสก์ท็อปประหยัดพลังงาน
ในฐานะยูทูบเบอร์ ได้แชร์สถิติเกี่ยวกับพลังงานและความเร็ว RAM โดยใช้ไฟขณะ idle 60w ใช้ไฟขณะโหลด 260w และ RAM มีความเร็ว 2400
เคยรันโมเดลบน r6a.16xlarge แต่หลังจากพรอมป์แรกแล้วการโหลดโมเดลใช้เวลานานมาก และด้วย RAM 512GB ก็ไม่สามารถใช้ context size มากกว่า 4k ได้ อาจมีบางอย่างที่พลาดไปเพราะยังไม่คุ้นกับการตั้งค่าโมเดล