3 คะแนน โดย GN⁺ 2025-02-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Deepseek AI Rig ที่ใช้ระบบ AMD EPYC Rome ให้ประสิทธิภาพที่ยอดเยี่ยม
  • โมเดล Q4 671b ทำได้ 3.5 TPS จาก 4.25 ซึ่งหมายความว่าสามารถรันได้ดีด้วย CPU เพียงอย่างเดียว
  • ระบบนี้ทำงานได้โดยไม่ต้องใช้ GPU VRAM ขนาดใหญ่ และอาจเป็นโปรเจกต์ที่สนุกสำหรับผู้ที่ชื่นชอบความท้าทายทางเทคนิค
  • เวอร์ชัน distilled มีประสิทธิภาพด้อยกว่า จึงแนะนำให้ใช้ "โมเดลเต็ม"
    • รองรับ context window มากกว่า 16K จึงให้ประสิทธิภาพที่ดีกว่า

Local AI CPU Compute Hardware

  • ระบบที่ประกอบตามไกด์เดิมแบบ quad 3090 ยังทรงพลังอยู่เหมือนเดิม เมนบอร์ด MZ32-AR0 ช่วยให้จัดสเปก RAM ระบบ 512GB ถึง 1TB ได้ในราคาที่ไม่แพง ปัจจุบันใช้ RAM DDR4 2400 แต่มีความเป็นไปได้ว่าประสิทธิภาพจะดีขึ้นหากใช้ DDR4 ECC RAM ความเร็ว 3200
  • ส่วนประกอบและค่าใช้จ่าย:
    • โครงแร็ก: $55
    • เมนบอร์ด MZ32-AR0: $500
    • ชุดระบายความร้อนด้วยน้ำ 420mm Corsair h170i elite capellix xt: $170
    • AMD EPYC 7702 64 คอร์: $650
    • ECC RAM 512GB 2400: $400
    • 1TB NVMe – Samsung 980 Pro: $75
    • PSU 850W: $80
  • ราคารวม: ประมาณ $2000

การประกอบแร็ก

  • ประกอบเหมือนกับไกด์เดิม แต่ตัด GPU และการ์ดไรเซอร์ออก
  • หากมีแผนจะเพิ่ม GPU ภายหลัง ควรใช้ PSU 1500W หรือ 1600W ตั้งแต่แรก
  • แนะนำให้ทำ fan wall โดยใช้ พัดลม 80mm จำนวน 4 ตัว เพื่อลดอุณหภูมิของแรมสติก

หมายเหตุเกี่ยวกับการอัปเกรดเมนบอร์ด

  • หากใช้ CPU AMD EPYC 7V13 ควรใช้เมนบอร์ด MZ32-AR0 เวอร์ชัน V3
  • เมนบอร์ดเวอร์ชัน V1 อาจไม่รองรับ CPU Milan ดังนั้นจึงต้องอัปเดต BIOS เพื่ออัปเกรดเป็น V3

การตั้งค่าซอฟต์แวร์ Local AI แบบ self-hosted

  • แนะนำให้ติดตั้ง Ubuntu 24.04 เวอร์ชันเซิร์ฟเวอร์
  • ตั้งค่า IP เครือข่ายเป็น fixed IP ผ่าน การตั้งค่า BMC
  • ทำการเปลี่ยนค่าต่อไปนี้ใน การตั้งค่า BIOS:
    • ตั้งค่า NPS เป็น 1
    • ตั้งค่า CCD เป็น Auto
    • ปิดใช้งาน SMT
    • ปิดใช้งาน SVM
    • ปิดใช้งาน IOMMU
    • ตั้งค่า cTDP เป็น 200
    • ตั้งค่า deterministic control เป็น manual และเลื่อนสไลเดอร์ไปที่ performance
    • ตั้งค่า quick power policy เป็น performance
    • ตั้งค่า BoostFMax เป็น manual และกำหนดค่าเป็น 3400

การติดตั้ง Ollama

  • ติดตั้ง Ollama ด้วยคำสั่งต่อไปนี้:

    curl -L https://ollama.com/download/ollama-linux-amd64.tgz -o ollama-linux-amd64.tgz  
    sudo tar -C /usr -xzf ollama-linux-amd64.tgz  
    sudo useradd -r -s /bin/false -U -m -d /usr/share/ollama ollama  
    sudo usermod -a -G ollama $(whoami)  
    
  • ตั้งค่าตัวแปรสภาพแวดล้อม และสร้างไฟล์ ollama.service เพื่อลงทะเบียนเป็น service

ดาวน์โหลดโมเดล DeepSeek 671b

  • ดาวน์โหลดโมเดล DeepSeek 671b ด้วยคำสั่งต่อไปนี้:

    ollama pull deepseek-r1:671b  
    
  • โมเดลนี้ใช้พื้นที่ดิสก์ประมาณ 400GB ดังนั้นควรเตรียมพื้นที่เก็บข้อมูลให้เพียงพอ

การติดตั้ง OpenWEBUI

  • ติดตั้ง OpenWEBUI โดยใช้ Docker
  • ตั้งค่าและรันบริการ OpenWEBUI ด้วย Docker Compose

เชื่อมต่อ OpenWEBUI กับ Ollama

  • ในการตั้งค่าของ OpenWEBUI ให้เพิ่ม เซิร์ฟเวอร์ Ollama และตรวจสอบสถานะการเชื่อมต่อ
  • ในพารามิเตอร์ขั้นสูง ให้ตั้งค่า GPU, Reasoning Effort, Context Length, num_thread เป็นต้น

การทดสอบรัน

  • เริ่มแชตใหม่ใน OpenWEBUI แล้วเลือกโมเดล DeepSeek-r1:671b เพื่อทดสอบการสนทนา

หากทำตามไกด์นี้ คุณจะสามารถรันโมเดล DeepSeek R1 671b แบบโลคัลได้ด้วยงบประมาณประมาณ $2000

1 ความคิดเห็น

 
GN⁺ 2025-02-02
ความเห็นบน Hacker News
  • ค่าใช้จ่ายในการรันโมเดล 671B แบบ quantization Q4 บนเซิร์ฟเวอร์ Epyc แบบซ็อกเก็ตเดียวอยู่ที่ $2K และใช้ RAM 512GB ส่วน Q8 บนเซิร์ฟเวอร์ Epyc แบบดูอัลซ็อกเก็ตพร้อม RAM 768GB ให้ความเร็ว 6-8 TPS โดยมีค่าใช้จ่าย $6K และสงสัยว่าความเร็ว RAM ส่งผลต่อ TPS มากแค่ไหน

  • ค่าใช้งาน R1 แบบออนไลน์อยู่ที่ $2/MTok และเครื่องนี้ทำได้มากกว่า 4 tok/s ทำให้มีต้นทุน $0.04 ต่อชั่วโมง โดยประเมินค่าไฟไว้ที่ $0.20 ต่อชั่วโมง จึงคิดว่านอกจากเรื่องความเป็นส่วนตัวแล้วก็ไม่ได้มีความหมายมากนัก

  • ความแปลกของ AI ในตอนนี้คืออยากรันโมเดลที่ดีที่สุด แต่ต้นทุนฮาร์ดแวร์แพงมาก ในยุค 1990 เราสามารถรัน Linux บนฮาร์ดแวร์ราคาถูกได้ แต่โมเดล AI รุ่นใหม่ต้องใช้ RAM มากกว่า และสงสัยว่าในอดีตเคยมีอะไรแบบนี้หรือไม่ โดยเกมคอมพิวเตอร์อาจเป็นตัวอย่างที่ดี

  • คิดว่าการได้ 5-10 tokens/sec จากโมเดลขนาดเล็กกว่า (33b-70b) น่าจะน่าสนใจกว่า และไม่อยากจ่ายเงินกับ GPU ราคา $3k หรือเครื่องราคา $2k

  • สงสัยว่าโมเดลขนาดเล็กที่ทำแค่แปลอังกฤษและสเปน หรือโมเดลที่เข้าใจยูทิลิตี Unix และ bash จะมีความหมายหรือไม่ และไม่แน่ใจว่าการจำกัดเนื้อหาที่ใช้ฝึกจะส่งผลต่อคุณภาพผลลัพธ์หรือขนาดโมเดลหรือเปล่า

  • เคยประกอบเวิร์กสเตชันด้วย EPYC 9274F และ RAM 384GB แต่ไม่ได้ประสิทธิภาพตามที่คาดหวัง แม้จะทดสอบ benchmark หลายแบบแล้วก็ยังได้ผลไม่ถึงครึ่งของ benchmark จาก Fujitsu

  • น่าแปลกใจที่ $3000 NVIDIA Digits ไม่ถูกพูดถึงบ่อยกว่านี้ เดิมทีเคยมอง AI แบบกังขา แต่ตอนนี้วางแผนจะรัน DeepSeek แบบโลคัลแล้ว

  • น่าทึ่งที่ซื้อได้ในราคา $2K และกำลังมองหาคำแนะนำในการประกอบเดสก์ท็อปประหยัดพลังงาน

  • ในฐานะยูทูบเบอร์ ได้แชร์สถิติเกี่ยวกับพลังงานและความเร็ว RAM โดยใช้ไฟขณะ idle 60w ใช้ไฟขณะโหลด 260w และ RAM มีความเร็ว 2400

  • เคยรันโมเดลบน r6a.16xlarge แต่หลังจากพรอมป์แรกแล้วการโหลดโมเดลใช้เวลานานมาก และด้วย RAM 512GB ก็ไม่สามารถใช้ context size มากกว่า 4k ได้ อาจมีบางอย่างที่พลาดไปเพราะยังไม่คุ้นกับการตั้งค่าโมเดล