การรัน DeepSeek-R1-671B-Q4_K_M บน Xeon พร้อม Arc A770 1/2 ตัว
(github.com/intel)- สามารถรัน DeepSeek-R1-671B-Q4_K_M บน Xeon พร้อม Arc A770 1 หรือ 2 ตัวได้ โดยใช้ llama.cpp Portable Zip เวอร์ชันล่าสุด
- คู่มือนี้อธิบายวิธีรัน llama.cpp โดยตรงด้วย
ipex-llmบน Intel GPU
สภาพแวดล้อมที่รองรับ
- โปรเซสเซอร์ Intel Core Ultra
- โปรเซสเซอร์ Intel Core รุ่นที่ 11 - 14
- Intel Arc A-Series GPU
- Intel Arc B-Series GPU
สารบัญ
- เริ่มต้นใช้งานอย่างรวดเร็วบน Windows
- สิ่งที่ต้องเตรียมล่วงหน้า
- ขั้นตอนที่ 1: ดาวน์โหลดและแตกไฟล์
- ขั้นตอนที่ 2: ตั้งค่ารันไทม์
- ขั้นตอนที่ 3: รันโมเดล GGUF
- เริ่มต้นใช้งานอย่างรวดเร็วบน Linux
- สิ่งที่ต้องเตรียมล่วงหน้า
- ขั้นตอนที่ 1: ดาวน์โหลดและแตกไฟล์
- ขั้นตอนที่ 2: ตั้งค่ารันไทม์
- ขั้นตอนที่ 3: รันโมเดล GGUF
- (ฟีเจอร์ใหม่) การรัน DeepSeek V3/R1 671B ด้วย FlashMoE
- เคล็ดลับและการแก้ปัญหา
- ข้อผิดพลาด: ตรวจพบอุปกรณ์ sycl คนละตัว
- การใช้หลาย GPU
- สภาพแวดล้อมด้านประสิทธิภาพ
- รายละเอียดเพิ่มเติม
เริ่มต้นใช้งานอย่างรวดเร็วบน Windows
สิ่งที่ต้องเตรียมล่วงหน้า
- ตรวจสอบเวอร์ชันไดรเวอร์ GPU และอัปเดตหากจำเป็น
- สำหรับโปรเซสเซอร์ Intel Core Ultra หรือ Intel Arc B-Series GPU แนะนำให้ใช้ไดรเวอร์ล่าสุด
- สำหรับ Intel iGPU/dGPU อื่น ๆ แนะนำไดรเวอร์เวอร์ชัน 32.0.101.6078
ขั้นตอนที่ 1: ดาวน์โหลดและแตกไฟล์
- ผู้ใช้ Windows ให้ดาวน์โหลด IPEX-LLM llama.cpp portable zip และแตกไฟล์ลงในโฟลเดอร์
ขั้นตอนที่ 2: ตั้งค่ารันไทม์
- เปิด "Command Prompt" แล้วเข้าไปยังโฟลเดอร์ด้วยคำสั่ง
cd /d PATH\TO\EXTRACTED\FOLDER - จำเป็นหรือแนะนำให้ตั้งค่าตัวแปรสภาพแวดล้อมบางตัวเพื่อใช้ GPU acceleration
- ตั้งค่า
set SYCL_CACHE_PERSISTENT=1
- ตั้งค่า
- ผู้ใช้หลาย GPU สามารถดูวิธีเลือก GPU ที่ต้องการได้ในส่วนเคล็ดลับ
ขั้นตอนที่ 3: รันโมเดล GGUF
- ดาวน์โหลดหรือคัดลอกโมเดล GGUF จากชุมชนไปยังไดเรกทอรีภายในเครื่อง
- ตั้งค่า path ของโมเดลแล้วรันด้วยคำสั่ง
llama-cli.exe
เริ่มต้นใช้งานอย่างรวดเร็วบน Linux
สิ่งที่ต้องเตรียมล่วงหน้า
- ตรวจสอบเวอร์ชันไดรเวอร์ GPU และอัปเดตหากจำเป็น
- แนะนำให้ติดตั้งไดรเวอร์ตามคู่มือการติดตั้ง Intel client GPU driver
ขั้นตอนที่ 1: ดาวน์โหลดและแตกไฟล์
- ผู้ใช้ Linux ให้ดาวน์โหลด IPEX-LLM llama.cpp portable tgz และแตกไฟล์ลงในโฟลเดอร์
ขั้นตอนที่ 2: ตั้งค่ารันไทม์
- เปิด "Terminal" แล้วเข้าไปยังโฟลเดอร์ด้วยคำสั่ง
cd /PATH/TO/EXTRACTED/FOLDER - จำเป็นหรือแนะนำให้ตั้งค่าตัวแปรสภาพแวดล้อมบางตัวเพื่อใช้ GPU acceleration
- ตั้งค่า
export SYCL_CACHE_PERSISTENT=1
- ตั้งค่า
- ผู้ใช้หลาย GPU สามารถดูวิธีเลือก GPU ที่ต้องการได้ในส่วนเคล็ดลับ
ขั้นตอนที่ 3: รันโมเดล GGUF
- ดาวน์โหลดหรือคัดลอกโมเดล GGUF จากชุมชนไปยังไดเรกทอรีภายในเครื่อง
- ตั้งค่า path ของโมเดลแล้วรันด้วยคำสั่ง
./llama-cli
FlashMoE for DeepSeek V3/R1
- FlashMoE เป็นเครื่องมือบรรทัดคำสั่งที่พัฒนาบนพื้นฐานของ llama.cpp และปรับแต่งมาสำหรับโมเดล MoE
- ใช้งานได้บนแพลตฟอร์ม Linux
- โมเดล MoE GGUF ที่ทดสอบแล้ว: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K เป็นต้น
เคล็ดลับและการแก้ปัญหา
ข้อผิดพลาด: ตรวจพบอุปกรณ์ sycl คนละตัว
- หากตรวจพบอุปกรณ์ sycl ต่างชนิดกัน ประสิทธิภาพจะถูกจำกัดตามอุปกรณ์ที่ช้าที่สุด
- สามารถปิดการตรวจสอบนี้และใช้อุปกรณ์ทั้งหมดได้ด้วยการตั้งค่า
SYCL_DEVICE_CHECK=0
การใช้หลาย GPU
- หากมี Intel GPU หลายตัว ระบบจะรันบน GPU ทั้งหมดโดยค่าเริ่มต้น
- หากต้องการใช้ GPU เฉพาะ ให้ตั้งค่าตัวแปรสภาพแวดล้อม
ONEAPI_DEVICE_SELECTOR
สภาพแวดล้อมด้านประสิทธิภาพ
- สามารถเพิ่มประสิทธิภาพได้ด้วยการตั้งค่า
SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS - โหมดนี้ช่วยเพิ่มประสิทธิภาพได้ แต่อาจเกิด exception ขึ้นได้
คู่มือนี้นำเสนอวิธีรัน llama.cpp บน Intel GPU อย่างมีประสิทธิภาพ รวมถึงการตั้งค่าและวิธีปรับแต่งประสิทธิภาพในรูปแบบต่าง ๆ
ยังไม่มีความคิดเห็น