• สามารถรัน DeepSeek-R1-671B-Q4_K_M บน Xeon พร้อม Arc A770 1 หรือ 2 ตัวได้ โดยใช้ llama.cpp Portable Zip เวอร์ชันล่าสุด
  • คู่มือนี้อธิบายวิธีรัน llama.cpp โดยตรงด้วย ipex-llm บน Intel GPU

สภาพแวดล้อมที่รองรับ

  • โปรเซสเซอร์ Intel Core Ultra
  • โปรเซสเซอร์ Intel Core รุ่นที่ 11 - 14
  • Intel Arc A-Series GPU
  • Intel Arc B-Series GPU

สารบัญ

  • เริ่มต้นใช้งานอย่างรวดเร็วบน Windows
    • สิ่งที่ต้องเตรียมล่วงหน้า
    • ขั้นตอนที่ 1: ดาวน์โหลดและแตกไฟล์
    • ขั้นตอนที่ 2: ตั้งค่ารันไทม์
    • ขั้นตอนที่ 3: รันโมเดล GGUF
  • เริ่มต้นใช้งานอย่างรวดเร็วบน Linux
    • สิ่งที่ต้องเตรียมล่วงหน้า
    • ขั้นตอนที่ 1: ดาวน์โหลดและแตกไฟล์
    • ขั้นตอนที่ 2: ตั้งค่ารันไทม์
    • ขั้นตอนที่ 3: รันโมเดล GGUF
  • (ฟีเจอร์ใหม่) การรัน DeepSeek V3/R1 671B ด้วย FlashMoE
  • เคล็ดลับและการแก้ปัญหา
    • ข้อผิดพลาด: ตรวจพบอุปกรณ์ sycl คนละตัว
    • การใช้หลาย GPU
    • สภาพแวดล้อมด้านประสิทธิภาพ
  • รายละเอียดเพิ่มเติม

เริ่มต้นใช้งานอย่างรวดเร็วบน Windows

สิ่งที่ต้องเตรียมล่วงหน้า

  • ตรวจสอบเวอร์ชันไดรเวอร์ GPU และอัปเดตหากจำเป็น
    • สำหรับโปรเซสเซอร์ Intel Core Ultra หรือ Intel Arc B-Series GPU แนะนำให้ใช้ไดรเวอร์ล่าสุด
    • สำหรับ Intel iGPU/dGPU อื่น ๆ แนะนำไดรเวอร์เวอร์ชัน 32.0.101.6078

ขั้นตอนที่ 1: ดาวน์โหลดและแตกไฟล์

  • ผู้ใช้ Windows ให้ดาวน์โหลด IPEX-LLM llama.cpp portable zip และแตกไฟล์ลงในโฟลเดอร์

ขั้นตอนที่ 2: ตั้งค่ารันไทม์

  • เปิด "Command Prompt" แล้วเข้าไปยังโฟลเดอร์ด้วยคำสั่ง cd /d PATH\TO\EXTRACTED\FOLDER
  • จำเป็นหรือแนะนำให้ตั้งค่าตัวแปรสภาพแวดล้อมบางตัวเพื่อใช้ GPU acceleration
    • ตั้งค่า set SYCL_CACHE_PERSISTENT=1
  • ผู้ใช้หลาย GPU สามารถดูวิธีเลือก GPU ที่ต้องการได้ในส่วนเคล็ดลับ

ขั้นตอนที่ 3: รันโมเดล GGUF

  • ดาวน์โหลดหรือคัดลอกโมเดล GGUF จากชุมชนไปยังไดเรกทอรีภายในเครื่อง
  • ตั้งค่า path ของโมเดลแล้วรันด้วยคำสั่ง llama-cli.exe

เริ่มต้นใช้งานอย่างรวดเร็วบน Linux

สิ่งที่ต้องเตรียมล่วงหน้า

  • ตรวจสอบเวอร์ชันไดรเวอร์ GPU และอัปเดตหากจำเป็น
  • แนะนำให้ติดตั้งไดรเวอร์ตามคู่มือการติดตั้ง Intel client GPU driver

ขั้นตอนที่ 1: ดาวน์โหลดและแตกไฟล์

  • ผู้ใช้ Linux ให้ดาวน์โหลด IPEX-LLM llama.cpp portable tgz และแตกไฟล์ลงในโฟลเดอร์

ขั้นตอนที่ 2: ตั้งค่ารันไทม์

  • เปิด "Terminal" แล้วเข้าไปยังโฟลเดอร์ด้วยคำสั่ง cd /PATH/TO/EXTRACTED/FOLDER
  • จำเป็นหรือแนะนำให้ตั้งค่าตัวแปรสภาพแวดล้อมบางตัวเพื่อใช้ GPU acceleration
    • ตั้งค่า export SYCL_CACHE_PERSISTENT=1
  • ผู้ใช้หลาย GPU สามารถดูวิธีเลือก GPU ที่ต้องการได้ในส่วนเคล็ดลับ

ขั้นตอนที่ 3: รันโมเดล GGUF

  • ดาวน์โหลดหรือคัดลอกโมเดล GGUF จากชุมชนไปยังไดเรกทอรีภายในเครื่อง
  • ตั้งค่า path ของโมเดลแล้วรันด้วยคำสั่ง ./llama-cli

FlashMoE for DeepSeek V3/R1

  • FlashMoE เป็นเครื่องมือบรรทัดคำสั่งที่พัฒนาบนพื้นฐานของ llama.cpp และปรับแต่งมาสำหรับโมเดล MoE
  • ใช้งานได้บนแพลตฟอร์ม Linux
  • โมเดล MoE GGUF ที่ทดสอบแล้ว: DeepSeek-V3-Q4_K_M, DeepSeek-V3-Q6_K เป็นต้น

เคล็ดลับและการแก้ปัญหา

ข้อผิดพลาด: ตรวจพบอุปกรณ์ sycl คนละตัว

  • หากตรวจพบอุปกรณ์ sycl ต่างชนิดกัน ประสิทธิภาพจะถูกจำกัดตามอุปกรณ์ที่ช้าที่สุด
  • สามารถปิดการตรวจสอบนี้และใช้อุปกรณ์ทั้งหมดได้ด้วยการตั้งค่า SYCL_DEVICE_CHECK=0

การใช้หลาย GPU

  • หากมี Intel GPU หลายตัว ระบบจะรันบน GPU ทั้งหมดโดยค่าเริ่มต้น
  • หากต้องการใช้ GPU เฉพาะ ให้ตั้งค่าตัวแปรสภาพแวดล้อม ONEAPI_DEVICE_SELECTOR

สภาพแวดล้อมด้านประสิทธิภาพ

  • สามารถเพิ่มประสิทธิภาพได้ด้วยการตั้งค่า SYCL_PI_LEVEL_ZERO_USE_IMMEDIATE_COMMANDLISTS
  • โหมดนี้ช่วยเพิ่มประสิทธิภาพได้ แต่อาจเกิด exception ขึ้นได้

คู่มือนี้นำเสนอวิธีรัน llama.cpp บน Intel GPU อย่างมีประสิทธิภาพ รวมถึงการตั้งค่าและวิธีปรับแต่งประสิทธิภาพในรูปแบบต่าง ๆ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น