ไลบรารี PyTorch สำหรับรัน LLM บน Intel CPU และ GPU

(github.com/intel-analytics)

1 คะแนน โดย GN⁺ 2024-04-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

IPEX-LLM เป็นไลบรารีสำหรับ PyTorch ที่เร่งการทำงานของ LLM บน Intel GPU, NPU และ CPU แต่ปัจจุบันโครงการนี้ถูกเก็บถาวรแล้ว และ Intel ไม่รับประกันการพัฒนาหรือการสนับสนุน
ขอบเขตการรองรับครอบคลุม iGPU บนเครื่องพีซีภายในเครื่อง, discrete GPU อย่าง Arc·Flex·Max, Intel Core Ultra NPU และ CPU พร้อมการผสานรวมกับ llama.cpp, Ollama, vLLM, HuggingFace transformers, LangChain, LlamaIndex และอื่น ๆ
มีโมเดลมากกว่า 70 รุ่นที่ได้รับการปรับแต่งหรือยืนยันการทำงานบน ipex-llm รวมถึง Llama, Phi, Mistral, Mixtral, DeepSeek, Qwen, ChatGLM, MiniCPM, Qwen-VL, MiniCPM-V เป็นต้น
อัปเดตล่าสุดรวมถึงการรัน DeepSeek V3/R1 671B และ Qwen3MoE 235B บน Intel Arc GPU 1~2 ตัวด้วย FlashMoE รวมถึง ipex-llm 2.2.0, การรองรับ PyTorch 2.6 GPU และการรองรับ Ollama·llama.cpp Portable Zip
README ระบุชัดว่ามี ปัญหาด้านความปลอดภัย ที่ทราบอยู่แล้ว และ Intel ไม่รับประกันการบำรุงรักษา การแก้บั๊ก รีลีสใหม่ หรืออัปเดตอีกต่อไป รวมถึงจะไม่รับแพตช์สำหรับโครงการนี้แล้ว

สถานะโครงการและวัตถุประสงค์พื้นฐาน

IPEX-LLM เป็น ไลบรารีเร่งความเร็ว LLM สำหรับเร่งการทำงานของ LLM บนฮาร์ดแวร์ Intel
ฮาร์ดแวร์เป้าหมายคือ Intel GPU, NPU และ CPU
- ตัวอย่าง GPU ได้แก่ iGPU บนเครื่องพีซีภายในเครื่อง และ discrete GPU อย่าง Arc, Flex, Max
- NPU มุ่งเป้าไปที่ตระกูล Intel Core Ultra
ด้านบนของโครงการมีการระบุชัดว่าอยู่ใน สถานะเก็บถาวร
- Intel ไม่ได้ให้หรือรับประกันการพัฒนาหรือการสนับสนุน
- ไม่มีการรับประกันด้านการบำรุงรักษา การแก้บั๊ก รีลีสใหม่ หรืออัปเดต
- Intel จะไม่รับแพตช์สำหรับโครงการนี้อีกต่อไป
- มีปัญหาด้านความปลอดภัยที่ทราบอยู่แล้ว

ระบบนิเวศที่ผสานรวม

ipex-llm เชื่อมต่อ กับเครื่องมือสำหรับรัน เสิร์ฟ และพัฒนา LLM หลายตัว
- llama.cpp
- Ollama
- vLLM
- HuggingFace transformers
- LangChain
- LlamaIndex
- Text-Generation-WebUI
- DeepSpeed-AutoTP
- FastChat
- Axolotl
- HuggingFace PEFT
- HuggingFace TRL
- AutoGen
- ModelScope
เอกสารเริ่มต้นอย่างรวดเร็วครอบคลุม Ollama, llama.cpp, Arc B580, NPU, PyTorch/HuggingFace, vLLM, FastChat, การเสิร์ฟด้วย Intel GPU หลายตัว, Text-Generation-WebUI, Axolotl และการทำเบนช์มาร์ก
คู่มือ Docker ครอบคลุมการอนุมานด้วย C++ GPU, การอนุมานด้วย Python GPU, vLLM GPU·CPU, FastChat GPU และสภาพแวดล้อมพัฒนา VSCode GPU

โมเดลและขอบเขตการปรับแต่ง

README ระบุว่ามีโมเดลมากกว่า 70 รุ่นที่ได้รับ การปรับแต่งหรือการตรวจสอบการทำงาน บน ipex-llm
ตัวอย่างตระกูลโมเดลมีดังนี้
- ตระกูล LLaMA/LLaMA2/LLaMA 3
- Mistral, Mixtral, Gemma
- LLaVA, Whisper
- ChatGLM2/ChatGLM3
- Baichuan/Baichuan2
- ตระกูล Qwen/Qwen-1.5/Qwen2
- InternLM
- DeepSeek, MiniCPM, Qwen-VL, MiniCPM-V เป็นต้น
ความละเอียดและการควอนไทซ์ที่รองรับเน้นไปที่ การอนุมานแบบ low-bit
- FP8, FP6, FP4, INT4
- INT8
- INT2 ให้บริการบนพื้นฐานกลไก IQ2 ของ llama.cpp
ตัวอย่างการบันทึก·โหลดครอบคลุมการโหลดโมเดล low-bit และโมเดล GGUF, AWQ, GPTQ เช่น INT4, FP4, FP6, INT8, FP8, FP16

ฟีเจอร์ที่เน้นในอัปเดตล่าสุด

อัปเดตเดือนพฤษภาคม 2025 ระบุว่าสามารถใช้ FlashMoE ของ ipex-llm เพื่อรัน DeepSeek V3/R1 671B และ Qwen3MoE 235B บน Intel Arc GPU 1~2 ตัวได้
- ตัวอย่าง GPU ได้แก่ Arc A770 หรือ B580
เดือนเมษายน 2025 มีการรีลีส ipex-llm 2.2.0 และรวม Ollama Portable Zip กับ llama.cpp Portable Zip
llama.cpp Portable Zip มี คำเตือนด้านความปลอดภัย ติดไว้
- การโหลดโมเดลด้วย mmap อาจทำให้ข้อมูลรั่วไหลผ่าน side channel ในสภาพแวดล้อมแบบ multi-tenant หรือโฮสต์ที่ใช้ร่วมกัน
- สามารถปิดการใช้ mmap ได้ด้วยตัวเลือก --no-mmap
เดือนเมษายน 2025 มีการเพิ่มการรองรับ PyTorch 2.6 สำหรับ Intel GPU
เดือนมีนาคม 2025 มีการเพิ่มการรองรับโมเดล Gemma3 และการรัน DeepSeek-R1-671B-Q4_K_M บน Arc A770 1~2 ตัวร่วมกับ Xeon
เดือนกุมภาพันธ์ 2025 มีการเพิ่ม Ollama Portable Zip สำหรับ Intel GPU, llama.cpp Portable Zip สำหรับ Intel GPU·NPU และการรองรับ vLLM 0.6.6 บน Intel Arc GPU
เดือนธันวาคม 2024 มีการเพิ่มการรองรับ Python และ C++ สำหรับ Intel Core Ultra NPU โดยตระกูลเป้าหมายคือ 100H, 200V, 200K, 200H

เดโมและข้อมูลประสิทธิภาพ·ความแม่นยำ

เดโมมีตัวอย่างการรัน local LLM บน Intel Core Ultra iGPU, Intel Core Ultra NPU, Arc GPU เดี่ยว และ Arc GPU หลายตัว
- Intel Core Ultra iGPU: รัน Mistral-7B Q4_K ด้วย Ollama
- Intel Core Ultra NPU: รัน Llama3.2-3B SYM_INT4 ด้วย HuggingFace
- Intel Arc dGPU 2 ตัว: รัน DeepSeek-R1-Distill-Qwen-32B Q4_K ด้วย llama.cpp
- Intel Xeon + Arc dGPU: รัน Qwen3MoE-235B Q4_K ด้วย FlashMoE
ส่วนประสิทธิภาพให้ข้อมูล ความเร็วการสร้างโทเค็น บน Intel Core Ultra และ Intel Arc GPU
สามารถรันเบนช์มาร์กประสิทธิภาพของ ipex-llm ได้โดยตรงผ่านคู่มือการทำเบนช์มาร์ก
ส่วนความแม่นยำของโมเดลให้ผล Perplexity ที่วัดจากชุดข้อมูล Wikitext
- ความละเอียดที่ใช้เปรียบเทียบคือ sym_int4, q4_k, fp6, fp8_e5m2, fp8_e4m3, fp16
- โมเดลเป้าหมายรวมถึง Llama-2-7B-chat-hf, Mistral-7B-Instruct-v0.2, Baichuan2-7B-chat, Qwen1.5-7B-chat, Llama-3.1-8B-Instruct, gemma-2-9b-it เป็นต้น
ประสิทธิภาพอาจแตกต่างกันไปตามวิธีใช้งาน การตั้งค่า และปัจจัยอื่น ๆ และ ipex-llm อาจไม่ได้รับการปรับแต่งในระดับเดียวกันบนผลิตภัณฑ์ที่ไม่ใช่ Intel

ตัวอย่างการพัฒนา·การใช้งาน

ตัวอย่างโค้ดแบ่งเป็นการอนุมานแบบ low-bit, การอนุมาน FP16/BF16, การอนุมานแบบกระจาย, การบันทึก·โหลด, การปรับจูนละเอียด และการผสานรวมกับไลบรารีชุมชน
การปรับจูนละเอียดบน Intel GPU รองรับ LoRA, QLoRA, DPO, QA-LoRA, ReLoRA
มีตัวอย่างการปรับจูนละเอียดแบบ QLoRA บน Intel CPU ด้วย
คู่มือแอปพลิเคชันครอบคลุมขั้นตอนการใช้ ipex-llm ใน GraphRAG, RAGFlow, LangChain-Chatchat, Continue, Open WebUI, PrivateGPT, Dify
เอกสาร API มีทั้ง Auto Classes API สไตล์ HuggingFace Transformers และ API สำหรับปรับแต่งโมเดล PyTorch ทั่วไป

1 ความคิดเห็น

GN⁺ 2024-04-05

ความคิดเห็นจาก Hacker News

บริษัทที่ยืนกรานใช้ 4 คอร์มานาน มีโอกาสแก้ตัวด้วย GPU สำหรับผู้บริโภครุ่นถัดไป โดยทำลายภาวะ VRAM ติดแหง็กที่ 8~16GB ซึ่ง AMD และ Nvidia แทบจะบังคับใช้มาตลอด 10 ปีที่ผ่านมา
ถ้ามีรุ่น 32~48GB ออกมาในราคาที่ไม่หนักกระเป๋า ก็คงเป็นภาพที่ค่อนข้างงดงาม และ Intel ก็ดูเหมือนจะขยับตัวอย่างจริงจังในด้านการรองรับซอฟต์แวร์ด้วย
- Intel กำลังไล่ตาม Nvidia ในด้าน AI อยู่ สาเหตุใหญ่ที่สุดคือผลิตภัณฑ์ยังแข่งขันได้ไม่พอ
  Intel Arc A770 16GB ที่เปิดตัวในเดือนตุลาคม 2022 ราคาอยู่ราว 300 ดอลลาร์ ส่วน Nvidia 4060 Ti 16GB อยู่ราว 500 ดอลลาร์ แต่ในงาน AI จริง 4060 Ti เร็วกว่าประมาณสองเท่า: https://cdn.mos.cms.futurecdn.net/FtXkrY6AD8YypMiHrZuy4K-120...
  ปัญหายิ่งชัดขึ้นเพราะในเชิงทฤษฎี Arc A770 ควรจะเร็วกว่า ประสิทธิภาพตาม TFLOPS สูงกว่า Nvidia 4060 มากกว่าสองเท่า: https://cdn.mos.cms.futurecdn.net/Q7WgNxqfgyjCJ5kk8apUQE-120...
  แต่ระบบนิเวศที่เกี่ยวกับ AI ทั้งหมดถูกพัฒนาและปรับแต่งให้ทำงานบน CUDA ของ Nvidia ทำให้ประสิทธิภาพจริงออกมาต่ำ
  สุดท้ายคือปัญหาเรื่องการรับรู้ของตลาดและระบบนิเวศ ถ้า Intel ออก GPU เวิร์กสเตชันที่มี VRAM 32GB หรือ 64GB ในรูปแบบที่นักพัฒนาซื้อได้ ไม่ใช่สัตว์ประหลาดระดับเอนเทอร์ไพรส์ราคาแพงเหลือเชื่อ มันจะขายดีมหาศาล
  ไม่จำเป็นต้องเป็นการ์ดที่เร็วที่สุดด้วยซ้ำ แค่ให้ VRAM มากกว่าคู่แข่งก็พอ ตอนนี้ในการเทรนหรือสร้างวิดีโอ คอขวดใหญ่กว่าความเร็ว GPU คือ VRAM ไม่พอ ไม่เข้าใจว่าทำไม Intel ถึงมองไม่เห็นเรื่องนี้
- VRAM เกิน 24GB น่าจะยังถูกลงได้ยากจนกว่า GDDR7 จะออกมา และ GDDR7 ก็น่าจะดันได้แค่ราว 36GB เท่านั้น
  ตระกูล GDDR6 แบบซ้อนชิปที่ไฮเอนด์กว่าน่าจะค่อนข้างแพง และเพราะปัญหา signal integrity ก็ไม่สามารถเอาไดมาติดเพิ่มเข้าไปง่าย ๆ ได้
- สิ่งที่ดูชัดเจนสำหรับเรา กลับดูเป็น มาตรฐานอุตสาหกรรม สำหรับผู้จัดการผลิตภัณฑ์
  ลองนึกดูว่าครั้งสุดท้ายที่ผู้เล่นในอุตสาหกรรมเขย่าระเบียบเดิมคือเมื่อไหร่ Intel เองก็ไม่ใช่บริษัทที่เปลี่ยนไปมากขนาดนั้น
- เห็นด้วยกับที่บอกว่าถ้ามี 32~48GB ในราคาจับต้องได้ก็คงยอดเยี่ยม
  ได้ยินมาว่า BIOS ของเมนบอร์ด Asrock บางรุ่นสามารถตั้งค่า VRAM บน Ryzen5 ได้ถึง 64GB และตอนนี้กำลังลองตรวจสอบกับฮาร์ดแวร์ AMD หลายตัวอยู่
- ถ้า AMD ทำไดรเวอร์คุณภาพสูงได้ ผมยอมจ่ายเงินเพื่อขอดูเลย :-)
อยากเห็น ข้อมูลเบนช์มาร์ก
ความเร็วที่เห็นในตัวอย่างดูค่อนข้างดี
อยากรู้ว่ามีคำแนะนำ Intel GPU ที่มี VRAM เยอะ สำหรับใช้กับสิ่งนี้ไหม
- มี Max GPU(Ponte Vecchio) สำหรับดาต้าเซ็นเตอร์ ซึ่งให้หน่วยความจำ HBM2e 128GB, แคช L2 408MB และแคช L1 64MB
  Gaudi ก็มีตัวเลขใกล้เคียงกัน แต่ตามเอกสารการตลาด ฝั่งนั้นมีคอร์ที่ออกแบบมาเฉพาะสำหรับงาน AI
  หาได้จากเครื่องสำเร็จรูปของ Dell และ Supermicro: https://www.supermicro.com/en/accelerators/intel
  อ่านเพิ่มเติม: https://www.servethehome.com/intel-shows-gpu-max-1550-perfor...
- สำหรับผู้บริโภคมี Intel Arc A770 16GB VRAM
  ถ้ามากกว่านั้นจะเริ่มขยับไปอยู่ในไลน์ผลิตภัณฑ์เอนเทอร์ไพรส์
อยากรู้ว่ามีเบนช์มาร์กประสิทธิภาพเทียบกับ llamafile หรืออย่างอื่นไหม
[0] - https://github.com/mozilla-Ocho/llamafile
- ตอนนี้ llama.cpp ใช้ Intel GPU ได้อยู่แล้ว และรองรับหลายแบ็กเอนด์ทั้งบน ARC และ GPU ในตัว
  แบ็กเอนด์ที่รองรับคือ SYCL, Vulkan, OpenCL
  ผมไม่มีฮาร์ดแวร์อยู่กับตัว แต่ในเมื่อ Intel ผลักดันฝั่งดาต้าเซ็นเตอร์อยู่ ผมคิดว่าบน ARC SYCL น่าจะเร็วกว่า
  [1]: https://www.intel.com/content/www/us/en/developer/articles/t...
ถ้ามี สคริปต์คลาวด์ GPU ที่ใช้รันตัวอย่างได้มาด้วยก็น่าจะดี
ถ้าเป็นวิธีให้รันบนผู้ให้บริการคลาวด์ได้ทันที แทนที่จะให้เดาเอาว่า GPU ตัวไหนเข้ากันได้ ก็น่าจะมีประโยชน์ และกำลังคิดอยู่ว่าจะลองทำเองดีไหม
ในบรรดาผู้ให้บริการคลาวด์รายใหญ่ ไม่มีที่ไหนให้บริการ Intel GPU เลย
- Intel GPU เจาะตลาดเอเชียตะวันออกเฉียงใต้ได้พอสมควร และ Intel ก็กำลังจะออกรุ่นเจเนอเรชันใหม่เร็ว ๆ นี้
  นอกจากนี้ ต่างจากไลเซนส์ GRID ของ Nvidia ตรงที่อนุญาตให้ทำ GPU virtualization ได้โดยไม่มีค่าไลเซนส์เพิ่มเติม ทำให้ผู้ให้บริการโฮสติงสามารถแบ่งการ์ดออกให้บริการได้
  รู้สึกว่าในอนาคตบริการที่ใช้ Intel เป็นฐานน่าจะเพิ่มขึ้นมาก
- แม้จะไม่ใช่คลาวด์ แต่สำหรับผู้บริโภคถือเป็นข้อเสนอที่ค่อนข้างดี
  ให้หน่วยความจำ 16GB และประสิทธิภาพใกล้เคียง 4060 Ti ในราคาประมาณ 65%
- ถึงอย่างนั้น ผู้ให้บริการที่มี Intel CPU ก็มีอยู่มาก

ไลบรารี PyTorch สำหรับรัน LLM บน Intel CPU และ GPU

สถานะโครงการและวัตถุประสงค์พื้นฐาน

ระบบนิเวศที่ผสานรวม

โมเดลและขอบเขตการปรับแต่ง

ฟีเจอร์ที่เน้นในอัปเดตล่าสุด

เดโมและข้อมูลประสิทธิภาพ·ความแม่นยำ

ตัวอย่างการพัฒนา·การใช้งาน

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News