💫 IPEX-LLM
IPEX-LLM คือไลบรารี PyTorch สำหรับรัน LLM บน Intel CPU และ GPU ด้วยค่าหน่วงต่ำมาก
- สร้างขึ้นบนผลงานที่ยอดเยี่ยมอย่าง Intel PyTorch Extension (
IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ และอื่น ๆ
- ให้การผสานการทำงานอย่างราบรื่นกับ
llama.cpp, Text-Generation-WebUI, HuggingFace transformers และอื่น ๆ
- มี โมเดลมากกว่า 50 รุ่น ที่ได้รับการปรับแต่ง/ตรวจสอบแล้วใน
ipex-llm และสามารถดูรายการทั้งหมดได้ที่นี่
อัปเดตล่าสุด 🔥
bigdl-llm ถูกเปลี่ยนชื่อเป็น ipex-llm แล้ว และโปรเจกต์ BigDL เดิมสามารถดูได้ที่นี่
- ตอนนี้
ipex-llm สามารถโหลดโมเดลจาก ModelScope(魔搭) ได้โดยตรง
ipex-llm เพิ่มการรองรับ INT2 ทำให้สามารถรัน LLM ขนาดใหญ่บน Intel GPU (เช่น Mixtral-8x7B) ด้วย VRAM 16GB ได้
- ตอนนี้ผู้ใช้สามารถใช้
ipex-llm ผ่าน GUI ของ Text-Generation-WebUI ได้แล้ว
- ตอนนี้
ipex-llm รองรับ Self-Speculative Decoding ซึ่งช่วยเร่งเวลาแฝงของการอนุมาน FP16 และ BF16 บน Intel GPU และ CPU ได้ราว 30% ตามลำดับ
- ตอนนี้
ipex-llm รองรับรายการแบบครอบคลุมสำหรับการ fine-tuning LLM บน Intel GPU
เดโม ipex-llm
- สามารถดู ประสิทธิภาพที่ปรับแต่งแล้ว ของโมเดล
chatglm2-6b และ llama-2-13b-chat บน Intel Core CPU เจน 12 และ Intel Arc GPU ได้ด้านล่าง
เริ่มต้นใช้งาน ipex-llm อย่างรวดเร็ว
ติดตั้ง ipex-llm
- Windows GPU: ติดตั้ง
ipex-llm บน Windows ที่มี Intel GPU
- Linux GPU: ติดตั้ง
ipex-llm บน Linux ที่มี Intel GPU
- Docker: ใช้ Docker ของ
ipex-llm บน Intel CPU และ GPU
- ดูรายละเอียดเพิ่มเติมได้จากคู่มือการติดตั้ง
รัน ipex-llm
- llama.cpp: รัน
ipex-llm สำหรับ llama.cpp บน Intel GPU
- vLLM: รัน
ipex-llm บน vLLM สำหรับ Intel GPU และ CPU
- FastChat: รัน
ipex-llm บนบริการ FastChat สำหรับ Intel GPU และ CPU
- LangChain-Chatchat RAG: รัน
ipex-llm บน LangChain-Chatchat
- Text-Generation-WebUI: รัน
ipex-llm บน WebUI ของ oobabooga
- Benchmarking: รันการวัดประสิทธิภาพของ
ipex-llm บน Intel CPU และ GPU
ตัวอย่างโค้ด
- การอนุมานแบบ low-bit
- การอนุมาน INT4: การอนุมาน LLM แบบ INT4 บน Intel GPU และ CPU
- การอนุมาน FP8/FP4: การอนุมาน LLM แบบ FP8 และ FP4 บน Intel GPU
- การอนุมาน INT8: การอนุมาน LLM แบบ INT8 บน Intel GPU และ CPU
- การอนุมาน INT2: การอนุมาน LLM แบบ INT2 บน Intel GPU
- การอนุมาน FP16/BF16
- การอนุมาน LLM แบบ FP16: พร้อมการปรับแต่ง self-speculative decoding ที่ใช้ได้บน Intel GPU
- การอนุมาน LLM แบบ BF16: พร้อมการปรับแต่ง self-speculative decoding ที่ใช้ได้บน Intel CPU
- การบันทึกและโหลด
- โมเดล low-bit: บันทึกและโหลดโมเดล low-bit ของ
ipex-llm
- GGUF: โหลดโมเดล GGUF เข้า
ipex-llm ได้โดยตรง
- AWQ: โหลดโมเดล AWQ เข้า
ipex-llm ได้โดยตรง
- GPTQ: โหลดโมเดล GPTQ เข้า
ipex-llm ได้โดยตรง
- การ fine-tuning
- การทำ LLM fine-tuning บน Intel GPU รวมถึง LoRA, QLoRA, DPO, QA-LoRA และ ReLoRA
- การทำ QLoRA fine-tuning บน Intel CPU
- การผสานกับไลบรารีของชุมชน
- HuggingFace transformers
- โมเดล PyTorch มาตรฐาน
- DeepSpeed-AutoTP
- HuggingFace PEFT
- HuggingFace TRL
- LangChain
- LlamaIndex
- AutoGen
- ModeScope
- บทช่วยสอน
- ดูรายละเอียดเพิ่มเติมได้จากเว็บไซต์เอกสารของ
ipex-llm
โมเดลที่ผ่านการตรวจสอบ
- โมเดลมากกว่า 50 รุ่นที่ได้รับการปรับแต่ง/ตรวจสอบแล้วใน
ipex-llm ได้แก่ LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper และอื่น ๆ โดยสามารถดูรายการได้ด้านล่าง
ความเห็นของ GN⁺
IPEX-LLM เป็นเครื่องมือทรงพลังที่ช่วยให้สามารถรันโมเดลภาษาขนาดใหญ่แบบปรับแต่งประสิทธิภาพบนฮาร์ดแวร์ Intel ได้ ซึ่งอาจเป็นประโยชน์อย่างมากต่อการวิจัยและพัฒนา AI
- ไลบรารีนี้ผสานกับโมเดลและเครื่องมือหลากหลาย ทำให้ผู้ใช้เข้าถึงและนำไปใช้งานได้ง่าย
- อย่างไรก็ตาม เนื่องจากถูกออกแบบมาเฉพาะทางสำหรับฮาร์ดแวร์ Intel จึงอาจไม่สามารถรับประกันประสิทธิภาพสูงสุดบนฮาร์ดแวร์จากผู้ผลิตรายอื่นได้
- การนำเทคโนโลยีนี้มาใช้ควรมีความเข้าใจที่เพียงพอเกี่ยวกับความเข้ากันได้ของฮาร์ดแวร์และการจูนประสิทธิภาพ
- ช่วยให้การอนุมานและการ fine-tuning โมเดลภาษาขนาดใหญ่ทำได้รวดเร็วขึ้น จึงมีส่วนช่วยประหยัดเวลาและทรัพยากร
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
ความคาดหวังต่อการปฏิวัติ VRAM ของ GPU
ประเมินเชิงบวกต่อการสนับสนุนซอฟต์แวร์ของ Intel
คำขอคำแนะนำเกี่ยวกับ Intel GPU
ความสนใจต่อ benchmark ด้านประสิทธิภาพ
ข้อเสนอเรื่องความสะดวกในการใช้ GPU บนคลาวด์
การไม่มี Intel GPU จากผู้ให้บริการคลาวด์
การแสดงความคาดหวังต่อรีวิวสินค้า