1 คะแนน โดย GN⁺ 2024-04-05 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

💫 IPEX-LLM

  • IPEX-LLM คือไลบรารี PyTorch สำหรับรัน LLM บน Intel CPU และ GPU ด้วยค่าหน่วงต่ำมาก
  • สร้างขึ้นบนผลงานที่ยอดเยี่ยมอย่าง Intel PyTorch Extension (IPEX), llama.cpp, bitsandbytes, vLLM, qlora, AutoGPTQ, AutoAWQ และอื่น ๆ
  • ให้การผสานการทำงานอย่างราบรื่นกับ llama.cpp, Text-Generation-WebUI, HuggingFace transformers และอื่น ๆ
  • มี โมเดลมากกว่า 50 รุ่น ที่ได้รับการปรับแต่ง/ตรวจสอบแล้วใน ipex-llm และสามารถดูรายการทั้งหมดได้ที่นี่

อัปเดตล่าสุด 🔥

  • bigdl-llm ถูกเปลี่ยนชื่อเป็น ipex-llm แล้ว และโปรเจกต์ BigDL เดิมสามารถดูได้ที่นี่
  • ตอนนี้ ipex-llm สามารถโหลดโมเดลจาก ModelScope(魔搭) ได้โดยตรง
  • ipex-llm เพิ่มการรองรับ INT2 ทำให้สามารถรัน LLM ขนาดใหญ่บน Intel GPU (เช่น Mixtral-8x7B) ด้วย VRAM 16GB ได้
  • ตอนนี้ผู้ใช้สามารถใช้ ipex-llm ผ่าน GUI ของ Text-Generation-WebUI ได้แล้ว
  • ตอนนี้ ipex-llm รองรับ Self-Speculative Decoding ซึ่งช่วยเร่งเวลาแฝงของการอนุมาน FP16 และ BF16 บน Intel GPU และ CPU ได้ราว 30% ตามลำดับ
  • ตอนนี้ ipex-llm รองรับรายการแบบครอบคลุมสำหรับการ fine-tuning LLM บน Intel GPU

เดโม ipex-llm

  • สามารถดู ประสิทธิภาพที่ปรับแต่งแล้ว ของโมเดล chatglm2-6b และ llama-2-13b-chat บน Intel Core CPU เจน 12 และ Intel Arc GPU ได้ด้านล่าง

เริ่มต้นใช้งาน ipex-llm อย่างรวดเร็ว

ติดตั้ง ipex-llm

  • Windows GPU: ติดตั้ง ipex-llm บน Windows ที่มี Intel GPU
  • Linux GPU: ติดตั้ง ipex-llm บน Linux ที่มี Intel GPU
  • Docker: ใช้ Docker ของ ipex-llm บน Intel CPU และ GPU
  • ดูรายละเอียดเพิ่มเติมได้จากคู่มือการติดตั้ง

รัน ipex-llm

  • llama.cpp: รัน ipex-llm สำหรับ llama.cpp บน Intel GPU
  • vLLM: รัน ipex-llm บน vLLM สำหรับ Intel GPU และ CPU
  • FastChat: รัน ipex-llm บนบริการ FastChat สำหรับ Intel GPU และ CPU
  • LangChain-Chatchat RAG: รัน ipex-llm บน LangChain-Chatchat
  • Text-Generation-WebUI: รัน ipex-llm บน WebUI ของ oobabooga
  • Benchmarking: รันการวัดประสิทธิภาพของ ipex-llm บน Intel CPU และ GPU

ตัวอย่างโค้ด

  • การอนุมานแบบ low-bit
    • การอนุมาน INT4: การอนุมาน LLM แบบ INT4 บน Intel GPU และ CPU
    • การอนุมาน FP8/FP4: การอนุมาน LLM แบบ FP8 และ FP4 บน Intel GPU
    • การอนุมาน INT8: การอนุมาน LLM แบบ INT8 บน Intel GPU และ CPU
    • การอนุมาน INT2: การอนุมาน LLM แบบ INT2 บน Intel GPU
  • การอนุมาน FP16/BF16
    • การอนุมาน LLM แบบ FP16: พร้อมการปรับแต่ง self-speculative decoding ที่ใช้ได้บน Intel GPU
    • การอนุมาน LLM แบบ BF16: พร้อมการปรับแต่ง self-speculative decoding ที่ใช้ได้บน Intel CPU
  • การบันทึกและโหลด
    • โมเดล low-bit: บันทึกและโหลดโมเดล low-bit ของ ipex-llm
    • GGUF: โหลดโมเดล GGUF เข้า ipex-llm ได้โดยตรง
    • AWQ: โหลดโมเดล AWQ เข้า ipex-llm ได้โดยตรง
    • GPTQ: โหลดโมเดล GPTQ เข้า ipex-llm ได้โดยตรง
  • การ fine-tuning
    • การทำ LLM fine-tuning บน Intel GPU รวมถึง LoRA, QLoRA, DPO, QA-LoRA และ ReLoRA
    • การทำ QLoRA fine-tuning บน Intel CPU
  • การผสานกับไลบรารีของชุมชน
    • HuggingFace transformers
    • โมเดล PyTorch มาตรฐาน
    • DeepSpeed-AutoTP
    • HuggingFace PEFT
    • HuggingFace TRL
    • LangChain
    • LlamaIndex
    • AutoGen
    • ModeScope
  • บทช่วยสอน
    • ดูรายละเอียดเพิ่มเติมได้จากเว็บไซต์เอกสารของ ipex-llm

โมเดลที่ผ่านการตรวจสอบ

  • โมเดลมากกว่า 50 รุ่นที่ได้รับการปรับแต่ง/ตรวจสอบแล้วใน ipex-llm ได้แก่ LLaMA/LLaMA2, Mistral, Mixtral, Gemma, LLaVA, Whisper และอื่น ๆ โดยสามารถดูรายการได้ด้านล่าง

ความเห็นของ GN⁺

  • IPEX-LLM เป็นเครื่องมือทรงพลังที่ช่วยให้สามารถรันโมเดลภาษาขนาดใหญ่แบบปรับแต่งประสิทธิภาพบนฮาร์ดแวร์ Intel ได้ ซึ่งอาจเป็นประโยชน์อย่างมากต่อการวิจัยและพัฒนา AI
  • ไลบรารีนี้ผสานกับโมเดลและเครื่องมือหลากหลาย ทำให้ผู้ใช้เข้าถึงและนำไปใช้งานได้ง่าย
  • อย่างไรก็ตาม เนื่องจากถูกออกแบบมาเฉพาะทางสำหรับฮาร์ดแวร์ Intel จึงอาจไม่สามารถรับประกันประสิทธิภาพสูงสุดบนฮาร์ดแวร์จากผู้ผลิตรายอื่นได้
  • การนำเทคโนโลยีนี้มาใช้ควรมีความเข้าใจที่เพียงพอเกี่ยวกับความเข้ากันได้ของฮาร์ดแวร์และการจูนประสิทธิภาพ
  • ช่วยให้การอนุมานและการ fine-tuning โมเดลภาษาขนาดใหญ่ทำได้รวดเร็วขึ้น จึงมีส่วนช่วยประหยัดเวลาและทรัพยากร

1 ความคิดเห็น

 
GN⁺ 2024-04-05
ความคิดเห็นจาก Hacker News
  • ความคาดหวังต่อการปฏิวัติ VRAM ของ GPU

    บริษัทหนึ่งมีโอกาสหลุดพ้นจากยุค "4-core ตลอดกาล" และทำลายข้อจำกัดยาวนานของ AMD และ Nvidia ที่เป็นเหมือน "8-16GB VRAM ตลอดกาล" ผ่านการเปิดตัว consumer GPU รุ่นถัดไป การมอบ VRAM 32-48GB ในราคาสมเหตุสมผลคงเป็นอะไรที่งดงามมาก

  • ประเมินเชิงบวกต่อการสนับสนุนซอฟต์แวร์ของ Intel

    Intel กำลังเดินไปในทิศทางที่ถูกต้องในด้านการสนับสนุนซอฟต์แวร์ อยากเห็นข้อมูล benchmark และความเร็วในตัวอย่างที่นำเสนอก็ดูค่อนข้างดี

  • คำขอคำแนะนำเกี่ยวกับ Intel GPU

    ต้องการคำแนะนำเกี่ยวกับ Intel GPU ที่มี vRAM เยอะ ๆ และสอบถามว่ามีผลิตภัณฑ์ที่ใช้งานร่วมกับสิ่งนี้ได้หรือไม่

  • ความสนใจต่อ benchmark ด้านประสิทธิภาพ

    สนใจการเปรียบเทียบประสิทธิภาพกับ llamafile หรือ benchmark อื่น ๆ และมีการให้ลิงก์ไปยัง benchmark ดังกล่าว

  • ข้อเสนอเรื่องความสะดวกในการใช้ GPU บนคลาวด์

    น่าจะดีถ้ามีสคริปต์สำหรับรันตัวอย่างบน GPU ที่เข้ากันได้จากผู้ให้บริการคลาวด์ สนใจว่าจะมีหรือไม่ และกำลังพิจารณาการตั้งค่าด้วยตัวเอง

  • การไม่มี Intel GPU จากผู้ให้บริการคลาวด์

    ผู้ให้บริการคลาวด์รายใหญ่ไม่ได้ให้บริการ Intel GPU

  • การแสดงความคาดหวังต่อรีวิวสินค้า

    รออ่านรีวิว และสนใจการประเมินผลิตภัณฑ์ในอนาคต