- ไลบรารี inference ที่ออกแบบมาสำหรับรัน Local LLM บน GPU อย่าง 3090/4090
- เป็นรีลีสเริ่มต้น และโค้ดยังอยู่ในขั้นทดสอบ โดยฟีเจอร์สำคัญบางส่วนยังไม่ได้ถูกพัฒนา
- เมื่อเทียบกับ V1 แล้ว ExLlamaV2 เร็วกว่า มีเคอร์เนลที่ดีกว่า โค้ดเบสที่สะอาดและหลากหลายกว่า รวมถึงรองรับฟอร์แมตการทำ quantization แบบใหม่
- อาศัย Torch C++ extension สำหรับฟังก์ชัน CUDA ซึ่งจะถูกคอมไพล์ตอนรันไทม์ การใช้งานครั้งแรกของไลบรารีจะใช้เวลา 10-20 วินาที แต่ extension จะถูกแคชไว้สำหรับการใช้งานครั้งถัดไป
- รองรับโมเดล GPTQ แบบ 4 บิตเช่นเดียวกับ V1 และยังรองรับฟอร์แมตใหม่ "EXL2" ที่สามารถผสมระดับการ quantization ภายในโมเดล เพื่อให้ได้อัตราบิตเฉลี่ยตั้งแต่ 2 บิตถึง 8 บิต
- การเลือกพารามิเตอร์สำหรับการ quantization ทำโดยอัตโนมัติ และมีสคริปต์สำหรับใช้ quantize โมเดลมาให้
- ยังมีการกล่าวว่ามีการอัปโหลดโมเดลที่ถูก quantize แบบ EXL2 บางส่วนไว้บน HuggingFace เพื่อให้ผู้ใช้ทดลองใช้งานได้
- แผนในอนาคตรวมถึงแพ็กเกจ PyPi ที่มี prebuilt extension, การรองรับ LoRA, เว็บ UI ตัวอย่าง, เว็บเซิร์ฟเวอร์ และ sampler เพิ่มเติม
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News