3 คะแนน โดย GN⁺ 2023-09-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ไลบรารี inference ที่ออกแบบมาสำหรับรัน Local LLM บน GPU อย่าง 3090/4090
  • เป็นรีลีสเริ่มต้น และโค้ดยังอยู่ในขั้นทดสอบ โดยฟีเจอร์สำคัญบางส่วนยังไม่ได้ถูกพัฒนา
  • เมื่อเทียบกับ V1 แล้ว ExLlamaV2 เร็วกว่า มีเคอร์เนลที่ดีกว่า โค้ดเบสที่สะอาดและหลากหลายกว่า รวมถึงรองรับฟอร์แมตการทำ quantization แบบใหม่
  • อาศัย Torch C++ extension สำหรับฟังก์ชัน CUDA ซึ่งจะถูกคอมไพล์ตอนรันไทม์ การใช้งานครั้งแรกของไลบรารีจะใช้เวลา 10-20 วินาที แต่ extension จะถูกแคชไว้สำหรับการใช้งานครั้งถัดไป
  • รองรับโมเดล GPTQ แบบ 4 บิตเช่นเดียวกับ V1 และยังรองรับฟอร์แมตใหม่ "EXL2" ที่สามารถผสมระดับการ quantization ภายในโมเดล เพื่อให้ได้อัตราบิตเฉลี่ยตั้งแต่ 2 บิตถึง 8 บิต
  • การเลือกพารามิเตอร์สำหรับการ quantization ทำโดยอัตโนมัติ และมีสคริปต์สำหรับใช้ quantize โมเดลมาให้
  • ยังมีการกล่าวว่ามีการอัปโหลดโมเดลที่ถูก quantize แบบ EXL2 บางส่วนไว้บน HuggingFace เพื่อให้ผู้ใช้ทดลองใช้งานได้
  • แผนในอนาคตรวมถึงแพ็กเกจ PyPi ที่มี prebuilt extension, การรองรับ LoRA, เว็บ UI ตัวอย่าง, เว็บเซิร์ฟเวอร์ และ sampler เพิ่มเติม

1 ความคิดเห็น

 
GN⁺ 2023-09-14
ความคิดเห็นจาก Hacker News
  • บทความกล่าวถึง ExLlamaV2 ซึ่งเป็นไลบรารี inference ใหม่ที่ช่วยให้สามารถรันโมเดลภาษา (LLMs) บน GPU สำหรับผู้บริโภคได้
  • นี่อาจเป็นช่วงแรกที่ LLMs ขนาดใหญ่สามารถรันบน GPU สำหรับผู้บริโภคได้ด้วยความเร็วที่แข่งขันได้ และอาจแซงหน้า GPT-3.5-turbo หรือ GPT-4 ได้
  • ไลบรารีนี้ใช้วิธีเฉพาะในการ quantize เลเยอร์หรือโมดูลต่าง ๆ เพื่อลด perplexity ให้ต่ำที่สุดขณะปรับพารามิเตอร์
  • มีความสนใจในการเปรียบเทียบประสิทธิภาพของ GPU รุ่นต่าง ๆ เช่น 3090 และ 4090 รวมถึงดูว่าพวกมันจัดการกับโมเดลแต่ละแบบได้อย่างไร
  • บทความยังกล่าวถึงการเพิ่มการรองรับ ROCm ในระยะเริ่มต้น ซึ่งทำให้เกิดความสงสัยว่า RTX4090/3090 จะเทียบกับซีรีส์ 7900 ได้อย่างไร
  • ผู้อ่านสนใจการเปรียบเทียบความเร็วและการทำงานของโมเดลขนาดใหญ่บนฮาร์ดแวร์ระดับสูง เช่น การ์ด Nvidia ระดับท็อป
  • มีคำถามเกี่ยวกับประสิทธิภาพของโมเดลที่ต้องใช้การ์ดหลายใบเพื่อให้รันอยู่ในหน่วยความจำได้
  • บทความนี้ยังกระตุ้นให้เกิดการพูดคุยเกี่ยวกับรีลีสนี้ในซับเรดดิต "Local LLaMA"
  • ผู้อ่านสงสัยถึงผลของการลดโมเดลลงเหลือความกว้างบิตเดียว และมันยังทำงานได้อยู่หรือจะเริ่มสร้างข้อความไร้ความหมาย
  • มีคำถามเกี่ยวกับต้นทุนและ benchmark perplexity ของ ELX2 รวมถึงมีเสียงบ่นบางส่วนว่า Facebook ทำ llama v2 เป็น 70B แทนที่จะเป็น 65B
  • ผู้อ่านกำลังมองหาข้อมูลเพิ่มเติมเกี่ยวกับการ quantize แบบ EXL2/GPTQ ซึ่งดูเหมือนจะเป็นสาเหตุหลักของการเพิ่มความเร็วในโมเดลนี้
  • มีการเปรียบเทียบระหว่าง "70B Llama 2" กับ ChatGPT 3.5/4.0 พร้อมคำถามเกี่ยวกับประสิทธิภาพสัมพัทธ์ของพวกมัน