Microsoft LLMLingua - บีบอัดพรอมต์เพื่อเร่งการอนุมานและลดต้นทุน

xguru · 2023-12-22T10:02:02+09:00

ใช้โมเดลภาษาขนาดเล็กที่มีการจัดแนวและฝึกมาอย่างดีสำหรับการบีบอัด เช่น GPT2-small หรือ LLaMA-7B ตรวจจับโทเค็นที่ไม่สำคัญในพรอมต์ และทำให้สามารถอนุมานด้วยพรอมต์ที่ถูกบีบอัดบน black-box LLM ได้ บีบอัดพรอมต์และ KV-Cache เพื่อเพิ่มความเร็วในการอนุมานของ LLM และปรับปรุงการรับรู้ของ LLM ต่อข้อมูลสำคัญ บรรลุการบีบอัดได้สูงสุด 20 เท่า โดยสูญเสียประสิทธิภาพให้น้อยที่สุด ลดต้นทุนด้วยการลดทั้งพรอมต์และคอนเท็กซ์ที่ถูกสร้างขึ้น รองรับคอนเท็กซ์ที่ยาวขึ้นได้ โดยเพิ่มความหนาแน่นของข้อมูลสำคัญภายในพรอมต์

(github.com/microsoft)

10 คะแนน โดย xguru 2023-12-22 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ใช้โมเดลภาษาขนาดเล็กที่มีการจัดแนวและฝึกมาอย่างดีสำหรับการบีบอัด เช่น GPT2-small หรือ LLaMA-7B
ตรวจจับโทเค็นที่ไม่สำคัญในพรอมต์ และทำให้สามารถอนุมานด้วยพรอมต์ที่ถูกบีบอัดบน black-box LLM ได้
- บีบอัดพรอมต์และ KV-Cache เพื่อเพิ่มความเร็วในการอนุมานของ LLM และปรับปรุงการรับรู้ของ LLM ต่อข้อมูลสำคัญ
- บรรลุการบีบอัดได้สูงสุด 20 เท่า โดยสูญเสียประสิทธิภาพให้น้อยที่สุด
ลดต้นทุนด้วยการลดทั้งพรอมต์และคอนเท็กซ์ที่ถูกสร้างขึ้น
รองรับคอนเท็กซ์ที่ยาวขึ้นได้ โดยเพิ่มความหนาแน่นของข้อมูลสำคัญภายในพรอมต์

Microsoft LLMLingua - บีบอัดพรอมต์เพื่อเร่งการอนุมานและลดต้นทุน

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น