Microsoft LLMLingua - บีบอัดพรอมต์เพื่อเร่งการอนุมานและลดต้นทุน
(github.com/microsoft)- ใช้โมเดลภาษาขนาดเล็กที่มีการจัดแนวและฝึกมาอย่างดีสำหรับการบีบอัด เช่น GPT2-small หรือ LLaMA-7B
- ตรวจจับโทเค็นที่ไม่สำคัญในพรอมต์ และทำให้สามารถอนุมานด้วยพรอมต์ที่ถูกบีบอัดบน black-box LLM ได้
- บีบอัดพรอมต์และ KV-Cache เพื่อเพิ่มความเร็วในการอนุมานของ LLM และปรับปรุงการรับรู้ของ LLM ต่อข้อมูลสำคัญ
- บรรลุการบีบอัดได้สูงสุด 20 เท่า โดยสูญเสียประสิทธิภาพให้น้อยที่สุด
- ลดต้นทุนด้วยการลดทั้งพรอมต์และคอนเท็กซ์ที่ถูกสร้างขึ้น
- รองรับคอนเท็กซ์ที่ยาวขึ้นได้ โดยเพิ่มความหนาแน่นของข้อมูลสำคัญภายในพรอมต์
ยังไม่มีความคิดเห็น