• ใช้โมเดลภาษาขนาดเล็กที่มีการจัดแนวและฝึกมาอย่างดีสำหรับการบีบอัด เช่น GPT2-small หรือ LLaMA-7B
  • ตรวจจับโทเค็นที่ไม่สำคัญในพรอมต์ และทำให้สามารถอนุมานด้วยพรอมต์ที่ถูกบีบอัดบน black-box LLM ได้
    • บีบอัดพรอมต์และ KV-Cache เพื่อเพิ่มความเร็วในการอนุมานของ LLM และปรับปรุงการรับรู้ของ LLM ต่อข้อมูลสำคัญ
    • บรรลุการบีบอัดได้สูงสุด 20 เท่า โดยสูญเสียประสิทธิภาพให้น้อยที่สุด
  • ลดต้นทุนด้วยการลดทั้งพรอมต์และคอนเท็กซ์ที่ถูกสร้างขึ้น
  • รองรับคอนเท็กซ์ที่ยาวขึ้นได้ โดยเพิ่มความหนาแน่นของข้อมูลสำคัญภายในพรอมต์

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น