- งานวิจัยเกี่ยวกับวิธีใหม่ในการปรับปรุงความสามารถด้านความจำระยะยาวของโมเดลภาษาขนาดใหญ่ (LLMs) ที่ใช้ในระบบสนทนาแบบเปิด
- ปัญหาสำคัญของระบบสนทนาแบบเปิดคือการลืมข้อมูลสำคัญในการสนทนาระยะยาว
- แนวทางแก้ไขเดิมคือการฝึกตัวค้นคืนหรือเครื่องมือสรุปเฉพาะทางเพื่อดึงข้อมูลสำคัญจากเนื้อหาการสนทนา แต่ใช้เวลามากและพึ่งพาคุณภาพของข้อมูลที่มีการติดป้ายกำกับอย่างมาก
- วิธีที่นำเสนอพยายามบรรเทาปัญหานี้ด้วยการใช้ LLMs สร้างบทสรุปหรือความทรงจำแบบเรียกซ้ำ
- วิธีนี้เริ่มจากให้ LLMs จดจำบริบทการสนทนาขนาดเล็กก่อน จากนั้นใช้ความทรงจำก่อนหน้าและบริบทถัดไปเพื่อสร้างความทรงจำใหม่แบบเรียกซ้ำ
- ด้วยความช่วยเหลือของความทรงจำล่าสุด LLM สามารถสร้างคำตอบที่มีความสอดคล้องสูงมากได้
- วิธีนี้ได้รับการประเมินโดยใช้ ChatGPT และ text-davinci-003 และผลการทดลองบนชุดข้อมูลสาธารณะที่ใช้กันอย่างแพร่หลายแสดงให้เห็นว่าสามารถสร้างคำตอบที่สอดคล้องมากขึ้นในการสนทนาที่มีบริบทยาวได้
- วิธีนี้เป็นแนวทางแก้ปัญหาที่มีศักยภาพในการทำให้ LLM สามารถสร้างแบบจำลองบริบทที่ยาวมากเป็นพิเศษได้
- โค้ดและสคริปต์สำหรับวิธีนี้มีแผนจะเผยแพร่ในอนาคต
- งานวิจัยนี้ได้รับการสนับสนุนจาก Simons Foundation, สถาบันสมาชิก และผู้มีส่วนร่วมทุกคน
1 ความคิดเห็น
ความเห็นจาก Hacker News