- บทความเกี่ยวกับการนำโมเดลภาษาขนาดใหญ่ (Large Language Models, LLMs) ไปใช้งานในแอปพลิเคชันแบบสตรีมมิง ซึ่งเป็นเรื่องท้าทายเนื่องจากการใช้หน่วยความจำและความสามารถที่จำกัดของ LLMs ในการทำให้ทั่วไปกับข้อความที่ยาวเกินกว่าความยาวลำดับที่ใช้ฝึก
- ผู้เขียนแนะนำแนวคิดของ "attention sink" ซึ่งหมายถึงปรากฏการณ์ของคะแนน attention ที่สูงอย่างมากต่อโทเค็นช่วงต้น แม้ว่าโทเค็นเหล่านั้นจะไม่ได้มีความสำคัญเชิงความหมายก็ตาม
- ผู้เขียนนำเสนอ StreamingLLM ซึ่งเป็นเฟรมเวิร์กที่มีประสิทธิภาพและช่วยให้ LLMs ที่ฝึกด้วยหน้าต่าง attention ความยาวจำกัด สามารถทำให้ทั่วไปกับลำดับความยาวไม่สิ้นสุดได้โดยไม่ต้องปรับจูนละเอียดเพิ่มเติม
- StreamingLLM ช่วยให้โมเดลอย่าง Llama-2, MPT, Falcon และ Pythia สามารถทำ language modeling ได้อย่างเสถียรและมีประสิทธิภาพที่ความยาวสูงสุดมากกว่า 4 ล้านโทเค็น
- ผู้เขียนยังพบว่า การเพิ่ม placeholder token ระหว่างการพรีเทรนให้เป็น attention sink โดยเฉพาะ สามารถช่วยปรับปรุงการนำไปใช้แบบสตรีมมิงได้ดียิ่งขึ้น
- ในการตั้งค่าแบบสตรีมมิง StreamingLLM เร็วกว่าวิธี sliding window recomputation baseline ได้สูงสุด 22.2 เท่า
- ผู้เขียนชี้แจงอย่างชัดเจนว่า context window ของ LLMs ไม่ได้ถูกขยายใน StreamingLLM และโมเดลยังคงประมวลผลได้เฉพาะโทเค็นล่าสุดเท่านั้น
- StreamingLLM เหมาะอย่างยิ่งสำหรับแอปพลิเคชันแบบสตรีมมิง เช่น บทสนทนาหลายรอบ ที่โมเดลต้องทำงานต่อเนื่องโดยไม่พึ่งพาหน่วยความจำขนาดใหญ่หรือข้อมูลในอดีตอย่างมาก
- ผู้เขียนมีแผนจะเปิดเผยโค้ดหลักของ StreamingLLM รวมถึงโค้ดสำหรับ Llama-2, MPT, Falcon, Pythia ตลอดจนโค้ด perplexity, เดโม Streaming Llama Chatbot, ชุดข้อมูล StreamEval และโค้ดประเมินผล
ยังไม่มีความคิดเห็น