- โมเดล Llama3-gradient ซึ่งพัฒนาโดย Gradient ได้ขยายความยาวบริบทของ Llama-3 8B จาก 8k เป็นมากกว่า 1040K
- แสดงให้เห็นว่า SOTA LLM สามารถปรับค่า RoPE theta อย่างเหมาะสมเพื่อเรียนรู้วิธีทำงานกับบริบทที่ยาวขึ้นด้วยการฝึกฝึกเพียงเล็กน้อย
- ขั้นตอนนี้ได้รับการฝึกด้วย 830M โทเค็น และในทุกขั้นตอนรวมกันมีโทเค็นทั้งหมด 1.4B ซึ่งเป็นเพียง 0.1% ของข้อมูลการฝึกล่วงหน้าต้นฉบับของ Llama3
- หมายเหตุ: หากต้องการใช้บริบท 256k จะต้องใช้หน่วยความจำอย่างน้อย 64GB และหากต้องการบริบทมากกว่า 1M ต้องใช้หน่วยความจำอย่างน้อย 100GB
1 ความคิดเห็น
คาดว่าสาเหตุคือการขยาย context window ทำให้ประสิทธิภาพลดลงอย่างมากเมื่อเทียบกับ LLaMa 3 ตัวเดิม จนแทบใช้งานไม่ได้ มีคนแสดงความคิดเห็นแบบนี้
https://twitter.com/ArkaPal999/status/1785611161540378707