6 คะแนน โดย xguru 2024-05-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล Llama3-gradient ซึ่งพัฒนาโดย Gradient ได้ขยายความยาวบริบทของ Llama-3 8B จาก 8k เป็นมากกว่า 1040K
  • แสดงให้เห็นว่า SOTA LLM สามารถปรับค่า RoPE theta อย่างเหมาะสมเพื่อเรียนรู้วิธีทำงานกับบริบทที่ยาวขึ้นด้วยการฝึกฝึกเพียงเล็กน้อย
  • ขั้นตอนนี้ได้รับการฝึกด้วย 830M โทเค็น และในทุกขั้นตอนรวมกันมีโทเค็นทั้งหมด 1.4B ซึ่งเป็นเพียง 0.1% ของข้อมูลการฝึกล่วงหน้าต้นฉบับของ Llama3
  • หมายเหตุ: หากต้องการใช้บริบท 256k จะต้องใช้หน่วยความจำอย่างน้อย 64GB และหากต้องการบริบทมากกว่า 1M ต้องใช้หน่วยความจำอย่างน้อย 100GB

1 ความคิดเห็น

 
livekth 2024-05-02

คาดว่าสาเหตุคือการขยาย context window ทำให้ประสิทธิภาพลดลงอย่างมากเมื่อเทียบกับ LLaMa 3 ตัวเดิม จนแทบใช้งานไม่ได้ มีคนแสดงความคิดเห็นแบบนี้

https://twitter.com/ArkaPal999/status/1785611161540378707