Llama3-gradient - โมเดลที่ขยายความยาวบริบทของ Llama จาก 8k เป็น 1M

xguru · 2024-05-02T10:46:01+09:00

โมเดล Llama3-gradient ซึ่งพัฒนาโดย Gradient ได้ขยายความยาวบริบทของ Llama-3 8B จาก 8k เป็นมากกว่า 1040K แสดงให้เห็นว่า SOTA LLM สามารถปรับค่า RoPE theta อย่างเหมาะสมเพื่อเรียนรู้วิธีทำงานกับบริบทที่ยาวขึ้นด้วยการฝึกฝึกเพียงเล็กน้อย ขั้นตอนนี้ได้รับการฝึกด้วย 830M โทเค็น และในทุกขั้นตอนรวมกันมีโทเค็นทั้งหมด 1.4B ซึ่งเป็นเพียง 0.1% ของข้อมูลการฝึกล่วงหน้าต้นฉบับของ Llama3 หมายเหตุ: หากต้องการใช้บริบท 256k จะต้องใช้หน่วยความจำอย่างน้อย 64GB และหากต้องการบริบทมากกว่า 1M ต้องใช้หน่วยความจำอย่างน้อย 100GB

(ollama.com)

6 คะแนน โดย xguru 2024-05-02 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล Llama3-gradient ซึ่งพัฒนาโดย Gradient ได้ขยายความยาวบริบทของ Llama-3 8B จาก 8k เป็นมากกว่า 1040K
แสดงให้เห็นว่า SOTA LLM สามารถปรับค่า RoPE theta อย่างเหมาะสมเพื่อเรียนรู้วิธีทำงานกับบริบทที่ยาวขึ้นด้วยการฝึกฝึกเพียงเล็กน้อย
ขั้นตอนนี้ได้รับการฝึกด้วย 830M โทเค็น และในทุกขั้นตอนรวมกันมีโทเค็นทั้งหมด 1.4B ซึ่งเป็นเพียง 0.1% ของข้อมูลการฝึกล่วงหน้าต้นฉบับของ Llama3
หมายเหตุ: หากต้องการใช้บริบท 256k จะต้องใช้หน่วยความจำอย่างน้อย 64GB และหากต้องการบริบทมากกว่า 1M ต้องใช้หน่วยความจำอย่างน้อย 100GB

1 ความคิดเห็น

livekth 2024-05-02

คาดว่าสาเหตุคือการขยาย context window ทำให้ประสิทธิภาพลดลงอย่างมากเมื่อเทียบกับ LLaMa 3 ตัวเดิม จนแทบใช้งานไม่ได้ มีคนแสดงความคิดเห็นแบบนี้

https://twitter.com/ArkaPal999/status/1785611161540378707

Llama3-gradient - โมเดลที่ขยายความยาวบริบทของ Llama จาก 8k เป็น 1M

บทความที่เกี่ยวข้อง

1 ความคิดเห็น