Meta เปิดตัว LLAMA 2 Long ที่รองรับ context window ขนาด 32k โทเค็น
(venturebeat.com)- เปิดตัวโมเดล LLaMA2 Long ผ่านงานวิจัยเรื่อง Effective Long-Context Scaling of Foundation Models
- ลิงก์งานวิจัย: https://arxiv.org/pdf/2309.16039.pdf
- รองรับความยาวของ context window ได้สูงสุด 32K (32,768) โทเค็น
- เวอร์ชัน 70B มีประสิทธิภาพโดยรวมเหนือกว่า gpt-3.5-turbo-16k ในชุดงานที่เกี่ยวกับคอนเท็กซ์ยาวแล้ว
- ยังคงโครงสร้างโมเดลเดิมไว้ พร้อมใช้ RoPE (Rotary Positional Embedding) กับ Positional Encoding เพื่อสร้างคำตอบที่ดีกว่าด้วยข้อมูลที่น้อยลง
- คำอธิบาย RoPE: https://blog.eleuther.ai/rotary-embeddings/
ยังไม่มีความคิดเห็น