• เปิดตัวโมเดล LLaMA2 Long ผ่านงานวิจัยเรื่อง Effective Long-Context Scaling of Foundation Models
  • รองรับความยาวของ context window ได้สูงสุด 32K (32,768) โทเค็น
  • เวอร์ชัน 70B มีประสิทธิภาพโดยรวมเหนือกว่า gpt-3.5-turbo-16k ในชุดงานที่เกี่ยวกับคอนเท็กซ์ยาวแล้ว
  • ยังคงโครงสร้างโมเดลเดิมไว้ พร้อมใช้ RoPE (Rotary Positional Embedding) กับ Positional Encoding เพื่อสร้างคำตอบที่ดีกว่าด้วยข้อมูลที่น้อยลง

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น