• ใช้ Hyena ซึ่งเป็นสถาปัตยกรรมใหม่ที่มาแทน Transformer เพื่อรองรับคอนเท็กซ์ที่ยาวมาก (Ultra Long)
    • Hyena เป็นโมเดลลำดับที่ได้รับแรงบันดาลใจจากการประมวลผลสัญญาณ
  • เป็นโมเดลทางเลือกตัวแรกที่สามารถแข่งขันกับ Transformers ได้ในการประเมินทั้งคอนเท็กซ์สั้นและยาว
  • ให้ประสิทธิภาพใกล้เคียงกับ Llama-2, Yi และ Mistral 7B ในงานบน OpenLLM leaderboard และทำผลงานได้ยอดเยี่ยมในการสรุปคอนเท็กซ์ยาว
  • StripedHyena มีความเร็วกว่าและใช้หน่วยความจำอย่างมีประสิทธิภาพมากกว่าในการฝึก, การปรับจูนละเอียด และการสร้างข้อความสำหรับลำดับที่ยาว
  • ปรับให้เหมาะสมด้วยเทคนิคใหม่อย่าง Model Grafting ซึ่งช่วยให้สามารถเปลี่ยนสถาปัตยกรรมของโมเดลระหว่างการฝึกได้
    • StripedHyena ได้มาจากการผสานองค์ประกอบสถาปัตยกรรมของ Transformer และ Hyena และฝึกด้วยการผสมชุดข้อมูล RedPajama ที่เสริมด้วยข้อมูลคอนเท็กซ์ที่ยาวขึ้น

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น