- เมื่อ LLM ถูกใช้งานอย่างแพร่หลายมากขึ้น การรองรับซีเควนซ์ยาวจึงมีความสำคัญมากขึ้น เช่น การสรุปเอกสาร การเขียนโค้ด และการคาดการณ์ลำดับโปรตีน
- แต่ LLM โอเพนซอร์สส่วนใหญ่ (LLaMA, MPT, Falcon) ถูกฝึกด้วยความยาวซีเควนซ์โทเค็นสูงสุดเพียง 2K
- XGen-7B ถูกฝึกด้วย 1.5T โทเค็น และรองรับความยาวซีเควนซ์ได้สูงสุดถึง 8K
- บนมาตรฐานทดสอบ NLP ทั่วไป ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า MPT, Falcon, LLaMA, Redpajama และ OpenLLaMA ที่มีขนาดโมเดลเท่ากัน
- ให้ผลลัพธ์ยอดเยี่ยมทั้งในงานด้านข้อความ (MMLU, QA) และโค้ด (HumanEval)
- ใช้ค่าใช้จ่ายในการฝึกราว $150K สำหรับ 1T โทเค็นบน TPU-v4
ยังไม่มีความคิดเห็น