• เมื่อ LLM ถูกใช้งานอย่างแพร่หลายมากขึ้น การรองรับซีเควนซ์ยาวจึงมีความสำคัญมากขึ้น เช่น การสรุปเอกสาร การเขียนโค้ด และการคาดการณ์ลำดับโปรตีน
  • แต่ LLM โอเพนซอร์สส่วนใหญ่ (LLaMA, MPT, Falcon) ถูกฝึกด้วยความยาวซีเควนซ์โทเค็นสูงสุดเพียง 2K
  • XGen-7B ถูกฝึกด้วย 1.5T โทเค็น และรองรับความยาวซีเควนซ์ได้สูงสุดถึง 8K
  • บนมาตรฐานทดสอบ NLP ทั่วไป ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า MPT, Falcon, LLaMA, Redpajama และ OpenLLaMA ที่มีขนาดโมเดลเท่ากัน
  • ให้ผลลัพธ์ยอดเยี่ยมทั้งในงานด้านข้อความ (MMLU, QA) และโค้ด (HumanEval)
  • ใช้ค่าใช้จ่ายในการฝึกราว $150K สำหรับ 1T โทเค็นบน TPU-v4

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น