XGen-7B - LLM ขนาด 7B ที่ฝึกด้วย 1.5T โทเค็น รองรับความยาวซีเควนซ์สูงสุด 8K

xguru · 2023-07-01T10:02:01+09:00

เมื่อ LLM ถูกใช้งานอย่างแพร่หลายมากขึ้น การรองรับซีเควนซ์ยาวจึงมีความสำคัญมากขึ้น เช่น การสรุปเอกสาร การเขียนโค้ด และการคาดการณ์ลำดับโปรตีน แต่ LLM โอเพนซอร์สส่วนใหญ่ (LLaMA, MPT, Falcon) ถูกฝึกด้วยความยาวซีเควนซ์โทเค็นสูงสุดเพียง 2K XGen-7B ถูกฝึกด้วย 1.5T โทเค็น และรองรับความยาวซีเควนซ์ได้สูงสุดถึง 8K บนมาตรฐานทดสอบ NLP ทั่วไป ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า MPT, Falcon, LLaMA, Redpajama และ OpenLLaMA ที่มีขนาดโมเดลเท่ากัน ให้ผลลัพธ์ยอดเยี่ยมทั้งในงานด้านข้อความ (MMLU, QA) และโค้ด (HumanEval) ใช้ค่าใช้จ่ายในการฝึกราว $150K สำหรับ 1T โทเค็นบน TPU-v4

(blog.salesforceairesearch.com)

4 คะแนน โดย xguru 2023-07-01 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เมื่อ LLM ถูกใช้งานอย่างแพร่หลายมากขึ้น การรองรับซีเควนซ์ยาวจึงมีความสำคัญมากขึ้น เช่น การสรุปเอกสาร การเขียนโค้ด และการคาดการณ์ลำดับโปรตีน
แต่ LLM โอเพนซอร์สส่วนใหญ่ (LLaMA, MPT, Falcon) ถูกฝึกด้วยความยาวซีเควนซ์โทเค็นสูงสุดเพียง 2K
XGen-7B ถูกฝึกด้วย 1.5T โทเค็น และรองรับความยาวซีเควนซ์ได้สูงสุดถึง 8K
บนมาตรฐานทดสอบ NLP ทั่วไป ให้ประสิทธิภาพเทียบเท่าหรือดีกว่า MPT, Falcon, LLaMA, Redpajama และ OpenLLaMA ที่มีขนาดโมเดลเท่ากัน
ให้ผลลัพธ์ยอดเยี่ยมทั้งในงานด้านข้อความ (MMLU, QA) และโค้ด (HumanEval)
ใช้ค่าใช้จ่ายในการฝึกราว $150K สำหรับ 1T โทเค็นบน TPU-v4

XGen-7B - LLM ขนาด 7B ที่ฝึกด้วย 1.5T โทเค็น รองรับความยาวซีเควนซ์สูงสุด 8K

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น