MosaicML เปิดตัวโมเดล MPT-7B-8K

xguru · 2023-07-21T10:02:02+09:00

LLM โอเพนซอร์สขนาด 7B พารามิเตอร์ที่รองรับความยาวคอนเท็กซ์ 8k ต่อจาก MPT-7B ได้ทำการเทรนเพิ่มเติมเป็นเวลา 3 วันบน NVidia H100 จำนวน 256 ตัว โดยใช้ข้อมูล 500B โทเค็น เปิดตัว 3 โมเดล: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat สามารถใช้งานเพื่อวัตถุประสงค์เชิงพาณิชย์ได้ รองรับอินพุต 8k ด้วย ALiBi (Attention with Linear Biases Enables Input Length Extrapolation) เทรนและอนุมานได้รวดเร็วด้วย FlashAttention และ FasterTrasformer

(mosaicml.com)

9 คะแนน โดย xguru 2023-07-21 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

LLM โอเพนซอร์สขนาด 7B พารามิเตอร์ที่รองรับความยาวคอนเท็กซ์ 8k
ต่อจาก MPT-7B ได้ทำการเทรนเพิ่มเติมเป็นเวลา 3 วันบน NVidia H100 จำนวน 256 ตัว โดยใช้ข้อมูล 500B โทเค็น
เปิดตัว 3 โมเดล: MPT-7B-8k, MPT-7B-8k-Instruct, MPT-7B-8k-Chat
สามารถใช้งานเพื่อวัตถุประสงค์เชิงพาณิชย์ได้
รองรับอินพุต 8k ด้วย ALiBi (Attention with Linear Biases Enables Input Length Extrapolation)
เทรนและอนุมานได้รวดเร็วด้วย FlashAttention และ FasterTrasformer

MosaicML เปิดตัวโมเดล MPT-7B-8K

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น