Google เปิดซอร์สโค้ดโมเดล AI NLP Switch Transformer ขนาด 1.6 ล้านล้านพารามิเตอร์

xguru · 2021-02-19T10:43:21+09:00

ปรับปรุงความเร็วในการฝึกได้ดีขึ้น 7 เท่าเมื่อเทียบกับโมเดล T5 (Text-to-Text Transfer Transformer) เดิม ใช้อัลกอริทึม MoE (Mixture-of-Experts) แบบดัดแปลงที่เรียกว่า Switch Routing ซึ่งจะใช้พารามิเตอร์ที่แตกต่างกันตามค่าอินพุตแต่ละรายการ ใช้ Mesh-Tensorflow สำหรับการฝึกโมเดล (Model Parallelism)

(infoq.com)

3 คะแนน โดย xguru 2021-02-19 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ปรับปรุงความเร็วในการฝึกได้ดีขึ้น 7 เท่าเมื่อเทียบกับโมเดล T5 (Text-to-Text Transfer Transformer) เดิม
ใช้อัลกอริทึม MoE (Mixture-of-Experts) แบบดัดแปลงที่เรียกว่า Switch Routing ซึ่งจะใช้พารามิเตอร์ที่แตกต่างกันตามค่าอินพุตแต่ละรายการ
ใช้ Mesh-Tensorflow สำหรับการฝึกโมเดล (Model Parallelism)

Google เปิดซอร์สโค้ดโมเดล AI NLP Switch Transformer ขนาด 1.6 ล้านล้านพารามิเตอร์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น