-
ปรับปรุงความเร็วในการฝึกได้ดีขึ้น 7 เท่าเมื่อเทียบกับโมเดล T5 (Text-to-Text Transfer Transformer) เดิม
-
ใช้อัลกอริทึม MoE (Mixture-of-Experts) แบบดัดแปลงที่เรียกว่า Switch Routing ซึ่งจะใช้พารามิเตอร์ที่แตกต่างกันตามค่าอินพุตแต่ละรายการ
-
ใช้ Mesh-Tensorflow สำหรับการฝึกโมเดล (Model Parallelism)
ยังไม่มีความคิดเห็น