• ปรับปรุงความเร็วในการฝึกได้ดีขึ้น 7 เท่าเมื่อเทียบกับโมเดล T5 (Text-to-Text Transfer Transformer) เดิม

  • ใช้อัลกอริทึม MoE (Mixture-of-Experts) แบบดัดแปลงที่เรียกว่า Switch Routing ซึ่งจะใช้พารามิเตอร์ที่แตกต่างกันตามค่าอินพุตแต่ละรายการ

  • ใช้ Mesh-Tensorflow สำหรับการฝึกโมเดล (Model Parallelism)

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น