• โมเดล TTS (แปลงข้อความเป็นเสียง) ขนาด 1.2 พันล้านพารามิเตอร์ ที่ฝึกด้วยข้อมูลเสียง 100,000 ชั่วโมง
  • จังหวะการพูดและน้ำเสียงที่สื่ออารมณ์ได้ (ภาษาอังกฤษ)
  • รองรับการโคลนเสียงผ่านการปรับจูนละเอียด โดยในกรณีของผู้พูดชาวอินเดีย ประสบความสำเร็จด้วยข้อมูลเสียงเพียงประมาณ 1 นาที
  • สำหรับเสียงแบบอเมริกัน/อังกฤษ สามารถทำ Zero-Shot cloning ได้ด้วยเสียงอ้างอิงเพียง 30 วินาที
  • รองรับการสังเคราะห์เสียงแบบยาว
  • ใช้งานได้โดยไม่มีข้อจำกัดภายใต้ไลเซนส์ Apache 2.0

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น