MetaVoice-1B - โมเดล Text-To-Speech ขนาด 1.2B พารามิเตอร์
(github.com/metavoiceio)- โมเดล TTS (แปลงข้อความเป็นเสียง) ขนาด 1.2 พันล้านพารามิเตอร์ ที่ฝึกด้วยข้อมูลเสียง 100,000 ชั่วโมง
- จังหวะการพูดและน้ำเสียงที่สื่ออารมณ์ได้ (ภาษาอังกฤษ)
- รองรับการโคลนเสียงผ่านการปรับจูนละเอียด โดยในกรณีของผู้พูดชาวอินเดีย ประสบความสำเร็จด้วยข้อมูลเสียงเพียงประมาณ 1 นาที
- สำหรับเสียงแบบอเมริกัน/อังกฤษ สามารถทำ Zero-Shot cloning ได้ด้วยเสียงอ้างอิงเพียง 30 วินาที
- รองรับการสังเคราะห์เสียงแบบยาว
- ใช้งานได้โดยไม่มีข้อจำกัดภายใต้ไลเซนส์ Apache 2.0
ยังไม่มีความคิดเห็น