MetaVoice-1B - โมเดล Text-To-Speech ขนาด 1.2B พารามิเตอร์

xguru · 2024-02-10T10:16:01+09:00

โมเดล TTS (แปลงข้อความเป็นเสียง) ขนาด 1.2 พันล้านพารามิเตอร์ ที่ฝึกด้วยข้อมูลเสียง 100,000 ชั่วโมง จังหวะการพูดและน้ำเสียงที่สื่ออารมณ์ได้ (ภาษาอังกฤษ) รองรับการโคลนเสียงผ่านการปรับจูนละเอียด โดยในกรณีของผู้พูดชาวอินเดีย ประสบความสำเร็จด้วยข้อมูลเสียงเพียงประมาณ 1 นาที สำหรับเสียงแบบอเมริกัน/อังกฤษ สามารถทำ Zero-Shot cloning ได้ด้วยเสียงอ้างอิงเพียง 30 วินาที รองรับการสังเคราะห์เสียงแบบยาว ใช้งานได้โดยไม่มีข้อจำกัดภายใต้ไลเซนส์ Apache 2.0

(github.com/metavoiceio)

12 คะแนน โดย xguru 2024-02-10 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดล TTS (แปลงข้อความเป็นเสียง) ขนาด 1.2 พันล้านพารามิเตอร์ ที่ฝึกด้วยข้อมูลเสียง 100,000 ชั่วโมง
จังหวะการพูดและน้ำเสียงที่สื่ออารมณ์ได้ (ภาษาอังกฤษ)
รองรับการโคลนเสียงผ่านการปรับจูนละเอียด โดยในกรณีของผู้พูดชาวอินเดีย ประสบความสำเร็จด้วยข้อมูลเสียงเพียงประมาณ 1 นาที
สำหรับเสียงแบบอเมริกัน/อังกฤษ สามารถทำ Zero-Shot cloning ได้ด้วยเสียงอ้างอิงเพียง 30 วินาที
รองรับการสังเคราะห์เสียงแบบยาว
ใช้งานได้โดยไม่มีข้อจำกัดภายใต้ไลเซนส์ Apache 2.0

MetaVoice-1B - โมเดล Text-To-Speech ขนาด 1.2B พารามิเตอร์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น