- โมเดล Open Weight Text-To-Speech ที่ฝึกด้วยข้อมูลเสียงหลายภาษามากกว่า 200,000 ชั่วโมง
- ให้ "คุณภาพเสียงเทียบเท่าหรือดีกว่า" บริการ TTS เชิงพาณิชย์ และ "มอบการแสดงออกที่เป็นธรรมชาติ"
- ส่งออกเสียงคุณภาพสูงด้วยอัตราการสุ่มตัวอย่าง 44kHz
- รองรับการโคลนเสียง: สามารถจำลองสไตล์ของผู้พูดเฉพาะได้อย่างแม่นยำด้วยเสียงอ้างอิงเพียงไม่กี่วินาที
- ฟังก์ชันการปรับแต่งที่หลากหลาย: ควบคุมความเร็วการพูด ระดับเสียง คุณภาพเสียง และอารมณ์ (ความสุข ความกลัว ความเศร้า ความโกรธ เป็นต้น) ได้
ฟีเจอร์หลัก
- Zero-shot TTS และการโคลนเสียง
- ป้อนข้อความและตัวอย่างเสียงผู้พูดยาว 10~30 วินาที ก็สามารถสังเคราะห์เสียงคุณภาพสูงได้ทันที
- รองรับการป้อน audio prefix
- เมื่อเพิ่ม audio prefix พร้อมกับข้อความ จะสามารถจับคู่ผู้พูดได้อย่างแม่นยำยิ่งขึ้น
- มีประสิทธิภาพในการสร้างสไตล์เสียงเฉพาะ เช่น เสียงกระซิบ
- รองรับหลายภาษา
- รองรับภาษาอังกฤษ ญี่ปุ่น จีน ฝรั่งเศส และเยอรมัน
- ควบคุมอารมณ์และคุณภาพเสียง
- ปรับอารมณ์ได้: แสดงออกได้ทั้งความสุข ความโกรธ ความเศร้า ความกลัว เป็นต้น
- ปรับรายละเอียดเสียงได้: ความเร็ว ระดับเสียง ความถี่สูงสุด และคุณภาพเสียง
- ประสิทธิภาพความเร็วสูง
- ทำงานได้ที่ความเร็วประมาณ 2 เท่าของแบบเรียลไทม์บน RTX 4090
- รองรับ Gradio WebUI
- มีเว็บอินเทอร์เฟซที่ใช้งานง่าย ทำให้ใครก็สร้างเสียงได้อย่างสะดวก
- ติดตั้งและปรับใช้ได้ง่าย
- สามารถติดตั้งและปรับใช้ได้อย่างสะดวกด้วย Docker
2 ความคิดเห็น
น่าเสียดายที่ไม่มีภาษาเกาหลี,,,.
ภาษาเกาหลีก็ทำได้ดีเหมือนกันครับ/ค่ะ แม้จะยังดูแปลก ๆ อยู่บ้างก็ตาม