Zonos - โมเดลสังเคราะห์เสียงแบบ Open Weight คุณภาพสูง

xguru · 2025-02-14T10:23:01+09:00

โมเดล Open Weight Text-To-Speech ที่ฝึกด้วยข้อมูลเสียงหลายภาษามากกว่า 200,000 ชั่วโมง ให้ "คุณภาพเสียงเทียบเท่าหรือดีกว่า" บริการ TTS เชิงพาณิชย์ และ "มอบการแสดงออกที่เป็นธรรมชาติ" ส่งออกเสียงคุณภาพสูงด้วยอัตราการสุ่มตัวอย่าง 44kHz รองรับการโคลนเสียง: สามารถจำลองสไตล์ของผู้พูดเฉพาะได้อย่างแม่นยำด้วยเสียงอ้างอิงเพียงไม่กี่วินาที ฟังก์ชันการปรับแต่งที่หลากหลาย: ควบคุมความเร็วการพูด ระดับเสียง คุณภาพเสียง และอารมณ์ (ความสุข ความกลัว ความเศร้า ความโกรธ เป็นต้น) ได้ ฟีเจอร์หลัก Zero-shot TTS และการโคลนเสียง ป้อนข้อความและตัวอย่างเสียงผู้พูดยาว 10~30 วินาที ก็สามารถสังเคราะห์เสียงคุณภาพสูงได้ทันที รองรับการป้อน audio prefix เมื่อเพิ่ม audio prefix พร้อมกับข้อความ จะสามารถจับคู่ผู้พูดได้อย่างแม่นยำยิ่งขึ้น มีประสิทธิภาพในการสร้างสไตล์เสียงเฉพาะ เช่น เสียงกระซิบ รองรับหลายภาษา รองรับภาษาอังกฤษ ญี่ปุ่น จีน ฝรั่งเศส และเยอรมัน ควบคุมอารมณ์และคุณภาพเสียง ปรับอารมณ์ได้: แสดงออกได้ทั้งความสุข ความโกรธ ความเศร้า ความกลัว เป็นต้น ปรับรายละเอียดเสียงได้: ความเร็ว ระดับเสียง ความถี่สูงสุด และคุณภาพเสียง ประสิทธิภาพความเร็วสูง ทำงานได้ที่ความเร็วประมาณ 2 เท่าของแบบเรียลไทม์บน RTX 4090 รองรับ Gradio WebUI มีเว็บอินเทอร์เฟซที่ใช้งานง่าย ทำให้ใครก็สร้างเสียงได้อย่างสะดวก ติดตั้งและปรับใช้ได้ง่าย สามารถติดตั้งและปรับใช้ได้อย่างสะดวกด้วย Docker

(github.com/Zyphra)

24 คะแนน โดย xguru 2025-02-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล Open Weight Text-To-Speech ที่ฝึกด้วยข้อมูลเสียงหลายภาษามากกว่า 200,000 ชั่วโมง
ให้ "คุณภาพเสียงเทียบเท่าหรือดีกว่า" บริการ TTS เชิงพาณิชย์ และ "มอบการแสดงออกที่เป็นธรรมชาติ"
ส่งออกเสียงคุณภาพสูงด้วยอัตราการสุ่มตัวอย่าง 44kHz
รองรับการโคลนเสียง: สามารถจำลองสไตล์ของผู้พูดเฉพาะได้อย่างแม่นยำด้วยเสียงอ้างอิงเพียงไม่กี่วินาที
ฟังก์ชันการปรับแต่งที่หลากหลาย: ควบคุมความเร็วการพูด ระดับเสียง คุณภาพเสียง และอารมณ์ (ความสุข ความกลัว ความเศร้า ความโกรธ เป็นต้น) ได้

ฟีเจอร์หลัก

Zero-shot TTS และการโคลนเสียง
- ป้อนข้อความและตัวอย่างเสียงผู้พูดยาว 10~30 วินาที ก็สามารถสังเคราะห์เสียงคุณภาพสูงได้ทันที
รองรับการป้อน audio prefix
- เมื่อเพิ่ม audio prefix พร้อมกับข้อความ จะสามารถจับคู่ผู้พูดได้อย่างแม่นยำยิ่งขึ้น
- มีประสิทธิภาพในการสร้างสไตล์เสียงเฉพาะ เช่น เสียงกระซิบ
รองรับหลายภาษา
- รองรับภาษาอังกฤษ ญี่ปุ่น จีน ฝรั่งเศส และเยอรมัน
ควบคุมอารมณ์และคุณภาพเสียง
- ปรับอารมณ์ได้: แสดงออกได้ทั้งความสุข ความโกรธ ความเศร้า ความกลัว เป็นต้น
- ปรับรายละเอียดเสียงได้: ความเร็ว ระดับเสียง ความถี่สูงสุด และคุณภาพเสียง
ประสิทธิภาพความเร็วสูง
- ทำงานได้ที่ความเร็วประมาณ 2 เท่าของแบบเรียลไทม์บน RTX 4090
รองรับ Gradio WebUI
- มีเว็บอินเทอร์เฟซที่ใช้งานง่าย ทำให้ใครก็สร้างเสียงได้อย่างสะดวก
ติดตั้งและปรับใช้ได้ง่าย
- สามารถติดตั้งและปรับใช้ได้อย่างสะดวกด้วย Docker

2 ความคิดเห็น

mindok 2025-02-14

น่าเสียดายที่ไม่มีภาษาเกาหลี,,,.

marantz 2025-02-19

ภาษาเกาหลีก็ทำได้ดีเหมือนกันครับ/ค่ะ แม้จะยังดูแปลก ๆ อยู่บ้างก็ตาม

Zonos - โมเดลสังเคราะห์เสียงแบบ Open Weight คุณภาพสูง

ฟีเจอร์หลัก

บทความที่เกี่ยวข้อง

2 ความคิดเห็น