24 คะแนน โดย xguru 2025-02-14 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล Open Weight Text-To-Speech ที่ฝึกด้วยข้อมูลเสียงหลายภาษามากกว่า 200,000 ชั่วโมง
  • ให้ "คุณภาพเสียงเทียบเท่าหรือดีกว่า" บริการ TTS เชิงพาณิชย์ และ "มอบการแสดงออกที่เป็นธรรมชาติ"
  • ส่งออกเสียงคุณภาพสูงด้วยอัตราการสุ่มตัวอย่าง 44kHz
  • รองรับการโคลนเสียง: สามารถจำลองสไตล์ของผู้พูดเฉพาะได้อย่างแม่นยำด้วยเสียงอ้างอิงเพียงไม่กี่วินาที
  • ฟังก์ชันการปรับแต่งที่หลากหลาย: ควบคุมความเร็วการพูด ระดับเสียง คุณภาพเสียง และอารมณ์ (ความสุข ความกลัว ความเศร้า ความโกรธ เป็นต้น) ได้

ฟีเจอร์หลัก

  • Zero-shot TTS และการโคลนเสียง
    • ป้อนข้อความและตัวอย่างเสียงผู้พูดยาว 10~30 วินาที ก็สามารถสังเคราะห์เสียงคุณภาพสูงได้ทันที
  • รองรับการป้อน audio prefix
    • เมื่อเพิ่ม audio prefix พร้อมกับข้อความ จะสามารถจับคู่ผู้พูดได้อย่างแม่นยำยิ่งขึ้น
    • มีประสิทธิภาพในการสร้างสไตล์เสียงเฉพาะ เช่น เสียงกระซิบ
  • รองรับหลายภาษา
    • รองรับภาษาอังกฤษ ญี่ปุ่น จีน ฝรั่งเศส และเยอรมัน
  • ควบคุมอารมณ์และคุณภาพเสียง
    • ปรับอารมณ์ได้: แสดงออกได้ทั้งความสุข ความโกรธ ความเศร้า ความกลัว เป็นต้น
    • ปรับรายละเอียดเสียงได้: ความเร็ว ระดับเสียง ความถี่สูงสุด และคุณภาพเสียง
  • ประสิทธิภาพความเร็วสูง
    • ทำงานได้ที่ความเร็วประมาณ 2 เท่าของแบบเรียลไทม์บน RTX 4090
  • รองรับ Gradio WebUI
    • มีเว็บอินเทอร์เฟซที่ใช้งานง่าย ทำให้ใครก็สร้างเสียงได้อย่างสะดวก
  • ติดตั้งและปรับใช้ได้ง่าย
    • สามารถติดตั้งและปรับใช้ได้อย่างสะดวกด้วย Docker

2 ความคิดเห็น

 
mindok 2025-02-14

น่าเสียดายที่ไม่มีภาษาเกาหลี,,,.

 
marantz 2025-02-19

ภาษาเกาหลีก็ทำได้ดีเหมือนกันครับ/ค่ะ แม้จะยังดูแปลก ๆ อยู่บ้างก็ตาม