Voice-Pro – Gradio WebUI ที่รองรับการรู้จำเสียง การแปล และการสังเคราะห์เสียง

(github.com/abus-aikorea)

9 คะแนน โดย vulcanidic 2024-12-08 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Voice-Pro คือ Gradio WebUI ที่รองรับการรู้จำเสียง การแปล และการสังเคราะห์เสียง

ฟีเจอร์หลัก:

โคลนเสียงแบบ Zero-shot ใช้เพียงตัวอย่างเสียงความยาว 15 วินาที และมีเสียงคนดังให้เลือกมากกว่า 50 เสียง
ดาวน์โหลดเสียงจาก YouTube
แยกเสียงร้อง
แปลงข้อความเป็นเสียงหลายภาษา (Edge-TTS, F5-TTS)
แปลหลายภาษา
รองรับเอนจิน Whisper หลากหลายแบบ (Whisper, Faster-Whisper, Whisper-Timestamped)

วิดีโอเดโม:

บทสอนการใช้งาน Voice-Pro: https://youtu.be/z8g8LMhoh_o
เดโมการสร้างพอดแคสต์ด้วย Voice-Cloning: https://youtu.be/Wfo7vQCD4no
เดโมและวิดีโอตัวอย่าง: https://youtube.com/playlist/?list=PLwx5dnMDVC9Y7dAjm9r26CZUw1uU5VIeq

1 ความคิดเห็น

yangeok 2024-12-16

น่าจะเป็นคนเกาหลีที่สร้างขึ้นมานะ