Voice-Pro – Gradio WebUI ที่รองรับการรู้จำเสียง การแปล และการสังเคราะห์เสียง
(github.com/abus-aikorea)Voice-Pro คือ Gradio WebUI ที่รองรับการรู้จำเสียง การแปล และการสังเคราะห์เสียง
ฟีเจอร์หลัก:
- โคลนเสียงแบบ Zero-shot ใช้เพียงตัวอย่างเสียงความยาว 15 วินาที และมีเสียงคนดังให้เลือกมากกว่า 50 เสียง
- ดาวน์โหลดเสียงจาก YouTube
- แยกเสียงร้อง
- แปลงข้อความเป็นเสียงหลายภาษา (Edge-TTS, F5-TTS)
- แปลหลายภาษา
- รองรับเอนจิน Whisper หลากหลายแบบ (Whisper, Faster-Whisper, Whisper-Timestamped)
วิดีโอเดโม:
-
บทสอนการใช้งาน Voice-Pro: https://youtu.be/z8g8LMhoh_o
-
เดโมการสร้างพอดแคสต์ด้วย Voice-Cloning: https://youtu.be/Wfo7vQCD4no
-
เดโมและวิดีโอตัวอย่าง: https://youtube.com/playlist/?list=PLwx5dnMDVC9Y7dAjm9r26CZUw1uU5VIeq
1 ความคิดเห็น
น่าจะเป็นคนเกาหลีที่สร้างขึ้นมานะ