VALL-E - โมเดลภาษาสำหรับการสังเคราะห์เสียงที่ Microsoft สร้างขึ้น
(valle-demo.github.io)- โมเดล Text-to-Speech ที่อิงบน Transformer
- หากมีเสียงตัวอย่างเพียง 3 วินาที ก็สามารถสังเคราะห์ออกมาเป็นเสียงนั้นได้
- ให้ความเป็นธรรมชาติและความคล้ายกับผู้พูดได้ดีกว่า Zero-shot TTS รุ่นล่าสุดอย่างมาก พร้อมทั้งคงอารมณ์ของผู้พูดและสภาพแวดล้อมทางเสียงไว้ได้
- ไปป์ไลน์แบบเดิมคือ phoneme (หน่วยเสียง) → mel-spectrogram → waveform แต่
VALL-E ใช้ phoneme → discrete code → waveform - สามารถนำไปผสานกับแอปพลิเคชันสังเคราะห์เสียงหลากหลายแบบ และโมเดล AI อย่าง GPT-3 ได้
3 ความคิดเห็น
ดูเหมือนว่าด้วยความก้าวหน้าของแมชชีนเลิร์นนิง ทำให้ข้อจำกัดในการเข้าถึงเทคโนโลยี TTS ลดลงด้วยนะครับ ถ้าลองไปดูตามคลังโอเพนซอร์สต่าง ๆ ก็พบว่าสามารถอัดเสียงตัวเองแล้วสร้าง TTS แบบทำเองสำหรับเสียงของตัวเองได้เหมือนกัน
ตอนนี้คลื่นเสียงคงไม่สามารถใช้ระบุตัวบุคคลได้เหมือนลายนิ้วมืออีกต่อไปแล้วสินะ -_-;
เหมือนเคยได้ยินมาว่าที่ไหนสักแห่งเวลาทำการดักฟัง จะใช้เซิร์ฟเวอร์ขนาดใหญ่เอาลายเสียงของบุคคลเป้าหมายมาใช้ เพื่อให้ระบบตอบสนองต่อคีย์เวิร์ดบางคำในลายเสียงนั้น...
ถ้าสังเคราะห์ได้ถึงระดับนี้ ระบบแบบนั้นก็คงหมดความหมายไปแล้ว...