VALL-E - โมเดลภาษาสำหรับการสังเคราะห์เสียงที่ Microsoft สร้างขึ้น

xguru · 2023-01-10T10:24:40+09:00

โมเดล Text-to-Speech ที่อิงบน Transformer หากมีเสียงตัวอย่างเพียง 3 วินาที ก็สามารถสังเคราะห์ออกมาเป็นเสียงนั้นได้ ให้ความเป็นธรรมชาติและความคล้ายกับผู้พูดได้ดีกว่า Zero-shot TTS รุ่นล่าสุดอย่างมาก พร้อมทั้งคงอารมณ์ของผู้พูดและสภาพแวดล้อมทางเสียงไว้ได้ ไปป์ไลน์แบบเดิมคือ phoneme (หน่วยเสียง) → mel-spectrogram → waveform แต่ VALL-E ใช้ phoneme → discrete code → waveform สามารถนำไปผสานกับแอปพลิเคชันสังเคราะห์เสียงหลากหลายแบบ และโมเดล AI อย่าง GPT-3 ได้

(valle-demo.github.io)

17 คะแนน โดย xguru 2023-01-10 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดล Text-to-Speech ที่อิงบน Transformer
หากมีเสียงตัวอย่างเพียง 3 วินาที ก็สามารถสังเคราะห์ออกมาเป็นเสียงนั้นได้
ให้ความเป็นธรรมชาติและความคล้ายกับผู้พูดได้ดีกว่า Zero-shot TTS รุ่นล่าสุดอย่างมาก พร้อมทั้งคงอารมณ์ของผู้พูดและสภาพแวดล้อมทางเสียงไว้ได้
ไปป์ไลน์แบบเดิมคือ phoneme (หน่วยเสียง) → mel-spectrogram → waveform แต่
VALL-E ใช้ phoneme → discrete code → waveform
สามารถนำไปผสานกับแอปพลิเคชันสังเคราะห์เสียงหลากหลายแบบ และโมเดล AI อย่าง GPT-3 ได้

3 ความคิดเห็น

openmind 2023-01-10

ดูเหมือนว่าด้วยความก้าวหน้าของแมชชีนเลิร์นนิง ทำให้ข้อจำกัดในการเข้าถึงเทคโนโลยี TTS ลดลงด้วยนะครับ ถ้าลองไปดูตามคลังโอเพนซอร์สต่าง ๆ ก็พบว่าสามารถอัดเสียงตัวเองแล้วสร้าง TTS แบบทำเองสำหรับเสียงของตัวเองได้เหมือนกัน

jjpark78 2023-01-10

ตอนนี้คลื่นเสียงคงไม่สามารถใช้ระบุตัวบุคคลได้เหมือนลายนิ้วมืออีกต่อไปแล้วสินะ -_-;

เหมือนเคยได้ยินมาว่าที่ไหนสักแห่งเวลาทำการดักฟัง จะใช้เซิร์ฟเวอร์ขนาดใหญ่เอาลายเสียงของบุคคลเป้าหมายมาใช้ เพื่อให้ระบบตอบสนองต่อคีย์เวิร์ดบางคำในลายเสียงนั้น...

ถ้าสังเคราะห์ได้ถึงระดับนี้ ระบบแบบนั้นก็คงหมดความหมายไปแล้ว...

xguru 2023-01-10

VALL-E - โมเดลภาษาสำหรับการสังเคราะห์เสียงที่ Microsoft สร้างขึ้น

บทความที่เกี่ยวข้อง

3 ความคิดเห็น