17 คะแนน โดย xguru 2023-01-10 | 3 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดล Text-to-Speech ที่อิงบน Transformer
  • หากมีเสียงตัวอย่างเพียง 3 วินาที ก็สามารถสังเคราะห์ออกมาเป็นเสียงนั้นได้
  • ให้ความเป็นธรรมชาติและความคล้ายกับผู้พูดได้ดีกว่า Zero-shot TTS รุ่นล่าสุดอย่างมาก พร้อมทั้งคงอารมณ์ของผู้พูดและสภาพแวดล้อมทางเสียงไว้ได้
  • ไปป์ไลน์แบบเดิมคือ phoneme (หน่วยเสียง) → mel-spectrogram → waveform แต่
    VALL-E ใช้ phoneme → discrete code → waveform
  • สามารถนำไปผสานกับแอปพลิเคชันสังเคราะห์เสียงหลากหลายแบบ และโมเดล AI อย่าง GPT-3 ได้

3 ความคิดเห็น

 
openmind 2023-01-10

ดูเหมือนว่าด้วยความก้าวหน้าของแมชชีนเลิร์นนิง ทำให้ข้อจำกัดในการเข้าถึงเทคโนโลยี TTS ลดลงด้วยนะครับ ถ้าลองไปดูตามคลังโอเพนซอร์สต่าง ๆ ก็พบว่าสามารถอัดเสียงตัวเองแล้วสร้าง TTS แบบทำเองสำหรับเสียงของตัวเองได้เหมือนกัน

 
jjpark78 2023-01-10

ตอนนี้คลื่นเสียงคงไม่สามารถใช้ระบุตัวบุคคลได้เหมือนลายนิ้วมืออีกต่อไปแล้วสินะ -_-;

เหมือนเคยได้ยินมาว่าที่ไหนสักแห่งเวลาทำการดักฟัง จะใช้เซิร์ฟเวอร์ขนาดใหญ่เอาลายเสียงของบุคคลเป้าหมายมาใช้ เพื่อให้ระบบตอบสนองต่อคีย์เวิร์ดบางคำในลายเสียงนั้น...

ถ้าสังเคราะห์ได้ถึงระดับนี้ ระบบแบบนั้นก็คงหมดความหมายไปแล้ว...