• โมเดลสังเคราะห์เสียง TTS ใหม่ที่ออกแบบมาเพื่อสร้าง เสียงสนทนาหลายผู้พูดที่เป็นธรรมชาติในระยะเวลายาวนาน จากข้อความ
  • ถูกออกแบบมาเพื่อแก้ปัญหา ความสามารถในการขยายระบบ ความสม่ำเสมอของผู้พูด และการสลับตาพูดอย่างเป็นธรรมชาติ ซึ่งเป็นข้อจำกัดของระบบเดิม
  • สามารถสังเคราะห์ เสียงยาวสูงสุด 90 นาที และรองรับ ผู้พูดสูงสุด 4 คน พร้อมกัน ก้าวข้ามข้อจำกัดของโมเดลเดิมที่รองรับได้เพียง 1–2 คน
  • หัวใจสำคัญคือการใช้ ตัวแปลงโทเคนเสียงแบบต่อเนื่องที่มีเฟรมเรตต่ำมาก 7.5Hz (Acoustic/ Semantic) เพื่อประมวลผลลำดับเสียงที่ยาวได้อย่างมีประสิทธิภาพพร้อมคงคุณภาพเสียงไว้
  • ใช้แนวทาง Next-Token Diffusion เพื่อสร้างแบบจำลองข้อมูลต่อเนื่องอย่างมีประสิทธิภาพ และเพื่อรองรับสิ่งนี้ได้มีการนำตัวแปลงโทเคนเสียงแบบต่อเนื่องตัวใหม่มาใช้ ซึ่งให้ อัตราการบีบอัดสูงกว่า Encodec ถึง 80 เท่า

บทนำ

  • แม้ว่าเทคโนโลยี TTS ในช่วงหลังจะประสบความสำเร็จในการสังเคราะห์เสียงพูดสั้น ๆ ของผู้พูดเดี่ยวด้วยคุณภาพสูง แต่ การสังเคราะห์บทสนทนาระยะยาวแบบหลายผู้พูด ยังคงเป็นความท้าทาย
    • วิธีการเดิมมักเชื่อมต่อเสียงพูดเข้าด้วยกันแบบตรง ๆ ทำให้การเปลี่ยนผ่านไม่เป็นธรรมชาติ
    • เป็นเรื่องยากที่จะสร้างการผลัดกันพูดและการรับรู้บริบทได้อย่างเป็นธรรมชาติ
  • เป้าหมาย: รองรับการสังเคราะห์ เสียงสนทนาขนาดยาวแบบหลายผู้พูด เช่น พอดแคสต์
  • VibeVoice แก้ปัญหานี้ด้วยการผสาน ตัวแปลงโทเคนเสียงที่มีอัตราเฟรมต่ำมาก (7.5Hz) เข้ากับ สถาปัตยกรรม Diffusion แบบใช้ LLM เป็นฐาน
  • ผลลัพธ์คือสามารถสังเคราะห์เสียงหลายผู้พูดที่มีความยาวสูงสุด 90 นาทีได้อย่างเสถียร

นวัตกรรมทางเทคนิค

  • ตัวแปลงโทเคนเสียงแบบต่อเนื่อง (7.5Hz):
    • ใช้งานตัวแปลงโทเคน Acoustic + Semantic ควบคู่กัน
    • เพิ่มประสิทธิภาพในการประมวลผลลำดับที่ยาว พร้อมรักษาความเที่ยงตรงของเสียง
  • Next-token diffusion framework:
    • LLM เข้าใจ บริบทของข้อความและลำดับการสนทนา
    • Diffusion head สร้าง รายละเอียดทางเสียงความละเอียดสูง
  • ผลลัพธ์: การสังเคราะห์เสียงที่ เป็นธรรมชาติและเหมือนมนุษย์มากกว่าเดิม อย่างชัดเจน

ประสิทธิภาพ

  • สังเคราะห์ เสียงยาวสูงสุด 90 นาที ได้
  • รองรับ ผู้พูดสูงสุด 4 คน (เหนือกว่าข้อจำกัด 1–2 คนของโมเดลเดิม)
  • ให้ เสียงที่มีการแสดงออกและคงความสม่ำเสมอ ในสถานการณ์สนทนาหลากหลายรูปแบบ

ผลการทดลอง

การสังเคราะห์บทสนทนาระยะยาว (Podcast)

  • ประเมินด้วยชุดข้อมูลบทสนทนาความยาว 1 ชั่วโมง
  • วัดค่า WER (อัตราความผิดพลาดของคำ), SIM (ความคล้ายคลึงของผู้พูด) และ การประเมินเชิงอัตวิสัย (MOS)
  • VIBEVOICE-7B ทำผลงานสูงสุดด้วย Realism 3.71, Richness 3.81, Preference 3.75
  • ทำได้ดีกว่าโมเดลล่าสุดอย่าง Gemini 2.5 Pro และ ElevenLabs v3

บทสรุปและข้อจำกัด

  • VibeVoice คือ เฟรมเวิร์ก TTS รุ่นถัดไป ที่รองรับการสังเคราะห์บทสนทนาที่เป็นธรรมชาติได้สูงสุด 90 นาที และ 4 ผู้พูด
  • มีคุณภาพที่เหนือกว่าทั้งในเชิงอัตวิสัยและเชิงวัตถุวิสัยเมื่อเทียบกับโมเดลโอเพนซอร์สและเชิงพาณิชย์ที่มีอยู่
  • ข้อจำกัด:
    • ภาษาอื่นนอกเหนือจากอังกฤษและจีนอาจให้ผลลัพธ์ที่ไม่คาดคิด
    • ไม่รองรับเสียงที่ไม่ใช่คำพูด (เสียงพื้นหลัง, ดนตรี)
    • ไม่รองรับการพูดทับซ้อนกัน (Overlapping Speech)
    • มีความเสี่ยงต่อการถูกนำไปใช้ในทางที่ผิด เช่น ดีปเฟกและข้อมูลเท็จ
  • ดังนั้นในปัจจุบันจึง เปิดให้ใช้เพื่อการวิจัยและพัฒนาเท่านั้น และไม่แนะนำให้ใช้งานเชิงพาณิชย์

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น