VibeVoice - โมเดลสังเคราะห์เสียงโอเพนซอร์สรุ่นถัดไปของ Microsoft

(microsoft.github.io)

5 คะแนน โดย GN⁺ 2025-09-04 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดลสังเคราะห์เสียง TTS ใหม่ที่ออกแบบมาเพื่อสร้าง เสียงสนทนาหลายผู้พูดที่เป็นธรรมชาติในระยะเวลายาวนาน จากข้อความ
ถูกออกแบบมาเพื่อแก้ปัญหา ความสามารถในการขยายระบบ ความสม่ำเสมอของผู้พูด และการสลับตาพูดอย่างเป็นธรรมชาติ ซึ่งเป็นข้อจำกัดของระบบเดิม
สามารถสังเคราะห์ เสียงยาวสูงสุด 90 นาที และรองรับ ผู้พูดสูงสุด 4 คน พร้อมกัน ก้าวข้ามข้อจำกัดของโมเดลเดิมที่รองรับได้เพียง 1–2 คน
หัวใจสำคัญคือการใช้ ตัวแปลงโทเคนเสียงแบบต่อเนื่องที่มีเฟรมเรตต่ำมาก 7.5Hz (Acoustic/ Semantic) เพื่อประมวลผลลำดับเสียงที่ยาวได้อย่างมีประสิทธิภาพพร้อมคงคุณภาพเสียงไว้
ใช้แนวทาง Next-Token Diffusion เพื่อสร้างแบบจำลองข้อมูลต่อเนื่องอย่างมีประสิทธิภาพ และเพื่อรองรับสิ่งนี้ได้มีการนำตัวแปลงโทเคนเสียงแบบต่อเนื่องตัวใหม่มาใช้ ซึ่งให้ อัตราการบีบอัดสูงกว่า Encodec ถึง 80 เท่า

บทนำ

แม้ว่าเทคโนโลยี TTS ในช่วงหลังจะประสบความสำเร็จในการสังเคราะห์เสียงพูดสั้น ๆ ของผู้พูดเดี่ยวด้วยคุณภาพสูง แต่ การสังเคราะห์บทสนทนาระยะยาวแบบหลายผู้พูด ยังคงเป็นความท้าทาย
- วิธีการเดิมมักเชื่อมต่อเสียงพูดเข้าด้วยกันแบบตรง ๆ ทำให้การเปลี่ยนผ่านไม่เป็นธรรมชาติ
- เป็นเรื่องยากที่จะสร้างการผลัดกันพูดและการรับรู้บริบทได้อย่างเป็นธรรมชาติ
เป้าหมาย: รองรับการสังเคราะห์ เสียงสนทนาขนาดยาวแบบหลายผู้พูด เช่น พอดแคสต์
VibeVoice แก้ปัญหานี้ด้วยการผสาน ตัวแปลงโทเคนเสียงที่มีอัตราเฟรมต่ำมาก (7.5Hz) เข้ากับ สถาปัตยกรรม Diffusion แบบใช้ LLM เป็นฐาน
ผลลัพธ์คือสามารถสังเคราะห์เสียงหลายผู้พูดที่มีความยาวสูงสุด 90 นาทีได้อย่างเสถียร

นวัตกรรมทางเทคนิค

ตัวแปลงโทเคนเสียงแบบต่อเนื่อง (7.5Hz):
- ใช้งานตัวแปลงโทเคน Acoustic + Semantic ควบคู่กัน
- เพิ่มประสิทธิภาพในการประมวลผลลำดับที่ยาว พร้อมรักษาความเที่ยงตรงของเสียง
Next-token diffusion framework:
- LLM เข้าใจ บริบทของข้อความและลำดับการสนทนา
- Diffusion head สร้าง รายละเอียดทางเสียงความละเอียดสูง
ผลลัพธ์: การสังเคราะห์เสียงที่ เป็นธรรมชาติและเหมือนมนุษย์มากกว่าเดิม อย่างชัดเจน

ประสิทธิภาพ

สังเคราะห์ เสียงยาวสูงสุด 90 นาที ได้
รองรับ ผู้พูดสูงสุด 4 คน (เหนือกว่าข้อจำกัด 1–2 คนของโมเดลเดิม)
ให้ เสียงที่มีการแสดงออกและคงความสม่ำเสมอ ในสถานการณ์สนทนาหลากหลายรูปแบบ

ผลการทดลอง

การสังเคราะห์บทสนทนาระยะยาว (Podcast)

ประเมินด้วยชุดข้อมูลบทสนทนาความยาว 1 ชั่วโมง
วัดค่า WER (อัตราความผิดพลาดของคำ), SIM (ความคล้ายคลึงของผู้พูด) และ การประเมินเชิงอัตวิสัย (MOS)
VIBEVOICE-7B ทำผลงานสูงสุดด้วย Realism 3.71, Richness 3.81, Preference 3.75
ทำได้ดีกว่าโมเดลล่าสุดอย่าง Gemini 2.5 Pro และ ElevenLabs v3

บทสรุปและข้อจำกัด

VibeVoice คือ เฟรมเวิร์ก TTS รุ่นถัดไป ที่รองรับการสังเคราะห์บทสนทนาที่เป็นธรรมชาติได้สูงสุด 90 นาที และ 4 ผู้พูด
มีคุณภาพที่เหนือกว่าทั้งในเชิงอัตวิสัยและเชิงวัตถุวิสัยเมื่อเทียบกับโมเดลโอเพนซอร์สและเชิงพาณิชย์ที่มีอยู่
ข้อจำกัด:
- ภาษาอื่นนอกเหนือจากอังกฤษและจีนอาจให้ผลลัพธ์ที่ไม่คาดคิด
- ไม่รองรับเสียงที่ไม่ใช่คำพูด (เสียงพื้นหลัง, ดนตรี)
- ไม่รองรับการพูดทับซ้อนกัน (Overlapping Speech)
- มีความเสี่ยงต่อการถูกนำไปใช้ในทางที่ผิด เช่น ดีปเฟกและข้อมูลเท็จ
ดังนั้นในปัจจุบันจึง เปิดให้ใช้เพื่อการวิจัยและพัฒนาเท่านั้น และไม่แนะนำให้ใช้งานเชิงพาณิชย์

VibeVoice - โมเดลสังเคราะห์เสียงโอเพนซอร์สรุ่นถัดไปของ Microsoft

บทนำ

นวัตกรรมทางเทคนิค

ประสิทธิภาพ

ผลการทดลอง

การสังเคราะห์บทสนทนาระยะยาว (Podcast)

บทสรุปและข้อจำกัด

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น