VibeVoice - โมเดล AI เสียงโอเพนซอร์สระดับแนวหน้า
(github.com/microsoft)- ตระกูล โมเดล AI เสียงโอเพนซอร์ส ที่ Microsoft เปิดตัว ครอบคลุมทั้ง TTS (ข้อความ→เสียง) และ ASR (เสียง→ข้อความ)
- ASR คล้ายกับ OpenAI Whisper แต่มีฟังก์ชัน speaker diarization ในตัวโมเดลเอง
- นวัตกรรมหลักคือ continuous speech tokenizer แบบ อัตราเฟรมต่ำพิเศษ 7.5Hz ที่ช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับลำดับยาวอย่างมาก โดยยังคงคุณภาพเสียงไว้
- ใช้เฟรมเวิร์ก next-token diffusion - LLM ทำความเข้าใจบริบทข้อความ และ diffusion head สร้างรายละเอียดเสียงคุณภาพสูง
- VibeVoice-ASR (7B): ประมวลผลเสียงได้สูงสุด 60 นาทีใน single pass พร้อมส่งออกผลลัพธ์แบบมีโครงสร้างสำหรับผู้พูด (Who)·timestamp (When)·เนื้อหา (What)
- มีฟีเจอร์ hotword แบบปรับตามผู้ใช้ เพื่อเพิ่มความแม่นยำในการรู้จำคำศัพท์เฉพาะทาง
- โมเดลหลายภาษาที่รองรับมากกว่า 50 ภาษา ได้แบบเนทีฟ
- จะถูกรวมเข้ากับ Hugging Face Transformers ตั้งแต่เดือนมีนาคม 2026
- รองรับ vLLM inference เพื่อการอนุมานที่เร็วขึ้น และเปิดเผย โค้ดสำหรับ fine-tuning
- VibeVoice-TTS (1.5B): สร้างเสียงสนทนาได้สูงสุด 90 นาที ใน single pass และรองรับผู้พูดได้ สูงสุด 4 คน ในครั้งเดียว
- สร้างเสียงที่เป็นธรรมชาติและมีความสามารถในการถ่ายทอดอารมณ์สูง โดยจับทั้ง nuance ทางอารมณ์และพลวัตของบทสนทนา พร้อมรองรับหลายภาษา
- เปิดตัวเมื่อ 25 สิงหาคม 2025 แต่ภายหลังพบกรณีการใช้งานที่ต่างไปจากเจตนาเดิม จึงมีการ ลบโค้ด TTS ออกจาก repository เมื่อ 5 กันยายน 2025
- VibeVoice-Realtime (0.5B): TTS แบบเรียลไทม์สำหรับเสียงยาวสูงสุด 10 นาที และใช้เวลาประมาณ 300 มิลลิวินาที จนได้เสียงเอาต์พุตแรก
- โมเดลแปลงข้อความเป็นเสียงแบบเรียลไทม์ขนาดเบา 0.5B พารามิเตอร์ ที่เหมาะกับการดีพลอย
- รองรับ streaming text input
- เปิดตัวเมื่อ 3 ธันวาคม 2025 และต่อมาในวันที่ 16 ธันวาคม ได้มีการเพิ่มเสียงหลายภาษา 9 ภาษา (DE, FR, IT, JP, KR, NL, PL, PT, ES) และ 11 สไตล์เสียงภาษาอังกฤษ แบบทดลอง
- เพิ่มการรองรับ Apple Silicon (MPS) ให้กับเดโม Gradio ASR เพื่อปรับปรุงการใช้งานบน Mac
- อิงจากเบสโมเดล (Qwen2.5 1.5B) จึงอาจสืบทอดอคติและข้อผิดพลาดมาได้ และควรระวังความเป็นไปได้ในการถูกนำไปใช้ทำ deepfake
- สัญญาอนุญาต MIT
1 ความคิดเห็น
VibeVoice - โมเดลสังเคราะห์เสียงโอเพนซอร์สยุคถัดไปของ Microsoft
ใน GeekNews มีการเปิดเผยตั้งแต่ช่วงแรกเลย แต่ดูเหมือนว่าด้วยปัญหาบางอย่าง โค้ด VibeVoice-TTS จึงถูกนำออกไปแล้ว
ตอนนี้ดูเหมือนว่าจะใช้งาน TTS ได้ผ่าน VibeVoice-Realtime เท่านั้น
ช่วงไม่กี่วันที่ผ่านมาเห็นกันหลายที่ว่า VibeVoice-ASR กำลังกลับมาได้รับความนิยมอีกครั้ง
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ได้ทดสอบแล้ว โดยบน Mac สามารถรันได้ด้วยคำสั่งบรรทัดเดียวโดยใช้
uvและ mlx-audio และประมวลผลเสียงความยาว 1 ชั่วโมงได้ในเวลาประมาณ 8 นาที 45 วินาที บน MacBook Pro ชิป M5 Max แรม 128GB
ถ้าจะให้นึกภาพก็ประมาณ
Whisper ที่แยกผู้พูดได้ดี