VibeVoice - โมเดล AI เสียงล้ำสมัยโอเพนซอร์ส
(github.com/microsoft)- ตระกูล โมเดล AI เสียงโอเพนซอร์ส ที่ Microsoft เปิดตัว ซึ่งครอบคลุมทั้ง TTS (ข้อความ→เสียง) และ ASR (เสียง→ข้อความ)
- ASR มีความคล้ายกับ Open AI Whisper แต่มีฟังก์ชัน แยกผู้พูด (speaker diarization) ฝังอยู่ในตัวโมเดล
- นวัตกรรมหลักคือโทเคไนเซอร์เสียงต่อเนื่องแบบ อัตราเฟรมต่ำพิเศษ 7.5Hz ที่ช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับลำดับข้อมูลยาวอย่างมาก โดยยังคงคุณภาพเสียงไว้
- ใช้เฟรมเวิร์ก next-token diffusion โดย LLM ทำหน้าที่เข้าใจบริบทข้อความ และ diffusion head สร้างรายละเอียดเสียงคุณภาพสูง
- VibeVoice-ASR (7B): ประมวลผลเสียงได้สูงสุด 60 นาทีในพาสเดียว พร้อมส่งออกข้อมูลแบบมีโครงสร้างเป็นผู้พูด (Who) · ไทม์สแตมป์ (When) · เนื้อหา (What)
- ฟีเจอร์ hotword แบบปรับแต่งโดยผู้ใช้ ช่วยเพิ่มความแม่นยำในการรู้จำคำศัพท์เฉพาะทางของแต่ละโดเมน
- โมเดลหลายภาษาที่รองรับมากกว่า 50 ภาษา แบบเนทีฟ
- จะถูกรวมเข้ากับ Hugging Face Transformers ตั้งแต่เดือนมีนาคม 2026
- รองรับ vLLM inference เพื่อการอนุมานที่เร็วขึ้น และเปิดเผย โค้ดสำหรับ fine-tuning
- VibeVoice-TTS (1.5B): สร้างเสียงสนทนาได้ยาวสูงสุด 90 นาที ในพาสเดียว และรองรับผู้พูดพร้อมกันได้สูงสุด 4 คน
- สร้างเสียงที่เป็นธรรมชาติและมีการแสดงออกสูง โดยจับ นัยทางอารมณ์และพลวัตของบทสนทนา ได้ พร้อมรองรับหลายภาษา
- เปิดตัวเมื่อวันที่ 25 สิงหาคม 2025 แต่ภายหลังพบกรณีการใช้งานที่ไม่เป็นไปตามเจตนา จึงมีการ ลบโค้ด TTS ออกจากรีโพซิทอรี ในวันที่ 5 กันยายน 2025
- VibeVoice-Realtime (0.5B): TTS แบบเรียลไทม์สำหรับเสียงยาวสูงสุด 10 นาที โดยใช้เวลาประมาณ 300 มิลลิวินาที จนถึงการส่งออกเสียงครั้งแรก
- โมเดลแปลงข้อความเป็นเสียงแบบเรียลไทม์ขนาดเล็ก 0.5B พารามิเตอร์ ที่เหมาะกับการนำไปดีพลอย
- รองรับ อินพุตข้อความแบบสตรีมมิง
- เปิดตัวเมื่อวันที่ 3 ธันวาคม 2025 และต่อมาในวันที่ 16 ธันวาคม ได้เพิ่มเสียงหลายภาษา 9 ภาษา (DE, FR, IT, JP, KR, NL, PL, PT, ES) และ เสียงสไตล์อังกฤษ 11 แบบ ในสถานะทดลอง
- เพิ่มการรองรับ Apple Silicon (MPS) ในเดโม Gradio ASR ทำให้ใช้งานบน Mac ได้ดีขึ้น
- อิงจากเบสโมเดล (Qwen2.5 1.5B) จึงอาจสืบทอดอคติและข้อผิดพลาดมาได้ และควรระวังความเสี่ยงในการถูกนำไปใช้ทำดีปเฟก
- ใบอนุญาต MIT
1 ความคิดเห็น
VibeVoice - โมเดลสังเคราะห์เสียงโอเพนซอร์สรุ่นถัดไปของ Microsoft
ใน GeekNews มีการเปิดเผยตั้งแต่ช่วงแรกเลย แต่ดูเหมือนว่าเพราะมีประเด็นบางอย่าง โค้ด VibeVoice-TTS เลยถูกนำออกไปแล้ว
ตอนนี้ TTS น่าจะอยู่ในสถานะที่ใช้ได้เฉพาะ VibeVoice-Realtime เท่านั้น
ช่วงไม่กี่วันที่ผ่านมาเห็นกันตามที่ต่าง ๆ ว่า VibeVoice กลับมาได้รับความนิยมอีกครั้งเพราะ VibeVoice-ASR
https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ได้ทดสอบ ASR แล้ว โดยบน Mac สามารถรันได้ด้วยคำสั่งบรรทัดเดียวโดยใช้
uvและ mlx-audio และประมวลผลไฟล์เสียงความยาว 1 ชั่วโมงบน MacBook Pro ชิป M5 Max RAM 128GB ได้ในเวลาประมาณ 8 นาที 45 วินาที
มองได้ว่าเป็น
Whisper ที่แยกผู้พูดได้ดี