VibeVoice - โมเดล AI เสียงล้ำสมัยโอเพนซอร์ส

xguru · 2026-04-28T13:09:54+09:00

ตระกูล โมเดล AI เสียงโอเพนซอร์ส ที่ Microsoft เปิดตัว ซึ่งครอบคลุมทั้ง TTS (ข้อความ→เสียง) และ ASR (เสียง→ข้อความ) ASR มีความคล้ายกับ Open AI Whisper แต่มีฟังก์ชัน แยกผู้พูด (speaker diarization) ฝังอยู่ในตัวโมเดล นวัตกรรมหลักคือโทเคไนเซอร์เสียงต่อเนื่องแบบ อัตราเฟรมต่ำพิเศษ 7.5Hz ที่ช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับลำดับข้อมูลยาวอย่างมาก โดยยังคงคุณภาพเสียงไว้ ใช้เฟรมเวิร์ก next-token diffusion โดย LLM ทำหน้าที่เข้าใจบริบทข้อความ และ diffusion head สร้างรายละเอียดเสียงคุณภาพสูง VibeVoice-ASR (7B): ประมวลผลเสียงได้สูงสุด 60 นาทีในพาสเดียว พร้อมส่งออกข้อมูลแบบมีโครงสร้างเป็นผู้พูด (Who) · ไทม์สแตมป์ (When) · เนื้อหา (What) ฟีเจอร์ hotword แบบปรับแต่งโดยผู้ใช้ ช่วยเพิ่มความแม่นยำในการรู้จำคำศัพท์เฉพาะทางของแต่ละโดเมน โมเดลหลายภาษาที่รองรับมากกว่า 50 ภาษา แบบเนทีฟ จะถูกรวมเข้ากับ Hugging Face Transformers ตั้งแต่เดือนมีนาคม 2026 รองรับ vLLM inference เพื่อการอนุมานที่เร็วขึ้น และเปิดเผย โค้ดสำหรับ fine-tuning VibeVoice-TTS (1.5B): สร้างเสียงสนทนาได้ยาวสูงสุด 90 นาที ในพาสเดียว และรองรับผู้พูดพร้อมกันได้สูงสุด 4 คน สร้างเสียงที่เป็นธรรมชาติและมีการแสดงออกสูง โดยจับ นัยทางอารมณ์และพลวัตของบทสนทนา ได้ พร้อมรองรับหลายภาษา เปิดตัวเมื่อวันที่ 25 สิงหาคม 2025 แต่ภายหลังพบกรณีการใช้งานที่ไม่เป็นไปตามเจตนา จึงมีการ ลบโค้ด TTS ออกจากรีโพซิทอรี ในวันที่ 5 กันยายน 2025 VibeVoice-Realtime (0.5B): TTS แบบเรียลไทม์สำหรับเสียงยาวสูงสุด 10 นาที โดยใช้เวลาประมาณ 300 มิลลิวินาที จนถึงการส่งออกเสียงครั้งแรก โมเดลแปลงข้อความเป็นเสียงแบบเรียลไทม์ขนาดเล็ก 0.5B พารามิเตอร์ ที่เหมาะกับการนำไปดีพลอย รองรับ อินพุตข้อความแบบสตรีมมิง เปิดตัวเมื่อวันที่ 3 ธันวาคม 2025 และต่อมาในวันที่ 16 ธันวาคม ได้เพิ่มเสียงหลายภาษา 9 ภาษา (DE, FR, IT, JP, KR, NL, PL, PT, ES) และ เสียงสไตล์อังกฤษ 11 แบบ ในสถานะทดลอง เพิ่มการรองรับ Apple Silicon (MPS) ในเดโม Gradio ASR ทำให้ใช้งานบน Mac ได้ดีขึ้น อิงจากเบสโมเดล (Qwen2.5 1.5B) จึงอาจสืบทอดอคติและข้อผิดพลาดมาได้ และควรระวังความเสี่ยงในการถูกนำไปใช้ทำดีปเฟก ใบอนุญาต MIT

(github.com/microsoft)

36 คะแนน โดย xguru 2026-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ตระกูล โมเดล AI เสียงโอเพนซอร์ส ที่ Microsoft เปิดตัว ซึ่งครอบคลุมทั้ง TTS (ข้อความ→เสียง) และ ASR (เสียง→ข้อความ)
ASR มีความคล้ายกับ Open AI Whisper แต่มีฟังก์ชัน แยกผู้พูด (speaker diarization) ฝังอยู่ในตัวโมเดล
นวัตกรรมหลักคือโทเคไนเซอร์เสียงต่อเนื่องแบบ อัตราเฟรมต่ำพิเศษ 7.5Hz ที่ช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับลำดับข้อมูลยาวอย่างมาก โดยยังคงคุณภาพเสียงไว้
ใช้เฟรมเวิร์ก next-token diffusion โดย LLM ทำหน้าที่เข้าใจบริบทข้อความ และ diffusion head สร้างรายละเอียดเสียงคุณภาพสูง
VibeVoice-ASR (7B): ประมวลผลเสียงได้สูงสุด 60 นาทีในพาสเดียว พร้อมส่งออกข้อมูลแบบมีโครงสร้างเป็นผู้พูด (Who) · ไทม์สแตมป์ (When) · เนื้อหา (What)
- ฟีเจอร์ hotword แบบปรับแต่งโดยผู้ใช้ ช่วยเพิ่มความแม่นยำในการรู้จำคำศัพท์เฉพาะทางของแต่ละโดเมน
- โมเดลหลายภาษาที่รองรับมากกว่า 50 ภาษา แบบเนทีฟ
- จะถูกรวมเข้ากับ Hugging Face Transformers ตั้งแต่เดือนมีนาคม 2026
- รองรับ vLLM inference เพื่อการอนุมานที่เร็วขึ้น และเปิดเผย โค้ดสำหรับ fine-tuning
VibeVoice-TTS (1.5B): สร้างเสียงสนทนาได้ยาวสูงสุด 90 นาที ในพาสเดียว และรองรับผู้พูดพร้อมกันได้สูงสุด 4 คน
- สร้างเสียงที่เป็นธรรมชาติและมีการแสดงออกสูง โดยจับ นัยทางอารมณ์และพลวัตของบทสนทนา ได้ พร้อมรองรับหลายภาษา
- เปิดตัวเมื่อวันที่ 25 สิงหาคม 2025 แต่ภายหลังพบกรณีการใช้งานที่ไม่เป็นไปตามเจตนา จึงมีการ ลบโค้ด TTS ออกจากรีโพซิทอรี ในวันที่ 5 กันยายน 2025
โฆษณา
VibeVoice-Realtime (0.5B): TTS แบบเรียลไทม์สำหรับเสียงยาวสูงสุด 10 นาที โดยใช้เวลาประมาณ 300 มิลลิวินาที จนถึงการส่งออกเสียงครั้งแรก
- โมเดลแปลงข้อความเป็นเสียงแบบเรียลไทม์ขนาดเล็ก 0.5B พารามิเตอร์ ที่เหมาะกับการนำไปดีพลอย
- รองรับ อินพุตข้อความแบบสตรีมมิง
- เปิดตัวเมื่อวันที่ 3 ธันวาคม 2025 และต่อมาในวันที่ 16 ธันวาคม ได้เพิ่มเสียงหลายภาษา 9 ภาษา (DE, FR, IT, JP, KR, NL, PL, PT, ES) และ เสียงสไตล์อังกฤษ 11 แบบ ในสถานะทดลอง
- เพิ่มการรองรับ Apple Silicon (MPS) ในเดโม Gradio ASR ทำให้ใช้งานบน Mac ได้ดีขึ้น
อิงจากเบสโมเดล (Qwen2.5 1.5B) จึงอาจสืบทอดอคติและข้อผิดพลาดมาได้ และควรระวังความเสี่ยงในการถูกนำไปใช้ทำดีปเฟก
ใบอนุญาต MIT

1 ความคิดเห็น

xguru 2026-04-28

VibeVoice - โมเดลสังเคราะห์เสียงโอเพนซอร์สรุ่นถัดไปของ Microsoft
ใน GeekNews มีการเปิดเผยตั้งแต่ช่วงแรกเลย แต่ดูเหมือนว่าเพราะมีประเด็นบางอย่าง โค้ด VibeVoice-TTS เลยถูกนำออกไปแล้ว
ตอนนี้ TTS น่าจะอยู่ในสถานะที่ใช้ได้เฉพาะ VibeVoice-Realtime เท่านั้น
ช่วงไม่กี่วันที่ผ่านมาเห็นกันตามที่ต่าง ๆ ว่า VibeVoice กลับมาได้รับความนิยมอีกครั้งเพราะ VibeVoice-ASR

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ได้ทดสอบ ASR แล้ว โดยบน Mac สามารถรันได้ด้วยคำสั่งบรรทัดเดียวโดยใช้ uv และ mlx-audio และ
ประมวลผลไฟล์เสียงความยาว 1 ชั่วโมงบน MacBook Pro ชิป M5 Max RAM 128GB ได้ในเวลาประมาณ 8 นาที 45 วินาที
มองได้ว่าเป็น Whisper ที่แยกผู้พูดได้ดี

VibeVoice - โมเดล AI เสียงล้ำสมัยโอเพนซอร์ส

บทความที่เกี่ยวข้อง

1 ความคิดเห็น