36 คะแนน โดย xguru 2026-04-28 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ตระกูล โมเดล AI เสียงโอเพนซอร์ส ที่ Microsoft เปิดตัว ซึ่งครอบคลุมทั้ง TTS (ข้อความ→เสียง) และ ASR (เสียง→ข้อความ)
  • ASR มีความคล้ายกับ Open AI Whisper แต่มีฟังก์ชัน แยกผู้พูด (speaker diarization) ฝังอยู่ในตัวโมเดล
  • นวัตกรรมหลักคือโทเคไนเซอร์เสียงต่อเนื่องแบบ อัตราเฟรมต่ำพิเศษ 7.5Hz ที่ช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับลำดับข้อมูลยาวอย่างมาก โดยยังคงคุณภาพเสียงไว้
  • ใช้เฟรมเวิร์ก next-token diffusion โดย LLM ทำหน้าที่เข้าใจบริบทข้อความ และ diffusion head สร้างรายละเอียดเสียงคุณภาพสูง
  • VibeVoice-ASR (7B): ประมวลผลเสียงได้สูงสุด 60 นาทีในพาสเดียว พร้อมส่งออกข้อมูลแบบมีโครงสร้างเป็นผู้พูด (Who) · ไทม์สแตมป์ (When) · เนื้อหา (What)
    • ฟีเจอร์ hotword แบบปรับแต่งโดยผู้ใช้ ช่วยเพิ่มความแม่นยำในการรู้จำคำศัพท์เฉพาะทางของแต่ละโดเมน
    • โมเดลหลายภาษาที่รองรับมากกว่า 50 ภาษา แบบเนทีฟ
    • จะถูกรวมเข้ากับ Hugging Face Transformers ตั้งแต่เดือนมีนาคม 2026
    • รองรับ vLLM inference เพื่อการอนุมานที่เร็วขึ้น และเปิดเผย โค้ดสำหรับ fine-tuning
  • VibeVoice-TTS (1.5B): สร้างเสียงสนทนาได้ยาวสูงสุด 90 นาที ในพาสเดียว และรองรับผู้พูดพร้อมกันได้สูงสุด 4 คน
    • สร้างเสียงที่เป็นธรรมชาติและมีการแสดงออกสูง โดยจับ นัยทางอารมณ์และพลวัตของบทสนทนา ได้ พร้อมรองรับหลายภาษา
    • เปิดตัวเมื่อวันที่ 25 สิงหาคม 2025 แต่ภายหลังพบกรณีการใช้งานที่ไม่เป็นไปตามเจตนา จึงมีการ ลบโค้ด TTS ออกจากรีโพซิทอรี ในวันที่ 5 กันยายน 2025
    โฆษณา
  • VibeVoice-Realtime (0.5B): TTS แบบเรียลไทม์สำหรับเสียงยาวสูงสุด 10 นาที โดยใช้เวลาประมาณ 300 มิลลิวินาที จนถึงการส่งออกเสียงครั้งแรก
    • โมเดลแปลงข้อความเป็นเสียงแบบเรียลไทม์ขนาดเล็ก 0.5B พารามิเตอร์ ที่เหมาะกับการนำไปดีพลอย
    • รองรับ อินพุตข้อความแบบสตรีมมิง
    • เปิดตัวเมื่อวันที่ 3 ธันวาคม 2025 และต่อมาในวันที่ 16 ธันวาคม ได้เพิ่มเสียงหลายภาษา 9 ภาษา (DE, FR, IT, JP, KR, NL, PL, PT, ES) และ เสียงสไตล์อังกฤษ 11 แบบ ในสถานะทดลอง
    • เพิ่มการรองรับ Apple Silicon (MPS) ในเดโม Gradio ASR ทำให้ใช้งานบน Mac ได้ดีขึ้น
  • อิงจากเบสโมเดล (Qwen2.5 1.5B) จึงอาจสืบทอดอคติและข้อผิดพลาดมาได้ และควรระวังความเสี่ยงในการถูกนำไปใช้ทำดีปเฟก
  • ใบอนุญาต MIT

1 ความคิดเห็น

 
xguru 2026-04-28

VibeVoice - โมเดลสังเคราะห์เสียงโอเพนซอร์สรุ่นถัดไปของ Microsoft
ใน GeekNews มีการเปิดเผยตั้งแต่ช่วงแรกเลย แต่ดูเหมือนว่าเพราะมีประเด็นบางอย่าง โค้ด VibeVoice-TTS เลยถูกนำออกไปแล้ว
ตอนนี้ TTS น่าจะอยู่ในสถานะที่ใช้ได้เฉพาะ VibeVoice-Realtime เท่านั้น
ช่วงไม่กี่วันที่ผ่านมาเห็นกันตามที่ต่าง ๆ ว่า VibeVoice กลับมาได้รับความนิยมอีกครั้งเพราะ VibeVoice-ASR

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ได้ทดสอบ ASR แล้ว โดยบน Mac สามารถรันได้ด้วยคำสั่งบรรทัดเดียวโดยใช้ uv และ mlx-audio และ
ประมวลผลไฟล์เสียงความยาว 1 ชั่วโมงบน MacBook Pro ชิป M5 Max RAM 128GB ได้ในเวลาประมาณ 8 นาที 45 วินาที
มองได้ว่าเป็น Whisper ที่แยกผู้พูดได้ดี