26 คะแนน โดย xguru 1 일 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ตระกูล โมเดล AI เสียงโอเพนซอร์ส ที่ Microsoft เปิดตัว ครอบคลุมทั้ง TTS (ข้อความ→เสียง) และ ASR (เสียง→ข้อความ)
  • ASR คล้ายกับ OpenAI Whisper แต่มีฟังก์ชัน speaker diarization ในตัวโมเดลเอง
  • นวัตกรรมหลักคือ continuous speech tokenizer แบบ อัตราเฟรมต่ำพิเศษ 7.5Hz ที่ช่วยเพิ่มประสิทธิภาพการคำนวณสำหรับลำดับยาวอย่างมาก โดยยังคงคุณภาพเสียงไว้
  • ใช้เฟรมเวิร์ก next-token diffusion - LLM ทำความเข้าใจบริบทข้อความ และ diffusion head สร้างรายละเอียดเสียงคุณภาพสูง
  • VibeVoice-ASR (7B): ประมวลผลเสียงได้สูงสุด 60 นาทีใน single pass พร้อมส่งออกผลลัพธ์แบบมีโครงสร้างสำหรับผู้พูด (Who)·timestamp (When)·เนื้อหา (What)
    • มีฟีเจอร์ hotword แบบปรับตามผู้ใช้ เพื่อเพิ่มความแม่นยำในการรู้จำคำศัพท์เฉพาะทาง
    • โมเดลหลายภาษาที่รองรับมากกว่า 50 ภาษา ได้แบบเนทีฟ
    • จะถูกรวมเข้ากับ Hugging Face Transformers ตั้งแต่เดือนมีนาคม 2026
    • รองรับ vLLM inference เพื่อการอนุมานที่เร็วขึ้น และเปิดเผย โค้ดสำหรับ fine-tuning
  • VibeVoice-TTS (1.5B): สร้างเสียงสนทนาได้สูงสุด 90 นาที ใน single pass และรองรับผู้พูดได้ สูงสุด 4 คน ในครั้งเดียว
    • สร้างเสียงที่เป็นธรรมชาติและมีความสามารถในการถ่ายทอดอารมณ์สูง โดยจับทั้ง nuance ทางอารมณ์และพลวัตของบทสนทนา พร้อมรองรับหลายภาษา
    • เปิดตัวเมื่อ 25 สิงหาคม 2025 แต่ภายหลังพบกรณีการใช้งานที่ต่างไปจากเจตนาเดิม จึงมีการ ลบโค้ด TTS ออกจาก repository เมื่อ 5 กันยายน 2025
  • VibeVoice-Realtime (0.5B): TTS แบบเรียลไทม์สำหรับเสียงยาวสูงสุด 10 นาที และใช้เวลาประมาณ 300 มิลลิวินาที จนได้เสียงเอาต์พุตแรก
    • โมเดลแปลงข้อความเป็นเสียงแบบเรียลไทม์ขนาดเบา 0.5B พารามิเตอร์ ที่เหมาะกับการดีพลอย
    • รองรับ streaming text input
    • เปิดตัวเมื่อ 3 ธันวาคม 2025 และต่อมาในวันที่ 16 ธันวาคม ได้มีการเพิ่มเสียงหลายภาษา 9 ภาษา (DE, FR, IT, JP, KR, NL, PL, PT, ES) และ 11 สไตล์เสียงภาษาอังกฤษ แบบทดลอง
    • เพิ่มการรองรับ Apple Silicon (MPS) ให้กับเดโม Gradio ASR เพื่อปรับปรุงการใช้งานบน Mac
  • อิงจากเบสโมเดล (Qwen2.5 1.5B) จึงอาจสืบทอดอคติและข้อผิดพลาดมาได้ และควรระวังความเป็นไปได้ในการถูกนำไปใช้ทำ deepfake
  • สัญญาอนุญาต MIT

1 ความคิดเห็น

 
xguru 1 일 전

VibeVoice - โมเดลสังเคราะห์เสียงโอเพนซอร์สยุคถัดไปของ Microsoft
ใน GeekNews มีการเปิดเผยตั้งแต่ช่วงแรกเลย แต่ดูเหมือนว่าด้วยปัญหาบางอย่าง โค้ด VibeVoice-TTS จึงถูกนำออกไปแล้ว
ตอนนี้ดูเหมือนว่าจะใช้งาน TTS ได้ผ่าน VibeVoice-Realtime เท่านั้น
ช่วงไม่กี่วันที่ผ่านมาเห็นกันหลายที่ว่า VibeVoice-ASR กำลังกลับมาได้รับความนิยมอีกครั้ง

https://simonwillison.net/2026/Apr/27/vibevoice/
Simon Willison ได้ทดสอบแล้ว โดยบน Mac สามารถรันได้ด้วยคำสั่งบรรทัดเดียวโดยใช้ uv และ mlx-audio และ
ประมวลผลเสียงความยาว 1 ชั่วโมงได้ในเวลาประมาณ 8 นาที 45 วินาที บน MacBook Pro ชิป M5 Max แรม 128GB
ถ้าจะให้นึกภาพก็ประมาณ Whisper ที่แยกผู้พูดได้ดี