VibeVoice - AI เสียงแนวหน้าสำหรับโอเพนซอร์ส
(github.com/microsoft)- เป็นตระกูลโมเดล AI เสียงที่รวมทั้ง TTS และ ASR ไว้ด้วยกัน และครอบคลุมทั้งการสร้างเสียงความยาวมากและการรู้จำเสียงความยาวมาก
- สถาปัตยกรรมแกนหลักคือการผสาน ตัวแปลงโทเคนเสียงต่อเนื่องแบบเฟรมเรตต่ำมาก 7.5 Hz กับ next-token diffusion เพื่อมุ่งจัดการลำดับข้อมูลยาว ๆ พร้อมรักษาทั้งคุณภาพเสียงและประสิทธิภาพการคำนวณ
- ใช้ LLM สำหรับทำความเข้าใจบริบทข้อความและลำดับการสนทนา และต่อ diffusion head สำหรับสร้างรายละเอียดเชิงเสียงที่มีความสมจริงสูง
- VibeVoice-ASR ประมวลผลเสียงได้นานสูงสุด 60 นาทีใน single pass และสร้างทรานสคริปชันแบบมีโครงสร้างที่รวมข้อมูลผู้พูด ไทม์สแตมป์ และเนื้อหาคำพูดไว้ด้วยกัน
- โมเดล ASR รองรับ มากกว่า 50 ภาษา และสามารถรับ hotword ที่ผู้ใช้กำหนดเองหรือข้อมูลบริบทเพื่อช่วยเพิ่มความแม่นยำในการรู้จำเฉพาะโดเมน
- ฝั่ง ASR เปิดเผยทั้ง โค้ดสำหรับ finetuning และ การรองรับการอนุมานด้วย vLLM และยังใช้งานได้โดยตรงผ่านไลบรารี Hugging Face Transformers
- VibeVoice-TTS สังเคราะห์เสียงยาวได้สูงสุด 90 นาทีใน single pass และรองรับผู้พูดได้สูงสุด 4 คนภายในการสนทนาเดียว
- TTS เน้น เสียงสนทนาแบบมีการแสดงออก และความสม่ำเสมอของผู้พูด พร้อมรองรับภาษาอังกฤษ ภาษาจีน และภาษาอื่น ๆ
- ตามประกาศในคลังเก็บ โค้ด VibeVoice-TTS ถูกนำออกแล้ว โดยระบุว่าตรวจพบการใช้งานหลังเผยแพร่ที่ไม่สอดคล้องกับเจตนารมณ์ที่ประกาศไว้ จึงลบออกจากรีโพซิทอรี
- VibeVoice-Realtime-0.5B เป็นโมเดล TTS แบบเรียลไทม์ขนาด 0.5B รองรับการป้อนข้อความแบบสตรีมมิง มีเวลาแฝงก่อนเริ่มได้ยินเสียงราว 300ms และสร้างเสียงยาวได้ประมาณ 10 นาที
- ในโมเดล Realtime มีการเพิ่ม ผู้พูดทดลองแบบหลายภาษา 9 ภาษา และ เสียงสไตล์ภาษาอังกฤษ 11 แบบ พร้อมระบุว่าจะเพิ่มประเภทผู้พูดให้มากขึ้นต่อไป
- ช่องทางการเผยแพร่จัดไว้หลัก ๆ ผ่าน น้ำหนักโมเดลบน Hugging Face, Playground และ Colab จึงทดลองใช้งานได้รวดเร็ว
- รีโพซิทอรีนี้ระบุว่าใช้ เพื่อการวิจัยและพัฒนาเท่านั้น และไม่แนะนำให้นำไปใช้เชิงพาณิชย์หรือในสภาพแวดล้อมจริงโดยไม่มีการทดสอบและพัฒนาเพิ่มเติม
- โมเดลอาจสืบทอด อคติและข้อผิดพลาดของ base model อย่าง Qwen2.5 1.5b และมีความเสี่ยงด้านดีปเฟก การสวมรอย และการเผยแพร่ข้อมูลเท็จ จึงแนะนำให้ใช้งานอย่างถูกกฎหมายและมีความรับผิดชอบ รวมถึงเปิดเผยว่าเป็นเนื้อหาที่สร้างด้วย AI
1 ความคิดเห็น
ความเห็นจาก Hacker News
นี่ไม่ใช่ทั้ง โมเดลใหม่ และถ้าวัดตามเกณฑ์ STT ก็มีอาการหลอนเยอะ การอนุมานก็หนักและช้า อีกทั้งประสิทธิภาพหลายภาษาก็ไม่ค่อยดี
ฟีเจอร์อื่นไม่แน่ใจ แต่ในที่นี้พูดถึงแค่ speech to text ล้วน ๆ
แต่โดยรวมให้ความรู้สึกเหมือนฝึกมาจาก ข้อมูลที่มี noise เยอะ ใช้หน่วยความจำมากกว่า และความเร็วก็ไม่ได้ดี
ที่พูดถึงคือ เวอร์ชัน 7B ชื่อ vibevoice-community ที่เคยเปิดออกมาชั่วคราวแล้วก็ถอดลงอย่างรวดเร็ว และตอนนี้ฉันยังใช้ chatterbox turbo กับ qwen TTS เป็นครั้งคราวต่อไป
บน Twitter ก็มีแต่เรื่องนี้เต็มไปหมด
ลองใช้มาสองสามวัน อย่างแรกคือไม่มีเอกสารของ โมเดล 1.5B และโมเดล realtime 0.5B ก็แย่มาก
มันแปลงข้อความเป็นรายบรรทัดแล้วสุ่มแทรกเพลงเข้ามา แถมยังจัดการอักขระพิเศษอย่าง
…ได้ไม่ถูกต้องพูดตามตรงคือค่อนข้างผิดหวังมาก
ยกเลิกดาว repo ทันทีแล้ว เดี๋ยวขอผ่านเลย
ผมคิดว่าเราควรเลิกเรียกโมเดลประเภทนี้ว่า โอเพนซอร์ส ได้แล้ว
ในความเป็นจริงมันเป็นแค่ open weight เท่านั้น โค้ดเทรนเป็นกรรมสิทธิ์และไม่เคยเปิดเผย
https://github.com/microsoft/VibeVoice/issues/102
ขอโทษนะ Stallman
เวลามีเขียนว่าโปรเจกต์เป็นโอเพนซอร์ส สิ่งสำคัญกว่าคือจริง ๆ แล้วผมทำอะไรกับมันได้บ้าง
การแยกระหว่าง open source vs open weight ตอนนี้ดูจะกลายเป็นหมวดเดียวกับการถก hacker/cracker หรือสงครามการออกเสียง GIF ไปแล้ว
แค่ไม่มีสิทธิ์เข้าถึงตัวซอร์ส แต่ตัวไลเซนส์เองยังเป็น MIT
ถึงอย่างนั้นก็เห็นด้วยเต็มที่ว่า Microsoft กำลังโหมเรื่องความเปิดกว้างเกินจริงในกรณีนี้ และก็ไม่ได้แปลกใจ
ข้อมูลฝึกที่ไม่เปิดเผยก็กวนใจอยู่ แต่สำหรับผม ไลเซนส์ที่มีข้อจำกัดกวนใจกว่า
ในหมวดนี้ผมว่า Voxtral ดีกว่ามาก
แถมยังเล็กพอที่จะรันบน webGPU ได้ด้วย
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont โพสต์เรื่องที่น่าสนใจเกี่ยวกับ repo/product/author นี้
https://cyberplace.social/@GossiTheDog/116454846703138243
นี่ใช่โปรเจกต์ที่ Microsoft เคยปล่อยออกมาแล้วไม่นานก็ถอดลงเพราะเหตุผลด้าน security/safety หรือเปล่า
เลยสงสัยว่าหลังจากนั้นมีอะไรเปลี่ยนไปบ้าง
เดิมทีโมเดล TTS ถูกเอาออกจาก repo นี้แล้ว แต่ยังหาได้จากที่อื่น
ส่วนโมเดล SST/ASR, long form TTS และ streaming TTS นั้นเป็นตัวที่ใหม่กว่า
เพราะโปรเจกต์นี้ครอบคลุมหลายด้านพร้อมกัน รวมถึงสิ่งที่เพิ่งพูดถึงไปด้วย
ก็น่าสนใจที่บริษัทอย่าง Microsoft มาทำให้คำว่า vibe กลายเป็นคำทางการของสินค้า AI
speech-swift ที่ผมทำก็โฟกัสเรื่องการประมวลผลเสียงบนอุปกรณ์แบบเดียวกับ VibeVoice
แต่ถูกออกแบบมาให้รัน ASR, TTS, VAD โดยใช้ความสามารถของ Apple Silicon โดยไม่ต้องพึ่งคลาวด์
ASR รองรับ 52 ภาษา และมี real-time factor อยู่ที่ 0.06
https://soniqo.audio/benchmarks
บทความของ Simon เมื่อคืนดีมาก
https://simonwillison.net/2026/Apr/27/vibevoice/
เป็นพื้นที่คล้าย whisper และนอกจากนี้ยังมีโมเดล long-form TTS กับ streaming TTS แยกต่างหากอีก
เลยสงสัยว่าทำไมถึงเป็นแบบนั้น
ผมตั้งค่าเสียงพื้นฐานของคอมพิวเตอร์เป็น Microsoft Sam
Sususususususu
ว้าว ในที่สุดก็มีสินค้า AI ของ Microsoft ที่ไม่ได้ชื่อ Copilot สักที