VibeVoice - AI เสียงแนวหน้าสำหรับโอเพนซอร์ส

(github.com/microsoft)

1 คะแนน โดย GN⁺ 12 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เป็นตระกูลโมเดล AI เสียงที่รวมทั้ง TTS และ ASR ไว้ด้วยกัน และครอบคลุมทั้งการสร้างเสียงความยาวมากและการรู้จำเสียงความยาวมาก
สถาปัตยกรรมแกนหลักคือการผสาน ตัวแปลงโทเคนเสียงต่อเนื่องแบบเฟรมเรตต่ำมาก 7.5 Hz กับ next-token diffusion เพื่อมุ่งจัดการลำดับข้อมูลยาว ๆ พร้อมรักษาทั้งคุณภาพเสียงและประสิทธิภาพการคำนวณ
ใช้ LLM สำหรับทำความเข้าใจบริบทข้อความและลำดับการสนทนา และต่อ diffusion head สำหรับสร้างรายละเอียดเชิงเสียงที่มีความสมจริงสูง
VibeVoice-ASR ประมวลผลเสียงได้นานสูงสุด 60 นาทีใน single pass และสร้างทรานสคริปชันแบบมีโครงสร้างที่รวมข้อมูลผู้พูด ไทม์สแตมป์ และเนื้อหาคำพูดไว้ด้วยกัน
โมเดล ASR รองรับ มากกว่า 50 ภาษา และสามารถรับ hotword ที่ผู้ใช้กำหนดเองหรือข้อมูลบริบทเพื่อช่วยเพิ่มความแม่นยำในการรู้จำเฉพาะโดเมน
ฝั่ง ASR เปิดเผยทั้ง โค้ดสำหรับ finetuning และ การรองรับการอนุมานด้วย vLLM และยังใช้งานได้โดยตรงผ่านไลบรารี Hugging Face Transformers
VibeVoice-TTS สังเคราะห์เสียงยาวได้สูงสุด 90 นาทีใน single pass และรองรับผู้พูดได้สูงสุด 4 คนภายในการสนทนาเดียว
TTS เน้น เสียงสนทนาแบบมีการแสดงออก และความสม่ำเสมอของผู้พูด พร้อมรองรับภาษาอังกฤษ ภาษาจีน และภาษาอื่น ๆ
ตามประกาศในคลังเก็บ โค้ด VibeVoice-TTS ถูกนำออกแล้ว โดยระบุว่าตรวจพบการใช้งานหลังเผยแพร่ที่ไม่สอดคล้องกับเจตนารมณ์ที่ประกาศไว้ จึงลบออกจากรีโพซิทอรี
VibeVoice-Realtime-0.5B เป็นโมเดล TTS แบบเรียลไทม์ขนาด 0.5B รองรับการป้อนข้อความแบบสตรีมมิง มีเวลาแฝงก่อนเริ่มได้ยินเสียงราว 300ms และสร้างเสียงยาวได้ประมาณ 10 นาที
ในโมเดล Realtime มีการเพิ่ม ผู้พูดทดลองแบบหลายภาษา 9 ภาษา และ เสียงสไตล์ภาษาอังกฤษ 11 แบบ พร้อมระบุว่าจะเพิ่มประเภทผู้พูดให้มากขึ้นต่อไป
ช่องทางการเผยแพร่จัดไว้หลัก ๆ ผ่าน น้ำหนักโมเดลบน Hugging Face, Playground และ Colab จึงทดลองใช้งานได้รวดเร็ว
รีโพซิทอรีนี้ระบุว่าใช้ เพื่อการวิจัยและพัฒนาเท่านั้น และไม่แนะนำให้นำไปใช้เชิงพาณิชย์หรือในสภาพแวดล้อมจริงโดยไม่มีการทดสอบและพัฒนาเพิ่มเติม
โมเดลอาจสืบทอด อคติและข้อผิดพลาดของ base model อย่าง Qwen2.5 1.5b และมีความเสี่ยงด้านดีปเฟก การสวมรอย และการเผยแพร่ข้อมูลเท็จ จึงแนะนำให้ใช้งานอย่างถูกกฎหมายและมีความรับผิดชอบ รวมถึงเปิดเผยว่าเป็นเนื้อหาที่สร้างด้วย AI

1 ความคิดเห็น

GN⁺ 12 시간 전

ความเห็นจาก Hacker News

นี่ไม่ใช่ทั้ง โมเดลใหม่ และถ้าวัดตามเกณฑ์ STT ก็มีอาการหลอนเยอะ การอนุมานก็หนักและช้า อีกทั้งประสิทธิภาพหลายภาษาก็ไม่ค่อยดี
ฟีเจอร์อื่นไม่แน่ใจ แต่ในที่นี้พูดถึงแค่ speech to text ล้วน ๆ
- ก็ไม่ใช่ว่าไม่มีข้อดีเลย เพราะในบางกรณีก็ถ่ายทอดออกมาได้ดีกว่านิดหน่อย
  แต่โดยรวมให้ความรู้สึกเหมือนฝึกมาจาก ข้อมูลที่มี noise เยอะ ใช้หน่วยความจำมากกว่า และความเร็วก็ไม่ได้ดี
  ที่พูดถึงคือ เวอร์ชัน 7B ชื่อ vibevoice-community ที่เคยเปิดออกมาชั่วคราวแล้วก็ถอดลงอย่างรวดเร็ว และตอนนี้ฉันยังใช้ chatterbox turbo กับ qwen TTS เป็นครั้งคราวต่อไป
- ไม่เข้าใจว่าทำไมวันนี้จู่ ๆ ถึงได้รับความสนใจขนาดนี้
  บน Twitter ก็มีแต่เรื่องนี้เต็มไปหมด
- TTS ก็ไม่ได้ดีเหมือนกัน
  ลองใช้มาสองสามวัน อย่างแรกคือไม่มีเอกสารของ โมเดล 1.5B และโมเดล realtime 0.5B ก็แย่มาก
  มันแปลงข้อความเป็นรายบรรทัดแล้วสุ่มแทรกเพลงเข้ามา แถมยังจัดการอักขระพิเศษอย่าง … ได้ไม่ถูกต้อง
  พูดตามตรงคือค่อนข้างผิดหวังมาก
- ตอนนี้ SOTA ไปไกลกว่านี้มากแล้ว
- ขอบคุณที่พูดเรื่องนี้ ทำให้ประหยัดเวลาไปได้เยอะ
  ยกเลิกดาว repo ทันทีแล้ว เดี๋ยวขอผ่านเลย
ผมคิดว่าเราควรเลิกเรียกโมเดลประเภทนี้ว่า โอเพนซอร์ส ได้แล้ว
ในความเป็นจริงมันเป็นแค่ open weight เท่านั้น โค้ดเทรนเป็นกรรมสิทธิ์และไม่เคยเปิดเผย
https://github.com/microsoft/VibeVoice/issues/102
- ตอนนี้เราอยู่ในโลกที่เรียก freeware ว่าโอเพนซอร์สแล้ว
  ขอโทษนะ Stallman
- สิ่งที่ผมเก็บความไม่พอใจไว้เป็นพิเศษคือโมเดลที่แจกภายใต้ ไลเซนส์ที่ไม่ใช่โอเพนซอร์ส แต่ยังเรียกตัวเองว่าโอเพนซอร์ส
  เวลามีเขียนว่าโปรเจกต์เป็นโอเพนซอร์ส สิ่งสำคัญกว่าคือจริง ๆ แล้วผมทำอะไรกับมันได้บ้าง
- เรือขบวนนี้แล่นออกไปแล้ว
  การแยกระหว่าง open source vs open weight ตอนนี้ดูจะกลายเป็นหมวดเดียวกับการถก hacker/cracker หรือสงครามการออกเสียง GIF ไปแล้ว
- ถ้าคิดกลับกัน ถ้าผมมี โค้ด MIT แล้วส่งให้แค่ไบนารีโดยไม่ส่งซอร์สเลย โค้ดนั้นก็ยังอาจถือว่าเป็นโอเพนซอร์สได้
  แค่ไม่มีสิทธิ์เข้าถึงตัวซอร์ส แต่ตัวไลเซนส์เองยังเป็น MIT
  ถึงอย่างนั้นก็เห็นด้วยเต็มที่ว่า Microsoft กำลังโหมเรื่องความเปิดกว้างเกินจริงในกรณีนี้ และก็ไม่ได้แปลกใจ
- อย่างน้อยก็ยังเป็น MIT license ถือว่าโชคดี
  ข้อมูลฝึกที่ไม่เปิดเผยก็กวนใจอยู่ แต่สำหรับผม ไลเซนส์ที่มีข้อจำกัดกวนใจกว่า
ในหมวดนี้ผมว่า Voxtral ดีกว่ามาก
แถมยังเล็กพอที่จะรันบน webGPU ได้ด้วย
https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU
Kevin Beaumont โพสต์เรื่องที่น่าสนใจเกี่ยวกับ repo/product/author นี้
https://cyberplace.social/@GossiTheDog/116454846703138243
- ความพยายามซ่อนลิงก์นี่น่าประทับใจจริง ๆ
นี่ใช่โปรเจกต์ที่ Microsoft เคยปล่อยออกมาแล้วไม่นานก็ถอดลงเพราะเหตุผลด้าน security/safety หรือเปล่า
เลยสงสัยว่าหลังจากนั้นมีอะไรเปลี่ยนไปบ้าง
- ดูที่ ส่วน News ใน readme ได้เลย
  เดิมทีโมเดล TTS ถูกเอาออกจาก repo นี้แล้ว แต่ยังหาได้จากที่อื่น
  ส่วนโมเดล SST/ASR, long form TTS และ streaming TTS นั้นเป็นตัวที่ใหม่กว่า
- อย่างน้อยสำหรับผมมันค่อนข้างสับสน
  เพราะโปรเจกต์นี้ครอบคลุมหลายด้านพร้อมกัน รวมถึงสิ่งที่เพิ่งพูดถึงไปด้วย
ก็น่าสนใจที่บริษัทอย่าง Microsoft มาทำให้คำว่า vibe กลายเป็นคำทางการของสินค้า AI
- โดยเฉพาะคำว่า vibe coded ที่อาจมีนัยเชิงลบว่าเอามาปะติดปะต่อแบบเร่ง ๆ โดยไม่เข้าใจจริง
- หรืออาจเป็นมุกเล่นคำจาก Via Voice ระบบ STT สุดอาถรรพ์ของ IBM ในยุค 90 ก็ได้
- ยิ่งน่าแปลกที่พวกเขาห้ามใจไม่เรียกมันว่า Copilot ได้
speech-swift ที่ผมทำก็โฟกัสเรื่องการประมวลผลเสียงบนอุปกรณ์แบบเดียวกับ VibeVoice
แต่ถูกออกแบบมาให้รัน ASR, TTS, VAD โดยใช้ความสามารถของ Apple Silicon โดยไม่ต้องพึ่งคลาวด์
ASR รองรับ 52 ภาษา และมี real-time factor อยู่ที่ 0.06
https://soniqo.audio/benchmarks
บทความของ Simon เมื่อคืนดีมาก
https://simonwillison.net/2026/Apr/27/vibevoice/
- เผื่อไว้ก่อนว่าบทความนั้นพูดถึงเฉพาะฝั่ง Speech-to-Text / Speech-Recognition เท่านั้น
  เป็นพื้นที่คล้าย whisper และนอกจากนี้ยังมีโมเดล long-form TTS กับ streaming TTS แยกต่างหากอีก
- มีบอกว่า VibeVoice ประมวลผลเสียงได้สูงสุด 1 ชั่วโมง
  เลยสงสัยว่าทำไมถึงเป็นแบบนั้น
ผมตั้งค่าเสียงพื้นฐานของคอมพิวเตอร์เป็น Microsoft Sam
- ยังจำได้ว่าตอนอยู่ห้องคอมกับเพื่อน ๆ เราเล่นใส่สตริงยาว ๆ ให้ Microsoft Sam เพื่อสร้างเสียงเอฟเฟกต์ตลก ๆ
  Sususususususu
ว้าว ในที่สุดก็มีสินค้า AI ของ Microsoft ที่ไม่ได้ชื่อ Copilot สักที
- ถ้าเรียกว่า Vopilot ก็คงเหมาะดี

VibeVoice - AI เสียงแนวหน้าสำหรับโอเพนซอร์ส

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นจาก Hacker News