1 คะแนน โดย GN⁺ 12 시간 전 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นตระกูลโมเดล AI เสียงที่รวมทั้ง TTS และ ASR ไว้ด้วยกัน และครอบคลุมทั้งการสร้างเสียงความยาวมากและการรู้จำเสียงความยาวมาก
  • สถาปัตยกรรมแกนหลักคือการผสาน ตัวแปลงโทเคนเสียงต่อเนื่องแบบเฟรมเรตต่ำมาก 7.5 Hz กับ next-token diffusion เพื่อมุ่งจัดการลำดับข้อมูลยาว ๆ พร้อมรักษาทั้งคุณภาพเสียงและประสิทธิภาพการคำนวณ
  • ใช้ LLM สำหรับทำความเข้าใจบริบทข้อความและลำดับการสนทนา และต่อ diffusion head สำหรับสร้างรายละเอียดเชิงเสียงที่มีความสมจริงสูง
  • VibeVoice-ASR ประมวลผลเสียงได้นานสูงสุด 60 นาทีใน single pass และสร้างทรานสคริปชันแบบมีโครงสร้างที่รวมข้อมูลผู้พูด ไทม์สแตมป์ และเนื้อหาคำพูดไว้ด้วยกัน
  • โมเดล ASR รองรับ มากกว่า 50 ภาษา และสามารถรับ hotword ที่ผู้ใช้กำหนดเองหรือข้อมูลบริบทเพื่อช่วยเพิ่มความแม่นยำในการรู้จำเฉพาะโดเมน
  • ฝั่ง ASR เปิดเผยทั้ง โค้ดสำหรับ finetuning และ การรองรับการอนุมานด้วย vLLM และยังใช้งานได้โดยตรงผ่านไลบรารี Hugging Face Transformers
  • VibeVoice-TTS สังเคราะห์เสียงยาวได้สูงสุด 90 นาทีใน single pass และรองรับผู้พูดได้สูงสุด 4 คนภายในการสนทนาเดียว
  • TTS เน้น เสียงสนทนาแบบมีการแสดงออก และความสม่ำเสมอของผู้พูด พร้อมรองรับภาษาอังกฤษ ภาษาจีน และภาษาอื่น ๆ
  • ตามประกาศในคลังเก็บ โค้ด VibeVoice-TTS ถูกนำออกแล้ว โดยระบุว่าตรวจพบการใช้งานหลังเผยแพร่ที่ไม่สอดคล้องกับเจตนารมณ์ที่ประกาศไว้ จึงลบออกจากรีโพซิทอรี
  • VibeVoice-Realtime-0.5B เป็นโมเดล TTS แบบเรียลไทม์ขนาด 0.5B รองรับการป้อนข้อความแบบสตรีมมิง มีเวลาแฝงก่อนเริ่มได้ยินเสียงราว 300ms และสร้างเสียงยาวได้ประมาณ 10 นาที
  • ในโมเดล Realtime มีการเพิ่ม ผู้พูดทดลองแบบหลายภาษา 9 ภาษา และ เสียงสไตล์ภาษาอังกฤษ 11 แบบ พร้อมระบุว่าจะเพิ่มประเภทผู้พูดให้มากขึ้นต่อไป
  • ช่องทางการเผยแพร่จัดไว้หลัก ๆ ผ่าน น้ำหนักโมเดลบน Hugging Face, Playground และ Colab จึงทดลองใช้งานได้รวดเร็ว
  • รีโพซิทอรีนี้ระบุว่าใช้ เพื่อการวิจัยและพัฒนาเท่านั้น และไม่แนะนำให้นำไปใช้เชิงพาณิชย์หรือในสภาพแวดล้อมจริงโดยไม่มีการทดสอบและพัฒนาเพิ่มเติม
  • โมเดลอาจสืบทอด อคติและข้อผิดพลาดของ base model อย่าง Qwen2.5 1.5b และมีความเสี่ยงด้านดีปเฟก การสวมรอย และการเผยแพร่ข้อมูลเท็จ จึงแนะนำให้ใช้งานอย่างถูกกฎหมายและมีความรับผิดชอบ รวมถึงเปิดเผยว่าเป็นเนื้อหาที่สร้างด้วย AI

1 ความคิดเห็น

 
ความเห็นจาก Hacker News
  • นี่ไม่ใช่ทั้ง โมเดลใหม่ และถ้าวัดตามเกณฑ์ STT ก็มีอาการหลอนเยอะ การอนุมานก็หนักและช้า อีกทั้งประสิทธิภาพหลายภาษาก็ไม่ค่อยดี
    ฟีเจอร์อื่นไม่แน่ใจ แต่ในที่นี้พูดถึงแค่ speech to text ล้วน ๆ

    • ก็ไม่ใช่ว่าไม่มีข้อดีเลย เพราะในบางกรณีก็ถ่ายทอดออกมาได้ดีกว่านิดหน่อย
      แต่โดยรวมให้ความรู้สึกเหมือนฝึกมาจาก ข้อมูลที่มี noise เยอะ ใช้หน่วยความจำมากกว่า และความเร็วก็ไม่ได้ดี
      ที่พูดถึงคือ เวอร์ชัน 7B ชื่อ vibevoice-community ที่เคยเปิดออกมาชั่วคราวแล้วก็ถอดลงอย่างรวดเร็ว และตอนนี้ฉันยังใช้ chatterbox turbo กับ qwen TTS เป็นครั้งคราวต่อไป
    • ไม่เข้าใจว่าทำไมวันนี้จู่ ๆ ถึงได้รับความสนใจขนาดนี้
      บน Twitter ก็มีแต่เรื่องนี้เต็มไปหมด
    • TTS ก็ไม่ได้ดีเหมือนกัน
      ลองใช้มาสองสามวัน อย่างแรกคือไม่มีเอกสารของ โมเดล 1.5B และโมเดล realtime 0.5B ก็แย่มาก
      มันแปลงข้อความเป็นรายบรรทัดแล้วสุ่มแทรกเพลงเข้ามา แถมยังจัดการอักขระพิเศษอย่าง ได้ไม่ถูกต้อง
      พูดตามตรงคือค่อนข้างผิดหวังมาก
    • ตอนนี้ SOTA ไปไกลกว่านี้มากแล้ว
    • ขอบคุณที่พูดเรื่องนี้ ทำให้ประหยัดเวลาไปได้เยอะ
      ยกเลิกดาว repo ทันทีแล้ว เดี๋ยวขอผ่านเลย
  • ผมคิดว่าเราควรเลิกเรียกโมเดลประเภทนี้ว่า โอเพนซอร์ส ได้แล้ว
    ในความเป็นจริงมันเป็นแค่ open weight เท่านั้น โค้ดเทรนเป็นกรรมสิทธิ์และไม่เคยเปิดเผย
    https://github.com/microsoft/VibeVoice/issues/102

    • ตอนนี้เราอยู่ในโลกที่เรียก freeware ว่าโอเพนซอร์สแล้ว
      ขอโทษนะ Stallman
    • สิ่งที่ผมเก็บความไม่พอใจไว้เป็นพิเศษคือโมเดลที่แจกภายใต้ ไลเซนส์ที่ไม่ใช่โอเพนซอร์ส แต่ยังเรียกตัวเองว่าโอเพนซอร์ส
      เวลามีเขียนว่าโปรเจกต์เป็นโอเพนซอร์ส สิ่งสำคัญกว่าคือจริง ๆ แล้วผมทำอะไรกับมันได้บ้าง
    • เรือขบวนนี้แล่นออกไปแล้ว
      การแยกระหว่าง open source vs open weight ตอนนี้ดูจะกลายเป็นหมวดเดียวกับการถก hacker/cracker หรือสงครามการออกเสียง GIF ไปแล้ว
    • ถ้าคิดกลับกัน ถ้าผมมี โค้ด MIT แล้วส่งให้แค่ไบนารีโดยไม่ส่งซอร์สเลย โค้ดนั้นก็ยังอาจถือว่าเป็นโอเพนซอร์สได้
      แค่ไม่มีสิทธิ์เข้าถึงตัวซอร์ส แต่ตัวไลเซนส์เองยังเป็น MIT
      ถึงอย่างนั้นก็เห็นด้วยเต็มที่ว่า Microsoft กำลังโหมเรื่องความเปิดกว้างเกินจริงในกรณีนี้ และก็ไม่ได้แปลกใจ
    • อย่างน้อยก็ยังเป็น MIT license ถือว่าโชคดี
      ข้อมูลฝึกที่ไม่เปิดเผยก็กวนใจอยู่ แต่สำหรับผม ไลเซนส์ที่มีข้อจำกัดกวนใจกว่า
  • ในหมวดนี้ผมว่า Voxtral ดีกว่ามาก
    แถมยังเล็กพอที่จะรันบน webGPU ได้ด้วย
    https://huggingface.co/spaces/mistralai/Voxtral-Realtime-WebGPU

  • Kevin Beaumont โพสต์เรื่องที่น่าสนใจเกี่ยวกับ repo/product/author นี้
    https://cyberplace.social/@GossiTheDog/116454846703138243

    • ความพยายามซ่อนลิงก์นี่น่าประทับใจจริง ๆ
  • นี่ใช่โปรเจกต์ที่ Microsoft เคยปล่อยออกมาแล้วไม่นานก็ถอดลงเพราะเหตุผลด้าน security/safety หรือเปล่า
    เลยสงสัยว่าหลังจากนั้นมีอะไรเปลี่ยนไปบ้าง

    • ดูที่ ส่วน News ใน readme ได้เลย
      เดิมทีโมเดล TTS ถูกเอาออกจาก repo นี้แล้ว แต่ยังหาได้จากที่อื่น
      ส่วนโมเดล SST/ASR, long form TTS และ streaming TTS นั้นเป็นตัวที่ใหม่กว่า
    • อย่างน้อยสำหรับผมมันค่อนข้างสับสน
      เพราะโปรเจกต์นี้ครอบคลุมหลายด้านพร้อมกัน รวมถึงสิ่งที่เพิ่งพูดถึงไปด้วย
  • ก็น่าสนใจที่บริษัทอย่าง Microsoft มาทำให้คำว่า vibe กลายเป็นคำทางการของสินค้า AI

    • โดยเฉพาะคำว่า vibe coded ที่อาจมีนัยเชิงลบว่าเอามาปะติดปะต่อแบบเร่ง ๆ โดยไม่เข้าใจจริง
    • หรืออาจเป็นมุกเล่นคำจาก Via Voice ระบบ STT สุดอาถรรพ์ของ IBM ในยุค 90 ก็ได้
    • ยิ่งน่าแปลกที่พวกเขาห้ามใจไม่เรียกมันว่า Copilot ได้
  • speech-swift ที่ผมทำก็โฟกัสเรื่องการประมวลผลเสียงบนอุปกรณ์แบบเดียวกับ VibeVoice
    แต่ถูกออกแบบมาให้รัน ASR, TTS, VAD โดยใช้ความสามารถของ Apple Silicon โดยไม่ต้องพึ่งคลาวด์
    ASR รองรับ 52 ภาษา และมี real-time factor อยู่ที่ 0.06
    https://soniqo.audio/benchmarks

  • บทความของ Simon เมื่อคืนดีมาก
    https://simonwillison.net/2026/Apr/27/vibevoice/

    • เผื่อไว้ก่อนว่าบทความนั้นพูดถึงเฉพาะฝั่ง Speech-to-Text / Speech-Recognition เท่านั้น
      เป็นพื้นที่คล้าย whisper และนอกจากนี้ยังมีโมเดล long-form TTS กับ streaming TTS แยกต่างหากอีก
    • มีบอกว่า VibeVoice ประมวลผลเสียงได้สูงสุด 1 ชั่วโมง
      เลยสงสัยว่าทำไมถึงเป็นแบบนั้น
  • ผมตั้งค่าเสียงพื้นฐานของคอมพิวเตอร์เป็น Microsoft Sam

    • ยังจำได้ว่าตอนอยู่ห้องคอมกับเพื่อน ๆ เราเล่นใส่สตริงยาว ๆ ให้ Microsoft Sam เพื่อสร้างเสียงเอฟเฟกต์ตลก ๆ
      Sususususususu
  • ว้าว ในที่สุดก็มีสินค้า AI ของ Microsoft ที่ไม่ได้ชื่อ Copilot สักที

    • ถ้าเรียกว่า Vopilot ก็คงเหมาะดี