5 คะแนน โดย GN⁺ 2025-09-04 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลสังเคราะห์เสียง TTS ใหม่ที่ออกแบบมาเพื่อสร้าง เสียงสนทนาหลายผู้พูดที่เป็นธรรมชาติในระยะเวลายาวนาน จากข้อความ
  • ถูกออกแบบมาเพื่อแก้ปัญหา ความสามารถในการขยายระบบ ความสม่ำเสมอของผู้พูด และการสลับตาพูดอย่างเป็นธรรมชาติ ซึ่งเป็นข้อจำกัดของระบบเดิม
  • สามารถสังเคราะห์ เสียงยาวสูงสุด 90 นาที และรองรับ ผู้พูดสูงสุด 4 คน พร้อมกัน ก้าวข้ามข้อจำกัดของโมเดลเดิมที่รองรับได้เพียง 1–2 คน
  • หัวใจสำคัญคือการใช้ ตัวแปลงโทเคนเสียงแบบต่อเนื่องที่มีเฟรมเรตต่ำมาก 7.5Hz (Acoustic/ Semantic) เพื่อประมวลผลลำดับเสียงที่ยาวได้อย่างมีประสิทธิภาพพร้อมคงคุณภาพเสียงไว้
  • ใช้แนวทาง Next-Token Diffusion เพื่อสร้างแบบจำลองข้อมูลต่อเนื่องอย่างมีประสิทธิภาพ และเพื่อรองรับสิ่งนี้ได้มีการนำตัวแปลงโทเคนเสียงแบบต่อเนื่องตัวใหม่มาใช้ ซึ่งให้ อัตราการบีบอัดสูงกว่า Encodec ถึง 80 เท่า

บทนำ

  • แม้ว่าเทคโนโลยี TTS ในช่วงหลังจะประสบความสำเร็จในการสังเคราะห์เสียงพูดสั้น ๆ ของผู้พูดเดี่ยวด้วยคุณภาพสูง แต่ การสังเคราะห์บทสนทนาระยะยาวแบบหลายผู้พูด ยังคงเป็นความท้าทาย
    • วิธีการเดิมมักเชื่อมต่อเสียงพูดเข้าด้วยกันแบบตรง ๆ ทำให้การเปลี่ยนผ่านไม่เป็นธรรมชาติ
    • เป็นเรื่องยากที่จะสร้างการผลัดกันพูดและการรับรู้บริบทได้อย่างเป็นธรรมชาติ
  • เป้าหมาย: รองรับการสังเคราะห์ เสียงสนทนาขนาดยาวแบบหลายผู้พูด เช่น พอดแคสต์
  • VibeVoice แก้ปัญหานี้ด้วยการผสาน ตัวแปลงโทเคนเสียงที่มีอัตราเฟรมต่ำมาก (7.5Hz) เข้ากับ สถาปัตยกรรม Diffusion แบบใช้ LLM เป็นฐาน
  • ผลลัพธ์คือสามารถสังเคราะห์เสียงหลายผู้พูดที่มีความยาวสูงสุด 90 นาทีได้อย่างเสถียร

นวัตกรรมทางเทคนิค

  • ตัวแปลงโทเคนเสียงแบบต่อเนื่อง (7.5Hz):
    • ใช้งานตัวแปลงโทเคน Acoustic + Semantic ควบคู่กัน
    • เพิ่มประสิทธิภาพในการประมวลผลลำดับที่ยาว พร้อมรักษาความเที่ยงตรงของเสียง
  • Next-token diffusion framework:
    • LLM เข้าใจ บริบทของข้อความและลำดับการสนทนา
    • Diffusion head สร้าง รายละเอียดทางเสียงความละเอียดสูง
  • ผลลัพธ์: การสังเคราะห์เสียงที่ เป็นธรรมชาติและเหมือนมนุษย์มากกว่าเดิม อย่างชัดเจน

ประสิทธิภาพ

  • สังเคราะห์ เสียงยาวสูงสุด 90 นาที ได้
  • รองรับ ผู้พูดสูงสุด 4 คน (เหนือกว่าข้อจำกัด 1–2 คนของโมเดลเดิม)
  • ให้ เสียงที่มีการแสดงออกและคงความสม่ำเสมอ ในสถานการณ์สนทนาหลากหลายรูปแบบ

ผลการทดลอง

การสังเคราะห์บทสนทนาระยะยาว (Podcast)

  • ประเมินด้วยชุดข้อมูลบทสนทนาความยาว 1 ชั่วโมง
  • วัดค่า WER (อัตราความผิดพลาดของคำ), SIM (ความคล้ายคลึงของผู้พูด) และ การประเมินเชิงอัตวิสัย (MOS)
  • VIBEVOICE-7B ทำผลงานสูงสุดด้วย Realism 3.71, Richness 3.81, Preference 3.75
  • ทำได้ดีกว่าโมเดลล่าสุดอย่าง Gemini 2.5 Pro และ ElevenLabs v3

บทสรุปและข้อจำกัด

  • VibeVoice คือ เฟรมเวิร์ก TTS รุ่นถัดไป ที่รองรับการสังเคราะห์บทสนทนาที่เป็นธรรมชาติได้สูงสุด 90 นาที และ 4 ผู้พูด
  • มีคุณภาพที่เหนือกว่าทั้งในเชิงอัตวิสัยและเชิงวัตถุวิสัยเมื่อเทียบกับโมเดลโอเพนซอร์สและเชิงพาณิชย์ที่มีอยู่
  • ข้อจำกัด:
    • ภาษาอื่นนอกเหนือจากอังกฤษและจีนอาจให้ผลลัพธ์ที่ไม่คาดคิด
    • ไม่รองรับเสียงที่ไม่ใช่คำพูด (เสียงพื้นหลัง, ดนตรี)
    • ไม่รองรับการพูดทับซ้อนกัน (Overlapping Speech)
    • มีความเสี่ยงต่อการถูกนำไปใช้ในทางที่ผิด เช่น ดีปเฟกและข้อมูลเท็จ
  • ดังนั้นในปัจจุบันจึง เปิดให้ใช้เพื่อการวิจัยและพัฒนาเท่านั้น และไม่แนะนำให้ใช้งานเชิงพาณิชย์

1 ความคิดเห็น

 
GN⁺ 2025-09-04
ความคิดเห็นจาก Hacker News
  • พอเห็นหลายคอมเมนต์ชมว่าโมเดลเสียงนี้สมจริงมาก ก็เลยเข้าไปที่หน้าเว็บด้วยความคาดหวังเต็มที่ แต่พอได้ฟังจริงกลับได้ความรู้สึกที่ต่างออกไปโดยสิ้นเชิง คุณภาพเสียงเองถือว่าโอเค แต่ในประโยคส่วนใหญ่ น้ำเสียงขึ้นลงฟังแปลก ๆ และให้ความรู้สึกเป็นเครื่องอย่างชัดเจน ถ้าเทียบกับ TTS เมื่อหลายปีก่อนก็ถือว่าน่าประทับใจมาก แต่ถ้าเทียบกับเสียง AI ยุคนี้แล้วไม่ได้ทำให้รู้สึกว้าวเท่าไร โดยเฉพาะเสียง AI ที่ได้ยินบ่อยใน YouTube Shorts ก็รู้สึกว่าดีพอ ๆ กับตัวอย่างส่วนใหญ่ในเว็บนี้ สิ่งเดียวที่น่าประทับใจจริง ๆ คือ ตัวอย่างภาษาอังกฤษกับภาษาจีน (น่าจะเป็นแมนดาริน) ที่สลับสองภาษาได้อย่างเป็นธรรมชาติมาก แต่ฉันไม่คุ้นกับภาษาจีนเลยประเมินการออกเสียงได้ไม่ดีนัก และอาจเป็นเพราะแยกได้ชัดเจนว่าอันไหนเป็นอักษรจีนอันไหนเป็นตัวอักษรละติน เลยทำให้สลับได้ง่ายกว่า ถ้าเป็นสองภาษาที่ใช้ระบบตัวเขียนเดียวกัน อาจไม่ลื่นไหลแบบนี้ก็ได้ สุดท้าย ตัวอย่างเพลงฟังค่อนข้างทรมานมาก และก็สงสัยมากว่าทำไมถึงต้องใส่ตัวอย่างแบบนี้มาด้วย
    • คำพูดของทีมพัฒนาเรื่องการร้องเพลงและดนตรีประกอบให้ความรู้สึกแปลก ๆ เหมือนกัน รู้สึกแรง ๆ ว่าพวกเขาหาวิธีลบเพลงพื้นหลังไม่ทันเส้นตายส่งเปเปอร์ เลยอ้างว่าเป็น “ฟีเจอร์” มากกว่า ไม่ได้ดูเหมือนเป็นสิ่งที่ใส่มาเพราะคิดว่าเป็นจุดขายจริง ๆ
    • ถ้ามีโมเดล TTS ที่ดีกว่านี้ก็อยากให้ช่วยแนะนำหน่อย คิดว่ามักจะมีทั้งคนที่พูดเกินจริงเรื่องความก้าวหน้า และคนที่คอยกดคุณค่ามันลง แต่ไม่คิดว่าฝ่ายไหนจะขัดขวางพัฒนาการอะไร จากที่เคยฟังมาจนถึงตอนนี้ ตัวนี้ดีที่สุดแล้ว แต่ก็อาจจะยังมีตัวที่ดีกว่าซึ่งฉันไม่รู้จัก
    • โมเดลนี้ค่อนข้างดี แต่ในบรรดาโมเดลฟรียังไม่ใช่ตัวที่ดีที่สุด Chatterbox สมจริงกว่า ให้ความรู้สึกเป็นเครื่องน้อยกว่ามาก และจังหวะน้ำเสียงก็เป็นธรรมชาติกว่า (แม้จะยังไม่สมบูรณ์)
    • รู้สึกว่าเสียงผู้หญิงเป็นธรรมชาติและน่าเชื่อถือกว่าเสียงผู้ชายมาก ส่วนเสียงผู้ชายนั้นไม่ได้ดีกว่า TTS เมื่อ 10 ปีก่อนสักเท่าไร
    • จุดแข็งที่แท้จริงของโมเดลนี้คือ voice cloning แค่เอาตัวอย่างเสียงของตัวเองใส่ในโฟลเดอร์ voices มันก็ทำงานได้ดีมาก
  • อยากให้ภายใน Microsoft ตั้งชื่อเอเจนต์เขียนโค้ดแบบ Open Source ว่า Microsoft VibeCode ไปเลย หรือไม่ก็ชื่อ “Lo” แล้วเอาไปใช้คู่กับ Phi ก็ได้ จะได้ vibe code กับ “Lo Phi” ได้ด้วย ข้อมูลภาษาโมเดล Phi 4 ของ Microsoft
    • ดูจากประวัติการตลาดของ Microsoft แล้ว สุดท้ายคงได้ชื่อแนวตรงตัวอย่าง "Microsoft Copilot Code Generator for VSCode" หรือไม่ก็ชื่อหลุดโลกแบบ "Zunega"
    • ไอเดียอัจฉริยะมาก
  • VibeVoice-Large เป็น TTS แบบรันในเครื่องตัวแรกที่รองรับการออกเสียงภาษาฟินแลนด์ได้เป็นธรรมชาติมากโดยแทบไม่มีสำเนียงเลย เมื่อวานได้ลองเล่นเองแล้ว โดยเฉพาะเรื่อง voice cloning และการโคลนอารมณ์ด้วยนี่น่าทึ่งมาก
  • ในเชิงเทคนิคถือว่าคุณภาพสูงทีเดียว แต่โดยเฉพาะฝั่งเสียงผู้ชาย แค่ฟังก็รู้สึกได้ทันทีว่าเป็นเสียงที่ AI สร้างขึ้น ฉันไม่มีความรู้ด้านเสียงมากพอจะอธิบายเหตุผลนั้นได้ดีนัก
    • ฉันก็ไม่ใช่วิศวกรเสียงเหมือนกัน แต่เสียง AI นี้ให้ความรู้สึกเหมือนเสียงคลื่นแบบ “saw-tooth” พวกโมเดลพื้นฐานหรือเทคนิคระดับล่างมักสุ่มตัวอย่างไม่พอ เลยมีลักษณะเหมือนพัลส์เสียงหรือแรงสั่นเยอะ ทำให้เกิดความรู้สึกเป็นเสียงเครื่องที่สั่นกระเพื่อม พอเป็นโมเดลที่ดีกว่า รูปคลื่นก็จะเปลี่ยนอย่างนุ่มนวลขึ้น ข้อมูลอ้างอิงเรื่องรูปคลื่น
    • สำหรับฉัน มันเหมือนโทนเสียงถูกตัดเป็นบล็อก ๆ และถ้าทำให้มองเห็นเป็นภาพ ก็คงเป็นรูปคลื่นที่ไม่มีความแหลมคม แต่มีเสียงก้องเหมือนกล่องโลหะ
    • พอได้ฟังเองก็เข้าใจว่าหมายถึงอะไร มีบางช่วงที่เสียงสั่น ๆ หรือเหมือนบีบอัด mp3 หนักเกินไป
  • เสียงผู้ชายให้ความรู้สึกประดิษฐ์กว่าผู้หญิงมาก จนแทบฟังเหมือนหุ่นยนต์ พอดูจากที่ตัวอย่างทางการส่วนใหญ่เริ่มด้วยเสียงผู้หญิง ก็ดูเหมือนว่าทีมพัฒนาเองก็รู้ปัญหานี้อยู่
    • ฉันก็รู้สึกคล้ายกัน เสียงผู้ชายฟังเป็นสิ่งประดิษฐ์กว่าชัดเจน
  • สงสัยว่ามีอันดับหรือลิสต์ความนิยมล่าสุดของโมเดล TTS แบบ open-weight หรือเปล่า จริง ๆ แล้วฉันสนใจฝั่ง STT (ASR) มากกว่า แต่ตัวเลือกมันน้อยเกินไป
    • ดูได้จาก ลิสต์โมเดล TTS ของ huggingface โมเดลที่ขึ้นเทรนด์ก็หมายความว่ามีคุณค่าให้ลองใช้งานในระดับหนึ่ง เกณฑ์ประเมินค่อนข้างเป็นอัตวิสัยมาก ดังนั้นสิ่งสำคัญที่สุดคือการลองฟังเอง ถ้าเป็นโมเดลที่ไม่ขึ้นเทรนด์บน HF ก็มีโอกาสสูงว่าจะไม่ได้ดีนัก
    • TTS ที่เรียกได้ว่าอยู่ระดับท็อป: VibeVoice, Chatterbox, Dia, Higgs, F5 TTS, Kokoro, Cosy Voice และ XTTS-2
    • กด leaderboard จากเมนูแฮมเบอร์เกอร์ แล้วจะมีหน้าจัดอันดับขึ้นมา TTS-AGI/TTS-Arena-V2
    • สุดยอดมาก
  • ถ้าใช้ GPU ประสิทธิภาพไม่สูง ก็ใช้งานโมเดลนี้ได้ยาก GPU 1080 รุ่นเก่าไม่สามารถรันได้อย่างเหมาะสม และพอรันบน CPU ด้วย torch.float32 การสร้างเสียงยาว 66 วินาทีใช้เวลาถึง 832 วินาที พอลองเปลี่ยนเป็น torch.bfloat16 ก็เกิดอาการ noise แปลก ๆ ในเสียง โมเดล TTS ที่ใช้งานได้ดีที่สุดสำหรับกรณี GPU ไม่พอจนถึงตอนนี้คือ Kokoro นอกจากนี้ อย่างที่มีคนพูดไว้ในเธรดนี้ ตอนนี้ยังไม่มีฟังก์ชันเพิ่ม annotation ลงในข้อความเพื่อควบคุมผลลัพธ์ของ TTS อย่างละเอียด ฉันคิดว่าทิศทางที่โมเดลจะพัฒนาต่อไปได้คือเพิ่มขั้นตอนประมวลผลกลางเพื่อสร้าง annotation แล้วป้อนสิ่งนั้นเข้า TTS แบบนี้ผู้ใช้จะควบคุมผลลัพธ์ได้ละเอียดมากขึ้น
    • ฉันว่ามันพูดเกินไปมาก macOS รองรับ TTS ที่แทบจะทันทีและคุณภาพค่อนข้างดีมานานแล้ว โดยไม่ต้องใช้โมเดลหนัก ๆ แบบนี้เลย ไม่มี latency เลยด้วยซ้ำ รู้สึกว่ากระแส “AI” นี้มันเกินจริงมาก
  • บอกว่าเป็นโอเพนซอร์ส แล้วทำไมไม่เปิดข้อมูลฝึกสอนด้วยก็สงสัยอยู่
    • ข้อมูลที่ได้จากการ crawl ส่วนใหญ่มีความเสี่ยงทางกฎหมายหลายด้าน ทั้งลิขสิทธิ์ เงื่อนไขการใช้งาน ความเป็นส่วนตัว ฯลฯ ดังนั้นสำหรับบริษัทเชิงพาณิชย์ การเปิดทั้งหมดแบบ “โอเพน” จึงไม่ใช่เรื่องฉลาดนัก
  • บทสนทนาตัวอย่าง Spontaneous Emotion ให้ความรู้สึกเหมือนทีมพยายามให้ LLM คลายอารมณ์ออกมาเป็นเสียง ถ้าตัดตัวอย่างเพลงทิ้งไปน่าจะดีกว่า โมเดลนี้ยังไม่เหมาะกับการร้องเพลงเลยแม้แต่น้อย
    • เพราะเพลงนี้เลยทำให้ กลับไปค้นมาฟังอีกครั้ง มันเป็นเพลงที่กระตุ้นอารมณ์ได้ยอดเยี่ยมจริง ๆ ส่วนหุ่นยนต์ร้องเพลงนั้นยังอีกไกล
  • ตอนนี้โมเดล TTS ที่ถือว่าอยู่แถวหน้ามีอยู่สองตัวคือ HiggsAudio กับ VibeVoice สำหรับฉัน Higgs เหนือกว่า Vibe มากทั้งเรื่องความเร็วและคุณภาพเสียง ส่วนความสามารถด้านการแสดงอารมณ์ยังไม่แน่ใจนัก แต่แนะนำว่าไม่ควรพลาด ลองใช้ดูให้ได้