VoxCPM2 - โอเพนซอร์สสังเคราะห์เสียงหลายภาษาที่โคลนเสียงได้ใกล้เคียงเสียงจริง

(github.com/OpenBMB)

43 คะแนน โดย xguru 15 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

รองรับ 30 ภาษา รวมภาษาเกาหลี โดยใส่แค่ข้อความก็สังเคราะห์ได้ทันทีโดยไม่ต้องระบุ language tag
ไม่ต้องมีตัวอย่างเสียงพากย์ แค่ใส่ คำอธิบายด้วยภาษาธรรมชาติ เช่น (Young female voice, warm and gentle) ไว้หน้าข้อความ ก็สร้างคาแรกเตอร์เสียงที่ต้องการได้ทันที (เพศ·อายุ·โทน·อารมณ์·ความเร็ว)
ระบบ TTS แบบ diffusion autoregressive ที่ สร้างตัวแทนเสียงแบบต่อเนื่องโดยตรง โดยไม่ต้องผ่าน discrete tokenization โมเดลขนาด 2B พารามิเตอร์ ฝึกด้วยข้อมูลหลายภาษามากกว่า 2 ล้านชั่วโมง
รองรับ Controllable Voice Cloning ที่โคลนโทนเสียงจากคลิปอ้างอิงสั้น ๆ พร้อมปรับอารมณ์·ความเร็ว·สไตล์แยกกันได้ (slightly faster, cheerful tone)
โหมด Ultimate Cloning ที่เมื่อใส่ทั้งเสียงอ้างอิง + สคริปต์ จะ ถอดแบบทั้งโทนเสียง·จังหวะ·อารมณ์·สไตล์ ได้ครบ โดยไม่ต้องมี post-processing เพิ่มเติม
แม้จะใส่อินพุตอ้างอิง 16kHz ก็ยัง สร้างเอาต์พุตระดับสตูดิโอ 48kHz ได้โดยตรงด้วย AudioVAE V2 asymmetric encode/decode ไม่จำเป็นต้องมี external upsampler หรือสร้าง post-processing pipeline เพิ่ม
บน RTX 4090 มีค่า RTF (Real-Time Factor) ราว 0.3 และ เมื่อเร่งด้วย Nano-vLLM จะอยู่ราว 0.13 จึงใช้งานกับการสตรีมแบบเรียลไทม์ได้
ใช้ VRAM เพียง ประมาณ 8GB ก็รันได้ จึงใช้งานบน GPU ระดับ RTX 3070~4060 ได้
ใน Seed-TTS-eval ติด กลุ่มบนสุดด้าน speaker similarity (SIM) ในบรรดาโมเดลโอเพนซอร์ส และมีอัตราความผิดพลาดเฉลี่ยใน ASR benchmark ภายใน 30 ภาษาเพียง 1.68%
มีเสียงเพียง 5~10 นาที ก็ทำ LoRA fine-tuning เพื่อปรับให้เข้ากับผู้พูดหรือโดเมนเฉพาะได้ และรองรับ การฝึกและอนุมานผ่าน WebUI ด้วย lora_ft_webui.py
ใช้ backbone จาก MiniCPM-4 และประกอบด้วยพายป์ไลน์ 4 ขั้น LocEnc → TSLM → RALM → LocDiT
มีตัวเลือกมากมายสำหรับ การอนุมานในสภาพแวดล้อมที่ไม่มี GPU เช่น GGML/GGUF CPU inference (VoxCPM.cpp), การแปลงเป็น ONNX, แบ็กเอนด์ Apple Neural Engine, การเขียนใหม่ด้วย Rust, โหนด ComfyUI เป็นต้น
ไลเซนส์ Apache-2.0 ไม่มีข้อจำกัดด้านการใช้งานเชิงพาณิชย์, มี implementation ภาษา Python

2 ความคิดเห็น

cr543l 14 일 전

แม้แต่บน 3060 ก็ยังลองใช้งานได้ และคุณภาพก็ดีเยี่ยมครับ

crawler 14 일 전

พอเห็นชื่อ OpenBMB ก็รู้สึกคุ้น ๆ ว่าเคยได้ยินจากที่ไหน ที่แท้ก็เป็นที่เดียวกับที่ทำโมเดล MiniCPM-o นี่เอง
โมเดล MiniCPM-o เป็นโมเดลแบบออมนิคล้าย ๆ GPT 4o และประสิทธิภาพก็ค่อนข้างดีมาก

ลองดู วิดีโอเดโมของ MiniCPM-o กันได้ครับ

เป็นโมเดลที่ผมประทับใจมากพอสมควร เลยทำให้คาดหวังกับโมเดลโคลนเสียงตัวใหม่นี้ด้วยครับ

VoxCPM2 - โอเพนซอร์สสังเคราะห์เสียงหลายภาษาที่โคลนเสียงได้ใกล้เคียงเสียงจริง

บทความที่เกี่ยวข้อง

2 ความคิดเห็น