VoxCPM2 - โอเพนซอร์สสังเคราะห์เสียงหลายภาษาที่โคลนเสียงได้ใกล้เคียงเสียงจริง
(github.com/OpenBMB)- รองรับ 30 ภาษา รวมภาษาเกาหลี โดยใส่แค่ข้อความก็สังเคราะห์ได้ทันทีโดยไม่ต้องระบุ language tag
- ไม่ต้องมีตัวอย่างเสียงพากย์ แค่ใส่ คำอธิบายด้วยภาษาธรรมชาติ เช่น
(Young female voice, warm and gentle)ไว้หน้าข้อความ ก็สร้างคาแรกเตอร์เสียงที่ต้องการได้ทันที (เพศ·อายุ·โทน·อารมณ์·ความเร็ว) - ระบบ TTS แบบ diffusion autoregressive ที่ สร้างตัวแทนเสียงแบบต่อเนื่องโดยตรง โดยไม่ต้องผ่าน discrete tokenization โมเดลขนาด 2B พารามิเตอร์ ฝึกด้วยข้อมูลหลายภาษามากกว่า 2 ล้านชั่วโมง
- รองรับ Controllable Voice Cloning ที่โคลนโทนเสียงจากคลิปอ้างอิงสั้น ๆ พร้อมปรับอารมณ์·ความเร็ว·สไตล์แยกกันได้
(slightly faster, cheerful tone) - โหมด Ultimate Cloning ที่เมื่อใส่ทั้งเสียงอ้างอิง + สคริปต์ จะ ถอดแบบทั้งโทนเสียง·จังหวะ·อารมณ์·สไตล์ ได้ครบ โดยไม่ต้องมี post-processing เพิ่มเติม
- แม้จะใส่อินพุตอ้างอิง 16kHz ก็ยัง สร้างเอาต์พุตระดับสตูดิโอ 48kHz ได้โดยตรงด้วย AudioVAE V2 asymmetric encode/decode ไม่จำเป็นต้องมี external upsampler หรือสร้าง post-processing pipeline เพิ่ม
- บน RTX 4090 มีค่า RTF (Real-Time Factor) ราว 0.3 และ เมื่อเร่งด้วย Nano-vLLM จะอยู่ราว 0.13 จึงใช้งานกับการสตรีมแบบเรียลไทม์ได้
- ใช้ VRAM เพียง ประมาณ 8GB ก็รันได้ จึงใช้งานบน GPU ระดับ RTX 3070~4060 ได้
- ใน Seed-TTS-eval ติด กลุ่มบนสุดด้าน speaker similarity (SIM) ในบรรดาโมเดลโอเพนซอร์ส และมีอัตราความผิดพลาดเฉลี่ยใน ASR benchmark ภายใน 30 ภาษาเพียง 1.68%
- มีเสียงเพียง 5~10 นาที ก็ทำ LoRA fine-tuning เพื่อปรับให้เข้ากับผู้พูดหรือโดเมนเฉพาะได้ และรองรับ การฝึกและอนุมานผ่าน WebUI ด้วย
lora_ft_webui.py - ใช้ backbone จาก MiniCPM-4 และประกอบด้วยพายป์ไลน์ 4 ขั้น LocEnc → TSLM → RALM → LocDiT
- มีตัวเลือกมากมายสำหรับ การอนุมานในสภาพแวดล้อมที่ไม่มี GPU เช่น GGML/GGUF CPU inference (VoxCPM.cpp), การแปลงเป็น ONNX, แบ็กเอนด์ Apple Neural Engine, การเขียนใหม่ด้วย Rust, โหนด ComfyUI เป็นต้น
- ไลเซนส์ Apache-2.0 ไม่มีข้อจำกัดด้านการใช้งานเชิงพาณิชย์, มี implementation ภาษา Python
2 ความคิดเห็น
แม้แต่บน 3060 ก็ยังลองใช้งานได้ และคุณภาพก็ดีเยี่ยมครับ
พอเห็นชื่อ OpenBMB ก็รู้สึกคุ้น ๆ ว่าเคยได้ยินจากที่ไหน ที่แท้ก็เป็นที่เดียวกับที่ทำโมเดล MiniCPM-o นี่เอง
โมเดล MiniCPM-o เป็นโมเดลแบบออมนิคล้าย ๆ GPT 4o และประสิทธิภาพก็ค่อนข้างดีมาก
ลองดู วิดีโอเดโมของ MiniCPM-o กันได้ครับ
เป็นโมเดลที่ผมประทับใจมากพอสมควร เลยทำให้คาดหวังกับโมเดลโคลนเสียงตัวใหม่นี้ด้วยครับ