43 คะแนน โดย xguru 15 일 전 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • รองรับ 30 ภาษา รวมภาษาเกาหลี โดยใส่แค่ข้อความก็สังเคราะห์ได้ทันทีโดยไม่ต้องระบุ language tag
  • ไม่ต้องมีตัวอย่างเสียงพากย์ แค่ใส่ คำอธิบายด้วยภาษาธรรมชาติ เช่น (Young female voice, warm and gentle) ไว้หน้าข้อความ ก็สร้างคาแรกเตอร์เสียงที่ต้องการได้ทันที (เพศ·อายุ·โทน·อารมณ์·ความเร็ว)
  • ระบบ TTS แบบ diffusion autoregressive ที่ สร้างตัวแทนเสียงแบบต่อเนื่องโดยตรง โดยไม่ต้องผ่าน discrete tokenization โมเดลขนาด 2B พารามิเตอร์ ฝึกด้วยข้อมูลหลายภาษามากกว่า 2 ล้านชั่วโมง
  • รองรับ Controllable Voice Cloning ที่โคลนโทนเสียงจากคลิปอ้างอิงสั้น ๆ พร้อมปรับอารมณ์·ความเร็ว·สไตล์แยกกันได้ (slightly faster, cheerful tone)
  • โหมด Ultimate Cloning ที่เมื่อใส่ทั้งเสียงอ้างอิง + สคริปต์ จะ ถอดแบบทั้งโทนเสียง·จังหวะ·อารมณ์·สไตล์ ได้ครบ โดยไม่ต้องมี post-processing เพิ่มเติม
  • แม้จะใส่อินพุตอ้างอิง 16kHz ก็ยัง สร้างเอาต์พุตระดับสตูดิโอ 48kHz ได้โดยตรงด้วย AudioVAE V2 asymmetric encode/decode ไม่จำเป็นต้องมี external upsampler หรือสร้าง post-processing pipeline เพิ่ม
  • บน RTX 4090 มีค่า RTF (Real-Time Factor) ราว 0.3 และ เมื่อเร่งด้วย Nano-vLLM จะอยู่ราว 0.13 จึงใช้งานกับการสตรีมแบบเรียลไทม์ได้
  • ใช้ VRAM เพียง ประมาณ 8GB ก็รันได้ จึงใช้งานบน GPU ระดับ RTX 3070~4060 ได้
  • ใน Seed-TTS-eval ติด กลุ่มบนสุดด้าน speaker similarity (SIM) ในบรรดาโมเดลโอเพนซอร์ส และมีอัตราความผิดพลาดเฉลี่ยใน ASR benchmark ภายใน 30 ภาษาเพียง 1.68%
  • มีเสียงเพียง 5~10 นาที ก็ทำ LoRA fine-tuning เพื่อปรับให้เข้ากับผู้พูดหรือโดเมนเฉพาะได้ และรองรับ การฝึกและอนุมานผ่าน WebUI ด้วย lora_ft_webui.py
  • ใช้ backbone จาก MiniCPM-4 และประกอบด้วยพายป์ไลน์ 4 ขั้น LocEnc → TSLM → RALM → LocDiT
  • มีตัวเลือกมากมายสำหรับ การอนุมานในสภาพแวดล้อมที่ไม่มี GPU เช่น GGML/GGUF CPU inference (VoxCPM.cpp), การแปลงเป็น ONNX, แบ็กเอนด์ Apple Neural Engine, การเขียนใหม่ด้วย Rust, โหนด ComfyUI เป็นต้น
  • ไลเซนส์ Apache-2.0 ไม่มีข้อจำกัดด้านการใช้งานเชิงพาณิชย์, มี implementation ภาษา Python

2 ความคิดเห็น

 
cr543l 14 일 전

แม้แต่บน 3060 ก็ยังลองใช้งานได้ และคุณภาพก็ดีเยี่ยมครับ

 
crawler 14 일 전

พอเห็นชื่อ OpenBMB ก็รู้สึกคุ้น ๆ ว่าเคยได้ยินจากที่ไหน ที่แท้ก็เป็นที่เดียวกับที่ทำโมเดล MiniCPM-o นี่เอง
โมเดล MiniCPM-o เป็นโมเดลแบบออมนิคล้าย ๆ GPT 4o และประสิทธิภาพก็ค่อนข้างดีมาก

ลองดู วิดีโอเดโมของ MiniCPM-o กันได้ครับ

เป็นโมเดลที่ผมประทับใจมากพอสมควร เลยทำให้คาดหวังกับโมเดลโคลนเสียงตัวใหม่นี้ด้วยครับ