- โมเดลทำความเข้าใจเสียงพูดหลายภาษาที่พัฒนาบนพื้นฐานของ SenseVoice พร้อมความสามารถอย่างการรู้จำเสียงอัตโนมัติ (ASR), การระบุภาษาพูด (LID), การรู้จำอารมณ์จากเสียงพูด (SER) และการตรวจจับเหตุการณ์เสียง (AED)
- ปรับแต่งมาเพื่อการอนุมานที่เร็วเป็นพิเศษและ timestamp ที่แม่นยำ จึงช่วยประมวลผลการถอดเสียงจากออดิโอได้อย่างชาญฉลาดและรวดเร็วยิ่งขึ้น
- ตัวเลือกหลัก
--language: ตรวจจับ/ระบุภาษาอัตโนมัติ (auto, zh, en, yue, ja, ko)
--textnorm: เลือกว่าจะใช้ inverse text normalization หรือไม่ (กรณี inverse normalized ใช้ withitn, กรณีข้อความดิบใช้ woitn)
--device-id: รันบน GPU ที่ระบุ (ค่าเริ่มต้น: -1 สำหรับ CPU)
--quantize: ใช้โมเดลที่ถูก quantize เพื่อการประมวลผลที่รวดเร็ว
1 ความคิดเห็น
มีภาษาเกาหลีเป็นตัวเลือกด้วย เลยอยากลองทดสอบดูนะ ฮ่าๆ