13 คะแนน โดย xguru 2024-11-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลทำความเข้าใจเสียงพูดหลายภาษาที่พัฒนาบนพื้นฐานของ SenseVoice พร้อมความสามารถอย่างการรู้จำเสียงอัตโนมัติ (ASR), การระบุภาษาพูด (LID), การรู้จำอารมณ์จากเสียงพูด (SER) และการตรวจจับเหตุการณ์เสียง (AED)
  • ปรับแต่งมาเพื่อการอนุมานที่เร็วเป็นพิเศษและ timestamp ที่แม่นยำ จึงช่วยประมวลผลการถอดเสียงจากออดิโอได้อย่างชาญฉลาดและรวดเร็วยิ่งขึ้น
  • ตัวเลือกหลัก
    • --language: ตรวจจับ/ระบุภาษาอัตโนมัติ (auto, zh, en, yue, ja, ko)
    • --textnorm: เลือกว่าจะใช้ inverse text normalization หรือไม่ (กรณี inverse normalized ใช้ withitn, กรณีข้อความดิบใช้ woitn)
    • --device-id: รันบน GPU ที่ระบุ (ค่าเริ่มต้น: -1 สำหรับ CPU)
    • --quantize: ใช้โมเดลที่ถูก quantize เพื่อการประมวลผลที่รวดเร็ว

1 ความคิดเห็น

 
yangeok 2024-11-12

มีภาษาเกาหลีเป็นตัวเลือกด้วย เลยอยากลองทดสอบดูนะ ฮ่าๆ