Omni SenseVoice - การรู้จำเสียงความเร็วสูงที่รองรับ timestamp รายคำ

xguru · 2024-11-10T09:31:01+09:00

โมเดลทำความเข้าใจเสียงพูดหลายภาษาที่พัฒนาบนพื้นฐานของ SenseVoice พร้อมความสามารถอย่างการรู้จำเสียงอัตโนมัติ (ASR), การระบุภาษาพูด (LID), การรู้จำอารมณ์จากเสียงพูด (SER) และการตรวจจับเหตุการณ์เสียง (AED) ปรับแต่งมาเพื่อการอนุมานที่เร็วเป็นพิเศษและ timestamp ที่แม่นยำ จึงช่วยประมวลผลการถอดเสียงจากออดิโอได้อย่างชาญฉลาดและรวดเร็วยิ่งขึ้น ตัวเลือกหลัก --language: ตรวจจับ/ระบุภาษาอัตโนมัติ (auto, zh, en, yue, ja, ko) --textnorm: เลือกว่าจะใช้ inverse text normalization หรือไม่ (กรณี inverse normalized ใช้ withitn, กรณีข้อความดิบใช้ woitn) --device-id: รันบน GPU ที่ระบุ (ค่าเริ่มต้น: -1 สำหรับ CPU) --quantize: ใช้โมเดลที่ถูก quantize เพื่อการประมวลผลที่รวดเร็ว

(github.com/lifeiteng)

13 คะแนน โดย xguru 2024-11-10 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลทำความเข้าใจเสียงพูดหลายภาษาที่พัฒนาบนพื้นฐานของ SenseVoice พร้อมความสามารถอย่างการรู้จำเสียงอัตโนมัติ (ASR), การระบุภาษาพูด (LID), การรู้จำอารมณ์จากเสียงพูด (SER) และการตรวจจับเหตุการณ์เสียง (AED)
ปรับแต่งมาเพื่อการอนุมานที่เร็วเป็นพิเศษและ timestamp ที่แม่นยำ จึงช่วยประมวลผลการถอดเสียงจากออดิโอได้อย่างชาญฉลาดและรวดเร็วยิ่งขึ้น
ตัวเลือกหลัก
- --language: ตรวจจับ/ระบุภาษาอัตโนมัติ (auto, zh, en, yue, ja, ko)
- --textnorm: เลือกว่าจะใช้ inverse text normalization หรือไม่ (กรณี inverse normalized ใช้ withitn, กรณีข้อความดิบใช้ woitn)
- --device-id: รันบน GPU ที่ระบุ (ค่าเริ่มต้น: -1 สำหรับ CPU)
- --quantize: ใช้โมเดลที่ถูก quantize เพื่อการประมวลผลที่รวดเร็ว

1 ความคิดเห็น

yangeok 2024-11-12

มีภาษาเกาหลีเป็นตัวเลือกด้วย เลยอยากลองทดสอบดูนะ ฮ่าๆ

Omni SenseVoice - การรู้จำเสียงความเร็วสูงที่รองรับ timestamp รายคำ

บทความที่เกี่ยวข้อง

1 ความคิดเห็น