WhisperX - ASR บนพื้นฐาน Whisper ที่ปรับปรุงความแม่นยำของไทม์สแตมป์

xguru · 2022-12-31T10:49:01+09:00

OpenAI Whisper สร้างทรานสคริปชันที่แม่นยำมาก แต่ไทม์สแตมป์เป็นระดับช่วงคำพูด (Utterance) ไม่ใช่ระดับคำ จึงคลาดเคลื่อนได้ราวไม่กี่วินาที ปรับปรุงไทม์สแตมป์ของโมเดล Whisper โดยใช้ ASR แบบอิงหน่วยเสียง (Phoneme-based) เช่น Wav2vec2.0 และการจัดแนวแบบบังคับ (Forced Alignment) ภาษาพื้นฐานที่รองรับคือ {en, fr, de, es, it, ja, zh, nl} ส่วนภาษาเพิ่มเติมต้องค้นหาจาก Huggingface Model Hub และทดสอบเพิ่มเติม

(github.com/m-bain)

5 คะแนน โดย xguru 2022-12-31 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

OpenAI Whisper สร้างทรานสคริปชันที่แม่นยำมาก แต่ไทม์สแตมป์เป็นระดับช่วงคำพูด (Utterance) ไม่ใช่ระดับคำ จึงคลาดเคลื่อนได้ราวไม่กี่วินาที
ปรับปรุงไทม์สแตมป์ของโมเดล Whisper โดยใช้ ASR แบบอิงหน่วยเสียง (Phoneme-based) เช่น Wav2vec2.0 และการจัดแนวแบบบังคับ (Forced Alignment)
ภาษาพื้นฐานที่รองรับคือ {en, fr, de, es, it, ja, zh, nl} ส่วนภาษาเพิ่มเติมต้องค้นหาจาก Huggingface Model Hub และทดสอบเพิ่มเติม

WhisperX - ASR บนพื้นฐาน Whisper ที่ปรับปรุงความแม่นยำของไทม์สแตมป์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น