WhisperX - ASR บนพื้นฐาน Whisper ที่ปรับปรุงความแม่นยำของไทม์สแตมป์
(github.com/m-bain)- OpenAI Whisper สร้างทรานสคริปชันที่แม่นยำมาก แต่ไทม์สแตมป์เป็นระดับช่วงคำพูด (Utterance) ไม่ใช่ระดับคำ จึงคลาดเคลื่อนได้ราวไม่กี่วินาที
- ปรับปรุงไทม์สแตมป์ของโมเดล Whisper โดยใช้ ASR แบบอิงหน่วยเสียง (Phoneme-based) เช่น Wav2vec2.0 และการจัดแนวแบบบังคับ (Forced Alignment)
- ภาษาพื้นฐานที่รองรับคือ {en, fr, de, es, it, ja, zh, nl} ส่วนภาษาเพิ่มเติมต้องค้นหาจาก Huggingface Model Hub และทดสอบเพิ่มเติม
ยังไม่มีความคิดเห็น