• OpenAI Whisper สร้างทรานสคริปชันที่แม่นยำมาก แต่ไทม์สแตมป์เป็นระดับช่วงคำพูด (Utterance) ไม่ใช่ระดับคำ จึงคลาดเคลื่อนได้ราวไม่กี่วินาที
  • ปรับปรุงไทม์สแตมป์ของโมเดล Whisper โดยใช้ ASR แบบอิงหน่วยเสียง (Phoneme-based) เช่น Wav2vec2.0 และการจัดแนวแบบบังคับ (Forced Alignment)
  • ภาษาพื้นฐานที่รองรับคือ {en, fr, de, es, it, ja, zh, nl} ส่วนภาษาเพิ่มเติมต้องค้นหาจาก Huggingface Model Hub และทดสอบเพิ่มเติม

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น