wav2vec-U: ระบบรู้จำเสียงประสิทธิภาพสูงที่ไม่ต้องใช้การกำกับดูแล
(ai.facebook.com)-
เฟรมเวิร์กการรู้จำเสียงที่สร้างโดยทีม Facebook AI
-
รองรับการรู้จำหลายภาษาโดยไม่ต้องมีข้อมูลเสียงที่ถอดความแล้ว
→ ให้ประสิทธิภาพใกล้เคียงกับโมเดลการเรียนรู้แบบมีผู้สอนที่ฝึกด้วยเสียงราว 1,000 ชั่วโมง
→ ทดสอบกับภาษาที่มีข้อมูลเสียงถอดความไม่มากนัก เช่น ภาษาสวาฮีลี/ภาษาตาตาร์
- ใช้วิธีเรียนรู้โครงสร้างของเสียงที่ไม่ได้ติดป้ายกำกับ
→ แบ่งไฟล์บันทึกเสียงออกเป็นหน่วยเสียงที่สอดคล้องอย่างหลวมๆ กับแต่ละเสียงพูด
→ cat มีเสียงอยู่ 3 เสียงคือ "/K/", "/AE/" และ "/T/"
→ ฝึกด้วย GAN ที่ประกอบด้วย generator และ discriminator
- เปิดเผยโค้ดและงานวิจัย
ยังไม่มีความคิดเห็น