• เฟรมเวิร์กการรู้จำเสียงที่สร้างโดยทีม Facebook AI

  • รองรับการรู้จำหลายภาษาโดยไม่ต้องมีข้อมูลเสียงที่ถอดความแล้ว

→ ให้ประสิทธิภาพใกล้เคียงกับโมเดลการเรียนรู้แบบมีผู้สอนที่ฝึกด้วยเสียงราว 1,000 ชั่วโมง

→ ทดสอบกับภาษาที่มีข้อมูลเสียงถอดความไม่มากนัก เช่น ภาษาสวาฮีลี/ภาษาตาตาร์

  • ใช้วิธีเรียนรู้โครงสร้างของเสียงที่ไม่ได้ติดป้ายกำกับ

→ แบ่งไฟล์บันทึกเสียงออกเป็นหน่วยเสียงที่สอดคล้องอย่างหลวมๆ กับแต่ละเสียงพูด

cat มีเสียงอยู่ 3 เสียงคือ "/K/", "/AE/" และ "/T/"

→ ฝึกด้วย GAN ที่ประกอบด้วย generator และ discriminator

  • เปิดเผยโค้ดและงานวิจัย

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น