wav2vec-U: ระบบรู้จำเสียงประสิทธิภาพสูงที่ไม่ต้องใช้การกำกับดูแล

xguru · 2021-05-24T09:20:05+09:00

เฟรมเวิร์กการรู้จำเสียงที่สร้างโดยทีม Facebook AI รองรับการรู้จำหลายภาษาโดยไม่ต้องมีข้อมูลเสียงที่ถอดความแล้ว → ให้ประสิทธิภาพใกล้เคียงกับโมเดลการเรียนรู้แบบมีผู้สอนที่ฝึกด้วยเสียงราว 1,000 ชั่วโมง → ทดสอบกับภาษาที่มีข้อมูลเสียงถอดความไม่มากนัก เช่น ภาษาสวาฮีลี/ภาษาตาตาร์ ใช้วิธีเรียนรู้โครงสร้างของเสียงที่ไม่ได้ติดป้ายกำกับ → แบ่งไฟล์บันทึกเสียงออกเป็นหน่วยเสียงที่สอดคล้องอย่างหลวมๆ กับแต่ละเสียงพูด → cat มีเสียงอยู่ 3 เสียงคือ "/K/", "/AE/" และ "/T/" → ฝึกด้วย GAN ที่ประกอบด้วย generator และ discriminator เปิดเผยโค้ดและงานวิจัย

(ai.facebook.com)

4 คะแนน โดย xguru 2021-05-24 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

เฟรมเวิร์กการรู้จำเสียงที่สร้างโดยทีม Facebook AI
รองรับการรู้จำหลายภาษาโดยไม่ต้องมีข้อมูลเสียงที่ถอดความแล้ว

→ ให้ประสิทธิภาพใกล้เคียงกับโมเดลการเรียนรู้แบบมีผู้สอนที่ฝึกด้วยเสียงราว 1,000 ชั่วโมง

→ ทดสอบกับภาษาที่มีข้อมูลเสียงถอดความไม่มากนัก เช่น ภาษาสวาฮีลี/ภาษาตาตาร์

ใช้วิธีเรียนรู้โครงสร้างของเสียงที่ไม่ได้ติดป้ายกำกับ

→ แบ่งไฟล์บันทึกเสียงออกเป็นหน่วยเสียงที่สอดคล้องอย่างหลวมๆ กับแต่ละเสียงพูด

→ cat มีเสียงอยู่ 3 เสียงคือ "/K/", "/AE/" และ "/T/"

→ ฝึกด้วย GAN ที่ประกอบด้วย generator และ discriminator

เปิดเผยโค้ดและงานวิจัย

wav2vec-U: ระบบรู้จำเสียงประสิทธิภาพสูงที่ไม่ต้องใช้การกำกับดูแล

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น