- สามารถสร้างเสียงอย่างเช่น "สุนัขเห่าในสวนสาธารณะ", "เสียงผิวปากท่ามกลางสายลมพัด", "ผู้ชายกำลังกล่าวสุนทรพจน์ต่อหน้าฝูงชนจำนวนมากที่กำลังโห่ร้อง" ได้
- การสร้างเสียงมีความท้าทายหลายประการ
- ยากที่จะแยกวัตถุที่เป็นต้นกำเนิดของเสียงออกจากกัน และยิ่งซับซ้อนขึ้นจากเงื่อนไขการบันทึกเสียงที่หลากหลายในสภาพแวดล้อมจริง อีกทั้งยังขาดแคลน annotation สำหรับสถานการณ์เหล่านี้ ทำให้การสะสมข้อมูลเพื่อฝึกโมเดลเป็นเรื่องยาก
- เพื่อบรรเทาปัญหาเหล่านี้ จึงมีการเสนอเทคนิคการเพิ่มข้อมูล (augmentation technique) ที่ผสมตัวอย่างเสียงหลากหลายแบบเข้าด้วยกัน และทำให้โมเดลเรียนรู้ภายในเพื่อแยกแหล่งกำเนิดเสียงหลายแหล่ง
ยังไม่มีความคิดเห็น