• สามารถสร้างเสียงอย่างเช่น "สุนัขเห่าในสวนสาธารณะ", "เสียงผิวปากท่ามกลางสายลมพัด", "ผู้ชายกำลังกล่าวสุนทรพจน์ต่อหน้าฝูงชนจำนวนมากที่กำลังโห่ร้อง" ได้
  • การสร้างเสียงมีความท้าทายหลายประการ
    • ยากที่จะแยกวัตถุที่เป็นต้นกำเนิดของเสียงออกจากกัน และยิ่งซับซ้อนขึ้นจากเงื่อนไขการบันทึกเสียงที่หลากหลายในสภาพแวดล้อมจริง อีกทั้งยังขาดแคลน annotation สำหรับสถานการณ์เหล่านี้ ทำให้การสะสมข้อมูลเพื่อฝึกโมเดลเป็นเรื่องยาก
  • เพื่อบรรเทาปัญหาเหล่านี้ จึงมีการเสนอเทคนิคการเพิ่มข้อมูล (augmentation technique) ที่ผสมตัวอย่างเสียงหลากหลายแบบเข้าด้วยกัน และทำให้โมเดลเรียนรู้ภายในเพื่อแยกแหล่งกำเนิดเสียงหลายแหล่ง

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น