AudioGen : การสร้างเสียงด้วยข้อความอธิบายสถานการณ์

xguru · 2022-10-04T10:28:48+09:00

สามารถสร้างเสียงอย่างเช่น "สุนัขเห่าในสวนสาธารณะ", "เสียงผิวปากท่ามกลางสายลมพัด", "ผู้ชายกำลังกล่าวสุนทรพจน์ต่อหน้าฝูงชนจำนวนมากที่กำลังโห่ร้อง" ได้ การสร้างเสียงมีความท้าทายหลายประการ ยากที่จะแยกวัตถุที่เป็นต้นกำเนิดของเสียงออกจากกัน และยิ่งซับซ้อนขึ้นจากเงื่อนไขการบันทึกเสียงที่หลากหลายในสภาพแวดล้อมจริง อีกทั้งยังขาดแคลน annotation สำหรับสถานการณ์เหล่านี้ ทำให้การสะสมข้อมูลเพื่อฝึกโมเดลเป็นเรื่องยาก เพื่อบรรเทาปัญหาเหล่านี้ จึงมีการเสนอเทคนิคการเพิ่มข้อมูล (augmentation technique) ที่ผสมตัวอย่างเสียงหลากหลายแบบเข้าด้วยกัน และทำให้โมเดลเรียนรู้ภายในเพื่อแยกแหล่งกำเนิดเสียงหลายแหล่ง

(felixkreuk.github.io)

12 คะแนน โดย xguru 2022-10-04 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

สามารถสร้างเสียงอย่างเช่น "สุนัขเห่าในสวนสาธารณะ", "เสียงผิวปากท่ามกลางสายลมพัด", "ผู้ชายกำลังกล่าวสุนทรพจน์ต่อหน้าฝูงชนจำนวนมากที่กำลังโห่ร้อง" ได้
การสร้างเสียงมีความท้าทายหลายประการ
- ยากที่จะแยกวัตถุที่เป็นต้นกำเนิดของเสียงออกจากกัน และยิ่งซับซ้อนขึ้นจากเงื่อนไขการบันทึกเสียงที่หลากหลายในสภาพแวดล้อมจริง อีกทั้งยังขาดแคลน annotation สำหรับสถานการณ์เหล่านี้ ทำให้การสะสมข้อมูลเพื่อฝึกโมเดลเป็นเรื่องยาก
เพื่อบรรเทาปัญหาเหล่านี้ จึงมีการเสนอเทคนิคการเพิ่มข้อมูล (augmentation technique) ที่ผสมตัวอย่างเสียงหลากหลายแบบเข้าด้วยกัน และทำให้โมเดลเรียนรู้ภายในเพื่อแยกแหล่งกำเนิดเสียงหลายแหล่ง

AudioGen : การสร้างเสียงด้วยข้อความอธิบายสถานการณ์

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น