- โมเดลการแพร่กระจายในปริภูมิแฝง (Latent Diffusion Model)
- เป็นโมเดลการแพร่กระจายที่ทำงานในปริภูมิการเข้ารหัสแฝงของออโตเอนโค้ดเดอร์ที่ผ่านการพรีเทรนแล้ว
- ช่วยเพิ่มความเร็วในการฝึกและการอนุมานของโมเดลการแพร่กระจายได้อย่างมาก
- หนึ่งในปัญหาหลักที่เกิดขึ้นเมื่อใช้โมเดลการแพร่กระจายเพื่อสร้างเสียง คือโดยทั่วไปโมเดลการแพร่กระจายจะถูกฝึกให้สร้างเอาต์พุตที่มีขนาดคงที่
- หากฝึกด้วยคลิปเสียงยาว 30 วินาที ก็จะสร้างเสียงได้เพียงครั้งละ 30 วินาทีเท่านั้น
- เรื่องนี้กลายเป็นปัญหาเมื่อต้องการฝึกและสร้างเสียงที่มีความยาวหลากหลายมาก เช่น การสร้างเพลงทั้งเพลง
- โมเดลการแพร่กระจายสำหรับเสียงมักฝึกด้วยการตัดหรือเติมชิ้นส่วนเสียงที่สุ่มตัดมาจากไฟล์เสียงยาว ๆ ให้พอดีกับความยาวสำหรับการฝึกของโมเดลการแพร่กระจาย
- สำหรับดนตรี สิ่งนี้ทำให้โมเดลมีแนวโน้มจะสร้างท่อนเพลงแบบสุ่มที่เริ่มต้นหรือจบลงกลางวลีดนตรี
- Stable Audio คือโมเดลการแพร่กระจายในปริภูมิแฝงสำหรับเสียง ที่กำหนดเงื่อนไขได้ทั้งตามความยาวไฟล์เสียง เวลาเริ่มต้น และเมทาดาทาแบบข้อความ
- ความสามารถในการควบคุมจังหวะเวลานี้ทำให้สามารถสร้างเสียงตามความยาวที่กำหนดได้ จนถึงขนาดหน้าต่างการฝึก
- โมเดล Stable Audio ที่ใช้เทคนิค diffusion sampling สมัยใหม่ สามารถสร้างเสียงสเตอริโอความยาว 95 วินาทีที่อัตราสุ่มตัวอย่าง 44.1kHz บน NVIDIA A100 GPU ได้ภายในไม่ถึง 1 วินาที
- พัฒนาโดย Harmonai ซึ่งเป็นห้องวิจัย Generative Audio ของ Stability AI
- อิงจากโมเดล U-Net ขนาด 907M (907 ล้านพารามิเตอร์) ที่ใช้ใน Moûsai
- โมเดล Stable Audio ถูกฝึกด้วยชุดข้อมูลที่ประกอบด้วยไฟล์เสียงมากกว่า 800,000 ไฟล์ ซึ่งมีทั้งดนตรี ซาวด์เอฟเฟกต์ และสเต็มของเครื่องดนตรีเดี่ยว จากผู้ให้บริการเพลงรายใหญ่ชื่อ AudioSparx
- งานในอนาคตมีแผนจะปรับปรุงสถาปัตยกรรมโมเดล ชุดข้อมูล และขั้นตอนการฝึก เพื่อยกระดับคุณภาพเอาต์พุต ความสามารถในการควบคุม ความเร็วในการอนุมาน และความยาวเอาต์พุต
- Harmonai มีแผนจะเผยแพร่โมเดลโอเพนซอร์สที่อิงจาก Stable Audio และโค้ดสำหรับฝึกโมเดลสร้างเสียง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News