Stable Audio - Latent Audio Diffusion แบบควบคุมจังหวะเวลาได้อย่างรวดเร็ว

(stability.ai)

5 คะแนน โดย GN⁺ 2023-09-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

โมเดลการแพร่กระจายในปริภูมิแฝง (Latent Diffusion Model)
- เป็นโมเดลการแพร่กระจายที่ทำงานในปริภูมิการเข้ารหัสแฝงของออโตเอนโค้ดเดอร์ที่ผ่านการพรีเทรนแล้ว
- ช่วยเพิ่มความเร็วในการฝึกและการอนุมานของโมเดลการแพร่กระจายได้อย่างมาก
หนึ่งในปัญหาหลักที่เกิดขึ้นเมื่อใช้โมเดลการแพร่กระจายเพื่อสร้างเสียง คือโดยทั่วไปโมเดลการแพร่กระจายจะถูกฝึกให้สร้างเอาต์พุตที่มีขนาดคงที่
- หากฝึกด้วยคลิปเสียงยาว 30 วินาที ก็จะสร้างเสียงได้เพียงครั้งละ 30 วินาทีเท่านั้น
- เรื่องนี้กลายเป็นปัญหาเมื่อต้องการฝึกและสร้างเสียงที่มีความยาวหลากหลายมาก เช่น การสร้างเพลงทั้งเพลง
โมเดลการแพร่กระจายสำหรับเสียงมักฝึกด้วยการตัดหรือเติมชิ้นส่วนเสียงที่สุ่มตัดมาจากไฟล์เสียงยาว ๆ ให้พอดีกับความยาวสำหรับการฝึกของโมเดลการแพร่กระจาย
สำหรับดนตรี สิ่งนี้ทำให้โมเดลมีแนวโน้มจะสร้างท่อนเพลงแบบสุ่มที่เริ่มต้นหรือจบลงกลางวลีดนตรี
Stable Audio คือโมเดลการแพร่กระจายในปริภูมิแฝงสำหรับเสียง ที่กำหนดเงื่อนไขได้ทั้งตามความยาวไฟล์เสียง เวลาเริ่มต้น และเมทาดาทาแบบข้อความ
- ความสามารถในการควบคุมจังหวะเวลานี้ทำให้สามารถสร้างเสียงตามความยาวที่กำหนดได้ จนถึงขนาดหน้าต่างการฝึก
โมเดล Stable Audio ที่ใช้เทคนิค diffusion sampling สมัยใหม่ สามารถสร้างเสียงสเตอริโอความยาว 95 วินาทีที่อัตราสุ่มตัวอย่าง 44.1kHz บน NVIDIA A100 GPU ได้ภายในไม่ถึง 1 วินาที
พัฒนาโดย Harmonai ซึ่งเป็นห้องวิจัย Generative Audio ของ Stability AI
อิงจากโมเดล U-Net ขนาด 907M (907 ล้านพารามิเตอร์) ที่ใช้ใน Moûsai
โมเดล Stable Audio ถูกฝึกด้วยชุดข้อมูลที่ประกอบด้วยไฟล์เสียงมากกว่า 800,000 ไฟล์ ซึ่งมีทั้งดนตรี ซาวด์เอฟเฟกต์ และสเต็มของเครื่องดนตรีเดี่ยว จากผู้ให้บริการเพลงรายใหญ่ชื่อ AudioSparx
งานในอนาคตมีแผนจะปรับปรุงสถาปัตยกรรมโมเดล ชุดข้อมูล และขั้นตอนการฝึก เพื่อยกระดับคุณภาพเอาต์พุต ความสามารถในการควบคุม ความเร็วในการอนุมาน และความยาวเอาต์พุต
Harmonai มีแผนจะเผยแพร่โมเดลโอเพนซอร์สที่อิงจาก Stable Audio และโค้ดสำหรับฝึกโมเดลสร้างเสียง

1 ความคิดเห็น

GN⁺ 2023-09-14

ความคิดเห็นจาก Hacker News

บทความนี้กล่าวถึง 'Stable Audio' ซึ่งเป็นเทคโนโลยี latent audio diffusion ที่มีการกำหนดเงื่อนไขด้านจังหวะเวลาอย่างรวดเร็ว
ผู้ใช้บางรายประเมินว่าเพลงเปียโนเดี่ยวที่สร้างขึ้นมานั้นฟังสะอาดและน่าสนใจ พร้อมเสนอว่าน่าจะสามารถแปลงเป็นโน้ตเพลงได้ง่ายเพื่อให้นำไปใช้งานได้ยืดหยุ่นยิ่งขึ้น
มีความต้องการให้ AI ในด้านเสียงและภาพสร้างผลลัพธ์ที่มีโครงสร้างหรือมีลักษณะเชิงสัญลักษณ์มากขึ้น เช่น เลเยอร์ของภาพหรือจังหวะพู่กัน รวมถึงแทร็กองค์ประกอบของดนตรี
โดยเฉพาะผู้ใช้บางรายที่มีพื้นฐานด้านดนตรีไม่ได้รู้สึกประทับใจกับผลงานเพลงที่สร้างขึ้น โดยมองว่ามันซ้ำซากและขาดจินตนาการ
เทคโนโลยีนี้อาจมีศักยภาพสำหรับการสร้างเพลงประกอบพื้นหลังในเกม หรือแอปพลิเคชันอื่นที่ไม่ได้ให้ความสำคัญกับดนตรีคุณภาพสูงเป็นลำดับแรก
ผู้ใช้รายหนึ่งเสนอว่าเทคโนโลยีนี้อาจถูกนำไปใช้บน Spotify เพื่อสร้างเพลงที่ตรงกับรสนิยมส่วนบุคคล
มีความสนใจว่ารุ่นโมเดลนี้รองรับหรือ "เข้าใจ" แนวคิดเรื่อง spatial audio หรือไม่ เช่น เสียงนาฬิกาปลุกที่เคลื่อนที่เป็นวงกลม
ผู้ใช้บางรายแสดงความต้องการเทคโนโลยีที่สามารถรับอินพุตอย่างเมโลดี้ ลำดับคอร์ด หรือข้อมูลการแสดงสดได้ ซึ่งชี้ให้เห็นถึงศักยภาพของเครื่องมือเสียงยุคใหม่
ผู้ใช้บางรายสังเกตเห็นเอฟเฟกต์ "uncanny valley" ในตัวอย่างเสียง ซึ่งหมายถึงเสียงที่ปะปนกันจนขาดน้ำเสียงทางดนตรีที่ชัดเจนและสะอาด
แม้จะมีคำวิจารณ์เหล่านี้ ผู้ใช้บางรายก็ยังแสดงความขอบคุณที่เทคโนโลยีลักษณะนี้มีอยู่ พร้อมเปรียบเทียบกับการเยาะเย้ยก่อนหน้านี้จากบริษัทอย่าง Google และ Meta

Stable Audio - Latent Audio Diffusion แบบควบคุมจังหวะเวลาได้อย่างรวดเร็ว

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นจาก Hacker News