5 คะแนน โดย GN⁺ 2023-09-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • โมเดลการแพร่กระจายในปริภูมิแฝง (Latent Diffusion Model)
    • เป็นโมเดลการแพร่กระจายที่ทำงานในปริภูมิการเข้ารหัสแฝงของออโตเอนโค้ดเดอร์ที่ผ่านการพรีเทรนแล้ว
    • ช่วยเพิ่มความเร็วในการฝึกและการอนุมานของโมเดลการแพร่กระจายได้อย่างมาก
  • หนึ่งในปัญหาหลักที่เกิดขึ้นเมื่อใช้โมเดลการแพร่กระจายเพื่อสร้างเสียง คือโดยทั่วไปโมเดลการแพร่กระจายจะถูกฝึกให้สร้างเอาต์พุตที่มีขนาดคงที่
    • หากฝึกด้วยคลิปเสียงยาว 30 วินาที ก็จะสร้างเสียงได้เพียงครั้งละ 30 วินาทีเท่านั้น
    • เรื่องนี้กลายเป็นปัญหาเมื่อต้องการฝึกและสร้างเสียงที่มีความยาวหลากหลายมาก เช่น การสร้างเพลงทั้งเพลง
  • โมเดลการแพร่กระจายสำหรับเสียงมักฝึกด้วยการตัดหรือเติมชิ้นส่วนเสียงที่สุ่มตัดมาจากไฟล์เสียงยาว ๆ ให้พอดีกับความยาวสำหรับการฝึกของโมเดลการแพร่กระจาย
  • สำหรับดนตรี สิ่งนี้ทำให้โมเดลมีแนวโน้มจะสร้างท่อนเพลงแบบสุ่มที่เริ่มต้นหรือจบลงกลางวลีดนตรี
  • Stable Audio คือโมเดลการแพร่กระจายในปริภูมิแฝงสำหรับเสียง ที่กำหนดเงื่อนไขได้ทั้งตามความยาวไฟล์เสียง เวลาเริ่มต้น และเมทาดาทาแบบข้อความ
    • ความสามารถในการควบคุมจังหวะเวลานี้ทำให้สามารถสร้างเสียงตามความยาวที่กำหนดได้ จนถึงขนาดหน้าต่างการฝึก
  • โมเดล Stable Audio ที่ใช้เทคนิค diffusion sampling สมัยใหม่ สามารถสร้างเสียงสเตอริโอความยาว 95 วินาทีที่อัตราสุ่มตัวอย่าง 44.1kHz บน NVIDIA A100 GPU ได้ภายในไม่ถึง 1 วินาที
  • พัฒนาโดย Harmonai ซึ่งเป็นห้องวิจัย Generative Audio ของ Stability AI
  • อิงจากโมเดล U-Net ขนาด 907M (907 ล้านพารามิเตอร์) ที่ใช้ใน Moûsai
  • โมเดล Stable Audio ถูกฝึกด้วยชุดข้อมูลที่ประกอบด้วยไฟล์เสียงมากกว่า 800,000 ไฟล์ ซึ่งมีทั้งดนตรี ซาวด์เอฟเฟกต์ และสเต็มของเครื่องดนตรีเดี่ยว จากผู้ให้บริการเพลงรายใหญ่ชื่อ AudioSparx
  • งานในอนาคตมีแผนจะปรับปรุงสถาปัตยกรรมโมเดล ชุดข้อมูล และขั้นตอนการฝึก เพื่อยกระดับคุณภาพเอาต์พุต ความสามารถในการควบคุม ความเร็วในการอนุมาน และความยาวเอาต์พุต
  • Harmonai มีแผนจะเผยแพร่โมเดลโอเพนซอร์สที่อิงจาก Stable Audio และโค้ดสำหรับฝึกโมเดลสร้างเสียง

1 ความคิดเห็น

 
GN⁺ 2023-09-14
ความคิดเห็นจาก Hacker News
  • บทความนี้กล่าวถึง 'Stable Audio' ซึ่งเป็นเทคโนโลยี latent audio diffusion ที่มีการกำหนดเงื่อนไขด้านจังหวะเวลาอย่างรวดเร็ว
  • ผู้ใช้บางรายประเมินว่าเพลงเปียโนเดี่ยวที่สร้างขึ้นมานั้นฟังสะอาดและน่าสนใจ พร้อมเสนอว่าน่าจะสามารถแปลงเป็นโน้ตเพลงได้ง่ายเพื่อให้นำไปใช้งานได้ยืดหยุ่นยิ่งขึ้น
  • มีความต้องการให้ AI ในด้านเสียงและภาพสร้างผลลัพธ์ที่มีโครงสร้างหรือมีลักษณะเชิงสัญลักษณ์มากขึ้น เช่น เลเยอร์ของภาพหรือจังหวะพู่กัน รวมถึงแทร็กองค์ประกอบของดนตรี
  • โดยเฉพาะผู้ใช้บางรายที่มีพื้นฐานด้านดนตรีไม่ได้รู้สึกประทับใจกับผลงานเพลงที่สร้างขึ้น โดยมองว่ามันซ้ำซากและขาดจินตนาการ
  • เทคโนโลยีนี้อาจมีศักยภาพสำหรับการสร้างเพลงประกอบพื้นหลังในเกม หรือแอปพลิเคชันอื่นที่ไม่ได้ให้ความสำคัญกับดนตรีคุณภาพสูงเป็นลำดับแรก
  • ผู้ใช้รายหนึ่งเสนอว่าเทคโนโลยีนี้อาจถูกนำไปใช้บน Spotify เพื่อสร้างเพลงที่ตรงกับรสนิยมส่วนบุคคล
  • มีความสนใจว่ารุ่นโมเดลนี้รองรับหรือ "เข้าใจ" แนวคิดเรื่อง spatial audio หรือไม่ เช่น เสียงนาฬิกาปลุกที่เคลื่อนที่เป็นวงกลม
  • ผู้ใช้บางรายแสดงความต้องการเทคโนโลยีที่สามารถรับอินพุตอย่างเมโลดี้ ลำดับคอร์ด หรือข้อมูลการแสดงสดได้ ซึ่งชี้ให้เห็นถึงศักยภาพของเครื่องมือเสียงยุคใหม่
  • ผู้ใช้บางรายสังเกตเห็นเอฟเฟกต์ "uncanny valley" ในตัวอย่างเสียง ซึ่งหมายถึงเสียงที่ปะปนกันจนขาดน้ำเสียงทางดนตรีที่ชัดเจนและสะอาด
  • แม้จะมีคำวิจารณ์เหล่านี้ ผู้ใช้บางรายก็ยังแสดงความขอบคุณที่เทคโนโลยีลักษณะนี้มีอยู่ พร้อมเปรียบเทียบกับการเยาะเย้ยก่อนหน้านี้จากบริษัทอย่าง Google และ Meta