Stable Audio 2.0
(stability.ai)- Stable Audio 2.0 กำหนดมาตรฐานใหม่สำหรับ AI ที่สร้างแทร็กเพลงเต็มคุณภาพสูงได้ยาวสูงสุด 3 นาที ในรูปแบบสเตอริโอ 44.1kHz
- เปิดตัวความสามารถสร้างแบบ audio-to-audio ที่ให้ผู้ใช้อัปโหลดตัวอย่างเสียงและแปลงด้วยพรอมต์ภาษาธรรมชาติได้
- ฝึกด้วยชุดข้อมูลที่ได้รับไลเซนส์จากคลังเพลง AudioSparx แบบเอ็กซ์คลูซีฟ โดยเคารพคำขอ 'opt out' ของครีเอเตอร์และรับประกันการตอบแทนที่เป็นธรรม
- สามารถสำรวจโมเดลและเริ่มสร้างผลงานได้ฟรีบนเว็บไซต์ Stable Audio
ฟีเจอร์ใหม่
- สามารถสร้างเพลงได้ยาวสูงสุด 3 นาที พร้อมการประพันธ์ที่มีโครงสร้างซึ่งรวมอินโทร การพัฒนา และเอาต์โทร รวมถึงเอฟเฟกต์เสียงสเตอริโอ
- การสร้างแบบ Audio-To-Audio : รองรับการอัปโหลดไฟล์เสียงเพื่อแปลงไอเดียให้เป็นตัวอย่างเสียงที่ผลิตเสร็จสมบูรณ์ ข้อกำหนดการใช้งานกำหนดให้อัปโหลดเฉพาะสื่อที่ไม่มีลิขสิทธิ์ และใช้การตรวจจับเนื้อหาขั้นสูงเพื่อป้องกันการละเมิดลิขสิทธิ์
- การสร้างเวอร์ชันแปรและซาวด์เอฟเฟกต์ : เพิ่มขีดความสามารถในการสร้างเสียงและเอฟเฟกต์เสียงได้หลากหลาย ตั้งแต่เสียงพิมพ์คีย์บอร์ด เสียงเชียร์ของฝูงชน ไปจนถึงเสียงฮัมของถนนในเมือง
- การเปลี่ยนสไตล์ : ปรับแก้เสียงที่สร้างใหม่หรืออัปโหลดเข้ามาได้อย่างลื่นไหลระหว่างกระบวนการสร้าง เพื่อให้เข้ากับสไตล์และโทนเฉพาะของโปรเจกต์
งานวิจัย
- สถาปัตยกรรม latent diffusion model ของ Stable Audio 2.0 ถูกออกแบบมาเพื่อให้สร้างแทร็กเต็มที่มีโครงสร้างได้
- เพื่อสิ่งนี้ องค์ประกอบทั้งหมดของระบบจึงถูกปรับจูนเพื่อยกระดับประสิทธิภาพในช่วงเวลาที่ยาวนาน
- ออโตเอนโคเดอร์แบบบีบอัดสูงตัวใหม่บีบอัดคลื่นเสียงดิบให้เป็นตัวแทนที่สั้นลงมาก
- ใช้ Diffusion Transformer (DiT) แทน U-Net แบบเดิม และมีความสามารถมากกว่าในการจัดการข้อมูลข้ามลำดับที่ยาว
กลไกป้องกัน
- เช่นเดียวกับโมเดล 1.0, 2.0 ได้รับการฝึกด้วยข้อมูลจาก AudioSparx ซึ่งรวมเพลง ซาวด์เอฟเฟกต์ ไฟล์ stem ของเครื่องดนตรีเดี่ยวมากกว่า 800,000 รายการ และเมทาดาทาแบบข้อความที่เกี่ยวข้อง
- ศิลปินทุกคนของ AudioSparx มีตัวเลือกในการ 'opt out' จากการฝึกโมเดล Stable Audio
- เพื่อปกป้องสิทธิของเจ้าของลิขสิทธิ์ บริษัทได้เป็นพาร์ตเนอร์กับ AudibleMagic สำหรับการอัปโหลดเสียง และใช้เทคโนโลยีการจดจำเนื้อหา (ACR) เพื่อป้องกันการละเมิดลิขสิทธิ์ผ่านการจับคู่เนื้อหาแบบเรียลไทม์
Stable Radio
-
Stable Radio คือไลฟ์สตรีม 24/7 ที่มีเฉพาะแทร็กที่สร้างโดย Stable Audio และกำลังสตรีมอยู่บนช่อง YouTube ของ Stable Audio
-
สามารถสำรวจโมเดลและเริ่มสร้างผลงานได้ฟรีบนเว็บไซต์ Stable Audio
ความเห็นของ GN⁺
- Stable Audio 2.0 มีศักยภาพที่จะสร้างนวัตกรรมให้กับอุตสาหกรรมดนตรี ด้วยการมอบเครื่องมือสร้างสรรค์ที่ใช้ AI ให้กับผู้ผลิตเพลง ความสามารถในการเข้าใจเจตนาของผู้ใช้ผ่านการประมวลผลภาษาธรรมชาติและแปลงสิ่งนั้นเป็นดนตรี ช่วยทำให้กระบวนการสร้างสรรค์ง่ายขึ้น และเปิดโอกาสให้ผู้คนเข้ามามีส่วนร่วมในการผลิตเพลงได้มากขึ้น
- หนึ่งในปัญหาที่เทคโนโลยีนี้อาจนำมาคือประเด็นลิขสิทธิ์ แม้ว่าบริษัทจะระบุว่าได้ใช้มาตรการเพื่อป้องกันการละเมิดลิขสิทธิ์ แต่ประเด็นทางกฎหมายเกี่ยวกับความเป็นเจ้าของลิขสิทธิ์ของคอนเทนต์ที่ AI สร้างขึ้นยังคงซับซ้อน
- อีกเรื่องที่ต้องพิจารณาเมื่อนำ AI เข้ามาใช้ในการผลิตเพลง คือการรับรู้ต่อความเป็นต้นฉบับและความเป็นศิลปะของเพลงที่ AI สร้าง จำเป็นต้องมีการอภิปรายว่า AI สามารถเลียนแบบหรือทดแทนความคิดสร้างสรรค์ของมนุษย์ได้หรือไม่ และสิ่งนี้จะส่งผลต่ออุตสาหกรรมดนตรีอย่างไร
- ประโยชน์ที่ได้รับจากการใช้เครื่องมือสร้างเพลงด้วย AI ได้แก่ การลดเวลาในการสร้างสรรค์ การทดลองกับสไตล์และแนวเพลงที่หลากหลาย และการที่ครีเอเตอร์สามารถสร้างเพลงได้แม้ไม่มีความรู้เชิงลึกด้านทฤษฎีดนตรีหรือทักษะการเล่นเครื่องดนตรี
- เมื่อพิจารณาถึงผลเชิงบวกที่เทคโนโลยีนี้อาจมีต่อการศึกษาด้านดนตรี มันอาจช่วยให้นักเรียนที่เรียนทฤษฎีดนตรีสำรวจและทำความเข้าใจสไตล์และโครงสร้างทางดนตรีที่หลากหลายได้
1 ความคิดเห็น
ความเห็นบน Hacker News