Stable Audio 2.0

(stability.ai)

7 คะแนน โดย GN⁺ 2024-04-06 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Stable Audio 2.0 กำหนดมาตรฐานใหม่สำหรับ AI ที่สร้างแทร็กเพลงเต็มคุณภาพสูงได้ยาวสูงสุด 3 นาที ในรูปแบบสเตอริโอ 44.1kHz
เปิดตัวความสามารถสร้างแบบ audio-to-audio ที่ให้ผู้ใช้อัปโหลดตัวอย่างเสียงและแปลงด้วยพรอมต์ภาษาธรรมชาติได้
ฝึกด้วยชุดข้อมูลที่ได้รับไลเซนส์จากคลังเพลง AudioSparx แบบเอ็กซ์คลูซีฟ โดยเคารพคำขอ 'opt out' ของครีเอเตอร์และรับประกันการตอบแทนที่เป็นธรรม
สามารถสำรวจโมเดลและเริ่มสร้างผลงานได้ฟรีบนเว็บไซต์ Stable Audio

ฟีเจอร์ใหม่

สามารถสร้างเพลงได้ยาวสูงสุด 3 นาที พร้อมการประพันธ์ที่มีโครงสร้างซึ่งรวมอินโทร การพัฒนา และเอาต์โทร รวมถึงเอฟเฟกต์เสียงสเตอริโอ
การสร้างแบบ Audio-To-Audio : รองรับการอัปโหลดไฟล์เสียงเพื่อแปลงไอเดียให้เป็นตัวอย่างเสียงที่ผลิตเสร็จสมบูรณ์ ข้อกำหนดการใช้งานกำหนดให้อัปโหลดเฉพาะสื่อที่ไม่มีลิขสิทธิ์ และใช้การตรวจจับเนื้อหาขั้นสูงเพื่อป้องกันการละเมิดลิขสิทธิ์
การสร้างเวอร์ชันแปรและซาวด์เอฟเฟกต์ : เพิ่มขีดความสามารถในการสร้างเสียงและเอฟเฟกต์เสียงได้หลากหลาย ตั้งแต่เสียงพิมพ์คีย์บอร์ด เสียงเชียร์ของฝูงชน ไปจนถึงเสียงฮัมของถนนในเมือง
การเปลี่ยนสไตล์ : ปรับแก้เสียงที่สร้างใหม่หรืออัปโหลดเข้ามาได้อย่างลื่นไหลระหว่างกระบวนการสร้าง เพื่อให้เข้ากับสไตล์และโทนเฉพาะของโปรเจกต์

งานวิจัย

สถาปัตยกรรม latent diffusion model ของ Stable Audio 2.0 ถูกออกแบบมาเพื่อให้สร้างแทร็กเต็มที่มีโครงสร้างได้
เพื่อสิ่งนี้ องค์ประกอบทั้งหมดของระบบจึงถูกปรับจูนเพื่อยกระดับประสิทธิภาพในช่วงเวลาที่ยาวนาน
ออโตเอนโคเดอร์แบบบีบอัดสูงตัวใหม่บีบอัดคลื่นเสียงดิบให้เป็นตัวแทนที่สั้นลงมาก
ใช้ Diffusion Transformer (DiT) แทน U-Net แบบเดิม และมีความสามารถมากกว่าในการจัดการข้อมูลข้ามลำดับที่ยาว

กลไกป้องกัน

เช่นเดียวกับโมเดล 1.0, 2.0 ได้รับการฝึกด้วยข้อมูลจาก AudioSparx ซึ่งรวมเพลง ซาวด์เอฟเฟกต์ ไฟล์ stem ของเครื่องดนตรีเดี่ยวมากกว่า 800,000 รายการ และเมทาดาทาแบบข้อความที่เกี่ยวข้อง
ศิลปินทุกคนของ AudioSparx มีตัวเลือกในการ 'opt out' จากการฝึกโมเดล Stable Audio
เพื่อปกป้องสิทธิของเจ้าของลิขสิทธิ์ บริษัทได้เป็นพาร์ตเนอร์กับ AudibleMagic สำหรับการอัปโหลดเสียง และใช้เทคโนโลยีการจดจำเนื้อหา (ACR) เพื่อป้องกันการละเมิดลิขสิทธิ์ผ่านการจับคู่เนื้อหาแบบเรียลไทม์

Stable Radio

Stable Radio คือไลฟ์สตรีม 24/7 ที่มีเฉพาะแทร็กที่สร้างโดย Stable Audio และกำลังสตรีมอยู่บนช่อง YouTube ของ Stable Audio
สามารถสำรวจโมเดลและเริ่มสร้างผลงานได้ฟรีบนเว็บไซต์ Stable Audio

ความเห็นของ GN⁺

Stable Audio 2.0 มีศักยภาพที่จะสร้างนวัตกรรมให้กับอุตสาหกรรมดนตรี ด้วยการมอบเครื่องมือสร้างสรรค์ที่ใช้ AI ให้กับผู้ผลิตเพลง ความสามารถในการเข้าใจเจตนาของผู้ใช้ผ่านการประมวลผลภาษาธรรมชาติและแปลงสิ่งนั้นเป็นดนตรี ช่วยทำให้กระบวนการสร้างสรรค์ง่ายขึ้น และเปิดโอกาสให้ผู้คนเข้ามามีส่วนร่วมในการผลิตเพลงได้มากขึ้น
หนึ่งในปัญหาที่เทคโนโลยีนี้อาจนำมาคือประเด็นลิขสิทธิ์ แม้ว่าบริษัทจะระบุว่าได้ใช้มาตรการเพื่อป้องกันการละเมิดลิขสิทธิ์ แต่ประเด็นทางกฎหมายเกี่ยวกับความเป็นเจ้าของลิขสิทธิ์ของคอนเทนต์ที่ AI สร้างขึ้นยังคงซับซ้อน
อีกเรื่องที่ต้องพิจารณาเมื่อนำ AI เข้ามาใช้ในการผลิตเพลง คือการรับรู้ต่อความเป็นต้นฉบับและความเป็นศิลปะของเพลงที่ AI สร้าง จำเป็นต้องมีการอภิปรายว่า AI สามารถเลียนแบบหรือทดแทนความคิดสร้างสรรค์ของมนุษย์ได้หรือไม่ และสิ่งนี้จะส่งผลต่ออุตสาหกรรมดนตรีอย่างไร
ประโยชน์ที่ได้รับจากการใช้เครื่องมือสร้างเพลงด้วย AI ได้แก่ การลดเวลาในการสร้างสรรค์ การทดลองกับสไตล์และแนวเพลงที่หลากหลาย และการที่ครีเอเตอร์สามารถสร้างเพลงได้แม้ไม่มีความรู้เชิงลึกด้านทฤษฎีดนตรีหรือทักษะการเล่นเครื่องดนตรี
เมื่อพิจารณาถึงผลเชิงบวกที่เทคโนโลยีนี้อาจมีต่อการศึกษาด้านดนตรี มันอาจช่วยให้นักเรียนที่เรียนทฤษฎีดนตรีสำรวจและทำความเข้าใจสไตล์และโครงสร้างทางดนตรีที่หลากหลายได้

1 ความคิดเห็น

GN⁺ 2024-04-06

ความเห็นบน Hacker News

เป็น AI ดนตรีที่น่าประทับใจ แต่รู้สึกว่ายังขาดอะไรบางอย่างเพราะสัมผัสไม่ได้ถึงเจตนาและอารมณ์ที่อยู่ในดนตรีที่มนุษย์สร้างขึ้น
ไม่มีการกล่าวถึงลิขสิทธิ์ของเสียงที่ AI สร้างขึ้น จึงมีประเด็นสำคัญเรื่องความเป็นเจ้าของของผลงานที่ได้
ลองเอาบีตที่ทำไว้เมื่อ 10 ปีก่อนให้ AI แล้วผลลัพธ์ฟังเหมือนเอาเครื่องเสียงไปโยนใส่เครื่องซักผ้า คิดว่าน่าจะต้องใช้ชุดข้อมูลที่ใหญ่กว่านี้ แต่ก็กำลังพิจารณาจะสมัครใช้งานแบบสมาชิก
Stability AI ทำได้ดีที่ใช้ชุดข้อมูลแบบมีไลเซนส์เพื่อรับประกันว่าครีเอเตอร์จะได้รับค่าตอบแทนอย่างเป็นธรรม
น่าประทับใจในเชิงเทคนิค แต่เพลงที่ AI สร้างยังธรรมดา นักดนตรีอิเล็กทรอนิกส์สมัยใหม่ทำงานได้ดีกว่านี้
เสียดายที่ Stability AI ไม่ได้เป็นโอเพนซอร์ส หวังว่าจะไม่เดินตามเส้นทางเดียวกับ OpenAI
AI พยายามประกอบสร้างตัวอย่างเสียงขึ้นมาใหม่ในลักษณะที่คล้ายกัน แต่ก็ยังต่างจากการเล่นกลองและกีตาร์จริง ถึงอย่างนั้นก็น่าสนใจ และคาดหวังว่าจะมีเวอร์ชันที่ดีขึ้นออกมาในอนาคต
ฟังเพลง synthwave ตอนเขียนโค้ดจนเริ่มเบื่อแล้วเลยกำลังหาอะไรใหม่ ๆ และดูเหมือนว่า AI จะสร้างเพลย์ลิสต์แบบ "ดีพอใช้" ได้แบบไม่สิ้นสุด
ล้มเหลวในการสร้างอะไรที่น่าสนใจด้วย AI และตัวเว็บไซต์ก็ใช้งานยาก
สงสัยว่ามีอินเทอร์เฟซสไตล์ ComfyUI สำหรับโมเดลเสียงหรือไม่

Stable Audio 2.0

ฟีเจอร์ใหม่

งานวิจัย

กลไกป้องกัน

Stable Radio

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความเห็นบน Hacker News