เดโมเสียงที่เสถียร
(stability-ai.github.io)คำแนะนำ
- เว็บไซต์นี้อาจทำงานได้ไม่สมบูรณ์บน Safari และแนะนำให้ใช้ Google Chrome เพื่อประสบการณ์ที่ดีที่สุด
การสร้างเสียงที่เสถียร
- โมเดลสามารถสร้างเพลงสเตอริโอ 44.1kHz ได้ในหลากหลายความยาว โดยมีตัวอย่างเช่น Berlin techno, rave, drum machine, synthesizer และดนตรีบรรยากาศมืดหม่น
- แตกต่างจากโมเดลล้ำสมัยก่อนหน้านี้ โมเดลนี้ยังสามารถสร้างเอฟเฟกต์เสียงสเตอริโอ 44.1kHz ได้ด้วย โดยมีตัวอย่างเช่น เสียงประตูปิด เสียงรถสปอร์ตหรือมอเตอร์ไซค์วิ่งผ่าน เสียงดอกไม้ไฟ และเสียงฝีเท้าภายในถ้ำ
- ตัวอย่างทั้งหมดในเว็บไซต์นี้สร้างขึ้นด้วยโมเดลเดียวกันที่สามารถสร้างทั้งเพลงและเอฟเฟกต์เสียงเป็นสเตอริโอ 44.1kHz
การสร้างเพลงสเตอริโอระยะยาว: เปรียบเทียบกับเทคโนโลยีล้ำสมัยล่าสุด
- สามารถประเมินคุณภาพเสียงได้ผ่านการเปรียบเทียบระหว่างโมเดลที่สร้างดนตรีผสานเสียงแมนโดลิน เสียงผิวปาก กีตาร์ และฟลูต กับโมเดลอื่น ๆ
- การสร้างเพลงเชิงพาณิชย์ที่ผสานเมโลดี้เปียโน สแนร์โรล แพตเทิร์นคิก ไฮแฮต เสียงปรบมือ และเมโลดี้ซินธ์ลีด ก็เป็นอีกหนึ่งหัวข้อที่ใช้เปรียบเทียบ
เอฟเฟกต์เสียง: เปรียบเทียบกับเทคโนโลยีล้ำสมัยล่าสุด
- สามารถประเมินคุณภาพเสียงได้ผ่านการเปรียบเทียบระหว่างโมเดลที่สร้างเสียงคลิกของเครื่องยนต์ เสียงหมุนด้วยความเร็วสูง และเสียงนกร้องแหลมดัง กับโมเดลอื่น ๆ
- พรอมป์ต์ที่เลือกไม่ได้ต้องการการเคลื่อนไหวแบบสเตอริโอมากนัก จึงแสดงผลลัพธ์การเรนเดอร์ที่ค่อนข้างไม่เน้นมิติพื้นที่
ออโตเอนโค้ดเดอร์: การสร้างกลับ
- เพื่อประเมินความสามารถด้านความเที่ยงตรงของเสียง จึงเปรียบเทียบระหว่างการบันทึกต้นฉบับกับการบันทึกที่ผ่านออโตเอนโค้ดเดอร์
- การสร้างกลับด้วยออโตเอนโค้ดเดอร์มีความใกล้เคียงกับต้นฉบับอย่างมาก และแทบจะแยกไม่ออก
ความคิดเห็นของ GN⁺
- เทคโนโลยีนี้ถือเป็นความก้าวหน้าสำคัญในด้านการสร้างดนตรีและเอฟเฟกต์เสียง โดยเฉพาะความสามารถในการสร้างเสียงสเตอริโอคุณภาพสูงที่โดดเด่น
- การเปรียบเทียบกับโมเดลล้ำสมัยล่าสุดช่วยให้ประเมินคุณภาพเสียงที่เหนือกว่าของโมเดลนี้ได้อย่างเป็นกลาง จึงคาดว่าจะเป็นเครื่องมือที่มีประโยชน์สำหรับผู้สร้างคอนเทนต์เสียง
- การเปรียบเทียบการสร้างกลับผ่านออโตเอนโค้ดเดอร์แสดงให้เห็นว่าเทคโนโลยีนี้สามารถกู้คืนเสียงต้นฉบับได้อย่างแม่นยำมาก ซึ่งชี้ให้เห็นถึงศักยภาพในการใช้งานด้านที่ไวต่อคุณภาพเสียง
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News
Ed Newton-Rex ลาออกไม่นานหลังการเปิดตัว Stable Audio เนื่องจากความกังวลเรื่องลิขสิทธิ์และข้อมูลฝึก
สถานการณ์แบบยุค 90 และ Internet Explorer กำลังเกิดขึ้นซ้ำอีกครั้ง แต่ครั้งนี้มีด้านบวกตรงที่เบราว์เซอร์เจ้าตลาดเป็นโอเพนซอร์ส
เช่นเดียวกับ Stable Diffusion ข้อความพรอมป์ตน่าจะเป็นวิธีที่ควบคุมได้ยากที่สุดในการให้ได้ผลลัพธ์ที่มีประโยชน์
Stable Audio ยอดเยี่ยมมากเมื่อเทียบกับโมเดลดนตรีระดับ SOTA ในปัจจุบันอย่าง MusicGen และ MusicLM
ยังจำเป็นต้องมีขั้นตอนที่ AI เรียนรู้จากคลังเสียงคุณภาพสูง และใช้ MIDI เพื่อทริกเกอร์เสียงจากคลังนั้น
ในฐานะมือกลอง คำว่า 'กลองโซโล' ฟังดูน่าเบื่อ มีเสียงแปลก ๆ ปนอยู่ และยังไม่ใช่เอฟเฟกต์เสียงที่เหมือนจริง
มีการเปิดเผยโค้ดและคำสั่งการฝึก แต่ไม่ได้เปิดเผยตัวโมเดล
เป็นเรื่องน่าสนใจที่พบว่าการเพิ่มพรอมป์ตคำว่า 'คุณภาพสูง, สเตอริโอ' มักช่วยได้โดยทั่วไป
ไอเดียเรื่องการสร้างซาวด์เอฟเฟกต์ดูน่าสนใจอยู่พักหนึ่ง แต่ 'เสียงฝีเท้า' แย่มาก
ใช้พรอมป์ต 'ดนตรีที่เปี่ยมพลัง, ไวโอลิน, โวคัล, ออร์เคสตรา, เปียโน, มินิมัลลิสม์, John Adams, Nixon in China' เพื่อสร้างดนตรีที่มีเอกลักษณ์และน่าสนใจมากได้