เดโม Stable Audio

(stability-ai.github.io)

1 คะแนน โดย GN⁺ 2024-02-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

เดโม Stable Audio แสดงผ่านตัวอย่างเสียงว่าโมเดลเดียวสามารถสร้างได้ทั้งเพลงความยาวมากและซาวด์เอฟเฟกต์ในรูปแบบ สเตอริโอ 44.1kHz
การสร้างเพลงมุ่งเน้นการสร้าง แนวเพลงและอารมณ์ที่แตกต่างกันด้วยพรอมป์เพียงอย่างเดียว เช่น Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo
ซาวด์เอฟเฟกต์ครอบคลุม door slam, sports car, motorbike, fireworks, cave footsteps เป็นต้น และมีการใช้วลีอย่าง “high-quality, stereo” ร่วมในพรอมป์ด้วย
ตัวอย่างเปรียบเทียบจัดให้ฟังผลลัพธ์จาก MusicGen-large, MusicGen-stereo, AudioLDM2, Audiogen-medium เทียบกัน โดยอิงพรอมป์จาก MusicCaps และ AudioCaps
ตัวอย่างการสร้างซ้ำด้วยออโตเอนโค้ดเดอร์ช่วยให้ตรวจสอบ ความเที่ยงตรงของเสียง ได้โดยเปรียบเทียบไฟล์บันทึกต้นฉบับกับผลลัพธ์หลังผ่านกระบวนการ

เดโม Stable Audio และตัวอย่างการสร้าง

เว็บไซต์เดโมอาจทำงานไม่ถูกต้องบน Safari จึงแนะนำให้ใช้ Google Chrome เพื่อประสบการณ์ที่ดีที่สุด
มีเอกสารและทรัพยากรที่เกี่ยวข้อง ได้แก่ arXiv, stable-audio-tools, stable-audio-metrics
- arXiv: งานวิจัย Stable Audio
- stable-audio-tools: โค้ดสำหรับทำซ้ำ Stable Audio
- stable-audio-metrics: โค้ดสำหรับประเมิน Stable Audio
โมเดลสามารถสร้าง เพลงสเตอริโอความยาวมากแบบความยาวแปรผันได้ ที่ 44.1kHz
- พรอมป์ตัวอย่างมี Berlin techno, uplifting acoustic loop, disco, calm meditation music, drum solo
- พรอมป์บางส่วนระบุทั้ง BPM, เครื่องดนตรี, อารมณ์, สไตล์ตามภูมิภาค และการเป็น loop
โมเดลเดียวกันยังสร้าง ซาวด์เอฟเฟกต์สเตอริโอ ที่ 44.1kHz ได้ด้วย
- พรอมป์ตัวอย่างมี door slam, sports car passing by, motorbike passing by, fireworks, reverberant footsteps inside a large rocky cave
- สำหรับพรอมป์ซาวด์เอฟเฟกต์ มีการเติม “high-quality, stereo” และระบุว่าวิธีนี้โดยทั่วไปช่วยให้ผลลัพธ์ดีขึ้น

การเปรียบเทียบโมเดลและการสร้างซ้ำด้วยออโตเอนโค้ดเดอร์

การเปรียบเทียบเพลงความยาวมากจัดทำโดยอิง พรอมป์ MusicCaps
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- พรอมป์และเสียงที่ใช้ในการเปรียบเทียบเป็นสิ่งที่ใช้ในการศึกษาเชิงคุณภาพที่รายงานไว้ในงานวิจัย
การเปรียบเทียบซาวด์เอฟเฟกต์ใช้ พรอมป์ AudioCaps
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- พรอมป์ AudioCaps ที่เลือกแบบสุ่มไม่ได้ต้องการการเคลื่อนไหวแบบสเตอริโอที่เด่นชัด ทำให้ผลลัพธ์ถูกเรนเดอร์แบบมีมิติเชิงพื้นที่ค่อนข้างน้อย
ส่วนออโตเอนโค้ดเดอร์ (Autoencoder) มีการเปรียบเทียบการสร้างซ้ำเพื่อประเมิน ความเที่ยงตรงของเสียง
- ด้านซ้ายวางไฟล์บันทึก ground truth ส่วนด้านขวาวางผลลัพธ์หลังนำไฟล์บันทึก ground truth ผ่านออโตเอนโค้ดเดอร์
- ผลลัพธ์การสร้างซ้ำมีความโปร่งใสค่อนข้างมากและใกล้เคียงกับ ground truth มาก

1 ความคิดเห็น

GN⁺ 2024-02-14

ความคิดเห็นบน Hacker News

ที่น่าสนใจคือ Ed Newton-Rex ซึ่งถูกจ้างมาเพื่อสร้าง Stable Audio ลาออกไม่นานหลังเปิดตัว เพราะกังวลเรื่องลิขสิทธิ์และข้อมูลฝึกสอน
หลังจากนั้นเขาก่อตั้ง https://www.fairlytrained.org/
อ้างอิง: https://x.com/ednewtonrex
- ในโมเดลเชิงสร้างสรรค์ ถ้าผู้สร้างไม่เปิดเผย โครงสร้างโมเดล และเป็นโมเดลที่แปลงข้อความไปเป็นสื่อประเภทอื่น ก็พอจะมองได้ว่าโมเดลนั้นมอบหมายงานบางส่วนให้ text encoder หรือฟังก์ชันใกล้เคียงที่ฝึกด้วยข้อมูลซึ่งไม่มีไลเซนส์ชัดเจน
  แม้แต่ผู้ถือสิทธิ์ที่มีรายการในไลบรารีหลายสิบล้านถึงหลายร้อยล้านรายการ เช่น ชิ้นส่วนภาพหรือเสียง แต่เพียงโทเค็นข้อความต่ำกว่าหนึ่งพันล้านจากคลังขนาดใหญ่ ก็ทำให้ประสิทธิภาพของ encoder สำหรับโมเดลสร้างสื่อปลายทางจากข้อความต่ำเกินไป Adobe Firefly ก็เข้าข่ายนี้ด้วย
  การมีข้อมูลคล้าย ๆ กันจำนวนมากในไลบรารีแบบนี้มีประโยชน์เป็นพิเศษ ก็เป็นความเข้าใจผิดเช่นกัน หากไม่มี text encoder ที่แข็งแรง โมเดลแปลงข้อความเป็นสื่อปลายทางส่วนใหญ่จะสร้างผลลัพธ์ที่ดูหรือฟังออกมากลาง ๆ มาก
  วิธีคลายข้อสงสัยที่ง่ายที่สุดคือเปิดเผยโครงสร้างโมเดล
  อย่างไรก็ดี ต่อให้ทั้งหมดนั้นเป็นความจริง เหตุผลที่เราพูดถึงโมเดล diffusion และให้ความสนใจกับงานอย่าง Fairly Trained ก็เพราะมีคนฝึกโมเดลด้วย ข้อมูลที่ไม่มีไลเซนส์ชัดเจน นั่นเอง
- การเรียกเขาว่า “คนที่ถูกจ้างมาเพื่อสร้าง Stable Audio” ออกจะชวนให้เข้าใจผิดอยู่บ้าง เขาอยู่ใน ตำแหน่งผู้บริหาร คือ VP ฝ่ายผลิตภัณฑ์ของกลุ่มเสียงที่ Stability
  แม้จะเป็นตำแหน่งสำคัญ แต่ถ้าพูดว่า “คนที่ถูกจ้างมาเพื่อสร้าง” ก็ทำให้นึกถึงหัวหน้านักพัฒนาหรือนักวิจัยมากกว่า
  เมื่อดูว่าเขาเป็นผู้ก่อตั้งที่มีพื้นฐานด้านดนตรี การลาออกของเขาก็เข้าใจได้มากขึ้น
- เป็นการตีความที่น่าสนใจ แต่ตอนที่เขาเข้าร่วม Stability นั้น วิธีฝึกของ Stable Diffusion ก็เป็นที่รู้กันดีอยู่แล้ว จึงเป็นจุดยืนที่ค่อนข้างแปลกเหมือนกัน
- ต่อให้บริษัทจะทำสิ่งนั้นอยู่ดี ก็น่าจะคิดเรื่องนี้ได้ก่อนเข้าไปทำงานที่บริษัทนั้นหรือเปล่า
  หรือไม่แน่ว่านั่นอาจเป็นกระบวนการที่จำเป็นต่อโมเดลธุรกิจด้านการรับรองของเขาเองก็ได้
- ควรต้องมีทางออกสำหรับ กำแพงลิขสิทธิ์ ที่บริษัทต่าง ๆ เจอเมื่อฝึกโมเดล
  ผมมองว่าไม่ต่างจากศิลปินที่สร้างเพลงโดยได้รับอิทธิพลจากเพลงที่ฟังมาตลอดชีวิต โดยพื้นฐานแล้วมันคือเรื่องเดียวกันเป๊ะ และดนตรีหรือศิลปะไม่สามารถสร้างขึ้นในสุญญากาศได้
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
รู้สึกเหมือนวนกลับไปยุค Internet Explorer ในทศวรรษ 90 อีกครั้ง ครั้งนี้ต่างออกไปนิดหน่อยตรงที่เบราว์เซอร์เจ้าตลาดเป็นโอเพนซอร์ส
อยากให้ใครสักคนทำ ปุ่ม GIF เคลื่อนไหว สำหรับ Chrome ที่เขียนว่า “Best viewed with Google Chrome” ให้หน่อย
- มีอยู่นี่
  ดูปุ่ม: https://indiscipline.github.io/post/best-viewed-in-google-ch...
- Chrome ไม่ใช่โอเพนซอร์ส Chromium ต่างหากที่เป็นโอเพนซอร์ส ไม่ควรสับสนสองอย่างนี้
- เว็บไซต์ก็ทำงานได้ดีบน Safari และไม่รู้สึกว่ามีปัญหาอะไรเป็นพิเศษ
เช่นเดียวกับ Stable Diffusion ในโมเดลนี้ text prompt ก็น่าจะเป็น วิธีที่ควบคุมได้ยากที่สุด ในบรรดาวิธีที่จะได้ผลลัพธ์ที่มีประโยชน์
นึกภาพได้ไม่ยากเลยว่าการใช้ MIDI เป็นอินพุตร่วมกับ ControlNet จะทำให้มันกลายเป็น neural synthesizer โดยพฤตินัย
- ใช่เลย ตั้งแต่ตอนทำโปรเจกต์เมโลดี้ AI เมื่อ 2 ปีก่อน (https://www.melodies.ai/) ผมก็มองว่าการสร้างเพลงสำเร็จรูปคุณภาพสูงด้วยข้อความล้วน ๆ จะยังไม่เป็นไปได้และไม่น่าพึงประสงค์ไปอีกระยะหนึ่ง
  แทนที่จะทำแบบนั้น ควรโฟกัสกับการใช้ AI เพื่อช่วยกระบวนการของศิลปินในหลายขั้นตอนของการผลิตเพลงจะดีกว่า
- สำหรับดนตรีอาจเป็นแบบนั้น แต่สำหรับ เอฟเฟกต์เสียง ผมคิดว่า text prompt เป็นอินเทอร์เฟซผู้ใช้ที่ค่อนข้างดี
- วิธีที่น่าจะเหมาะคือป้อนทั้งไฟล์เสียงที่ฮัมหรือร้องเมโลดี้ไว้ ร่วมกับ text prompt แล้วให้มันปล่อยแทร็กที่คล้ายกับสิ่งนั้นออกมา
- มันทำงานได้ดีเมื่อไม่ต้องการการควบคุมมากนัก เช่น prompt อย่าง “โซโลฟรีแจ๊สของนักแซกโซโฟนเทเนอร์ ไม่มี time signature”
- ใน Stable Diffusion มีอินพุตอะไรนอกจาก text prompt? หมายถึงพวก img2img, ControlNet อะไรแบบนั้นหรือ?
เมื่อเทียบกับโมเดลเพลงล่าสุดอย่าง MusicGen, MusicLM ตัวนี้ดีมากอย่างเหลือเชื่อ ดูเหมือนจะมีหน้าผลิตภัณฑ์ที่สมัครสมาชิกใช้งานได้แบบ Midjourney ด้วย: https://www.stableaudio.com/
น่าเสียดายที่ไม่ใช่ โมเดลเปิดเผย weights และดูเหมือนไม่มี API ด้วย เป็นการสร้างเสียงผ่าน UI แบบสมัครสมาชิกรายเดือน ไม่ใช่รูปแบบที่นักพัฒนาจะนำไปผสานรวมหรือห่อใช้งานต่อได้
- ผมอยากสร้างเอฟเฟกต์เสียงสำหรับเกมที่กำลังทำอยู่ แต่ดูแล้วเหมือนต้องใช้ ไลเซนส์ระดับองค์กร (https://www.stableaudio.com/pricing)
  สงสัยว่าทำไมถึงไม่รวมไว้ในเงื่อนไข “ผลิตภัณฑ์เชิงพาณิชย์ที่มีผู้ใช้งานรายเดือนต่ำกว่า 100,000 คน” ไปเลย แต่แยกเป็นเงื่อนไขต่างหาก
- เขาว่าจะมี เวอร์ชันไลเซนส์ CC และ API ออกมาเร็ว ๆ นี้
  ความเร็วในการพัฒนาโมเดลสูงมาก ปีนี้น่าจะเป็นปีที่ค่อนข้างใหญ่สำหรับฝั่งดนตรี
- โชคดีที่ฝึกที่บ้านได้เหมือนกัน คำถามที่ใหญ่กว่าคือ ข้อมูล
ผมมองว่ายังต้องมีขั้นตอนที่ AI เรียนรู้ก่อนว่า ไลบรารีเสียงคุณภาพสูง นั้นฟังเป็นอย่างไร แล้วจึงนำความสามารถที่เรียนรู้นั้นไปใช้กับ MIDI เพื่อทริกเกอร์เสียงจากไลบรารีนั้น
ถ้าทำแบบนั้นได้ ก็จะได้ทั้งความสร้างสรรค์ของ AI ด้านดนตรีและคุณภาพเสียงที่สมบูรณ์แบบไปพร้อมกัน
- ผมก็อยากเห็นอะไรแบบนั้นใน AI สร้างภาพมาโดยตลอดเหมือนกัน แทนที่จะปรับปรุงวนซ้ำแบบมหัศจรรย์จากภาพที่เสร็จแล้ว การได้เห็น AI พยายามวาดภาพด้วยฝีแปรงหรือระบายสีน่าจะเท่และน่าสนใจกว่ามาก
  ไม่รู้ว่าจะใช้ชุดข้อมูลหรือโครงสร้างแบบไหนกับเรื่องแบบนั้นได้ แต่คงน่าสนใจจริง ๆ
- ถ้าใช้ MIDI จะได้เสียงอย่างกีตาร์ที่เล่นแบบหยาบ ๆ หรือเอคโคละเอียด ๆ ที่เกิดจากการอัดในห้องน้ำได้อย่างไร?
- นั่นไม่ใช่สิ่งที่ suno.ai ทำอยู่เหรอ?
ไม่ได้ตั้งใจจะลดคุณค่าความก้าวหน้าตรงนี้ และมันก็น่าประทับใจจริง ๆ
ในมุมของมือกลอง ‘ดรัมโซโล’ จัดอยู่ในกลุ่มที่น่าเบื่อที่สุด และมีเสียงแปลก ๆ ปนอยู่ สุดท้ายคงขึ้นอยู่กับกลุ่มผู้ฟังที่ตั้งใจไว้
อนึ่ง ณ ตอนนี้ เอฟเฟกต์เสียงก็ยังฟังดูไม่ สมจริง สำหรับหูผม
ถึงอย่างนั้นความก้าวหน้าก็มาก และทำได้ดีแล้ว
- ในมุมของมือกลอง ถ้าคิดว่ามันเกิดขึ้นบนจังหวะ 4/4 ที่มั่นคง ‘ดรัมโซโล’ นั้นกลับฟังน่าสนใจอย่างคาดไม่ถึง
  เพราะลักษณะที่เหมือนสุ่มแต่ก็ไม่สุ่มไปทั้งหมด ทำให้เกิดแพตเทิร์นจังหวะที่ค่อนข้างไม่เป็นแบบแผน ถ้าใส่ซิงโคเปชันแบบนี้สด ๆ ได้ก็คงดี
  แต่อย่าขอให้ถอดออกมาเป็นโน้ตเพลง
  ความสม่ำเสมอของเทมโปยอดเยี่ยมมาก เพียงแต่เสียงรบกวนที่ไม่จำเป็นและหางเสียงฉาบแบบสุ่ม ๆ แสดงให้เห็นข้อจำกัดของโมเดล
- เป็นความพยายามที่น่าประทับใจ แต่ยังอีกไกลกว่าจะสร้างเพลงหรือเสียงที่ใช้งานได้จริง
  ตอนนี้มีแทร็กเพลงไลบรารีและเอฟเฟกต์เสียงอยู่เป็นล้าน ๆ รายการที่ฟังดีกว่านี้มากอยู่แล้ว ถ้าจะไปแข่งกับสิ่งเหล่านั้น การลงทุนใน generative AI คงต้องมหาศาล แต่ต่างจากข้อความหรือภาพ ผมไม่เห็นว่ามันจะคุ้มทางเศรษฐกิจ
- ผิดหวังมากขึ้นเพราะตัวอย่างเพลงไม่มี ท่อนเปลี่ยนผ่าน เพลงส่วนใหญ่มีการเปลี่ยนคีย์หรือการเปลี่ยนผ่านด้วยเพอร์คัสชัน
- ดรัมโซโลแสดงให้เห็นชัดว่าโมเดลนี้พลาดแก่นของดรัมโซโลไปมากแค่ไหน ถึงผมจะไม่ใช่มือกลอง แต่ฟังแล้วไม่เพลิดเพลินเลย
  ฟังเหมือนคนตีกรองมั่ว ๆ ให้พอเข้าจังหวะโดยประมาณ
  แต่พวกเพลงแนวเพลงในลิฟต์อะไรทำนองนั้นกลับทำได้พอใช้ ซึ่งก็ตรงกับที่คาดไว้
น่าสนใจที่เปิดเผยโค้ดและคู่มือที่เป็นมิตรสำหรับการฝึก แต่ไม่เปิดเผยโมเดล
เหมือนแทบจะอ้อนวอนให้คนนิรนามเอา data loader ไปเชื่อมกับบัญชี Apple Music แล้วปล่อยให้มันรันเต็มที่ แน่นอนว่าไม่ได้มีใครเสนอให้ทำแบบนั้น
- เดาว่าเงื่อนไขที่ AudioSparx มอบ ไลบรารีเสียงสต็อก ที่มีไลเซนส์ให้ใช้ฝึก อาจมีข้อกำหนดห้ามแจกจ่ายโมเดลผลลัพธ์ต่อ
ตอนแรกแอบคาดหวังกับไอเดียการสร้างเอฟเฟกต์เสียงอยู่ชั่วครู่ แต่ “เสียงฝีเท้า” นั่นแย่จนแทบไม่น่าเชื่อ
- ผมลองสร้างเพลงที่ stableaudio.com แล้ว ใช่เลย แย่จริง ๆ แต่ความเร็วในการพัฒนาโมเดลแบบนี้เร็วมากอยู่แล้ว ถ้าภายใน 1–2 ปีมันดีขึ้นจนน่าทึ่ง ผมก็คงไม่แปลกใจ
ถูกต้องไหมที่ไม่มี weight แบบเปิดเผย? หาข้อความที่บอกชัดว่าเป็นฝั่งไหนได้ยาก
แก้ไข: อ้อ ไม่รู้เลยว่าคอมเมนต์นี้จะเป็นประเด็นขนาดนั้น ก่อนกดโหวตลบ ถ้ามีคนตอบคำถามให้ก็คงดี แต่ก็ไม่เป็นไร
- ใช่ ไม่มี เปิดเผยโค้ดสำหรับการฝึก การอนุมาน และการ fine-tune แต่ไม่ได้เปิดเผย ชุดข้อมูลหรือ weight
  อ้างอิง: https://github.com/Stability-AI/stable-audio-tools
“สำหรับพรอมป์ต์เอฟเฟกต์เสียง เรามักเติม ‘high-quality, stereo’ ต่อท้าย เพราะโดยทั่วไปช่วยได้”
ตลกดีที่ค้นพบว่า ถ้า พูดอย่างสุภาพ กับ LLM ให้ทำผลลัพธ์ให้ดีขึ้น เอาต์พุตก็จะดีขึ้น
- บางครั้งเราอาจอยากได้เสียงเหมือนเทปคาสเซ็ตเก่า ๆ หรือเสียงจากแผ่นเสียง 78rpm ที่เก่ากว่านั้นและมีรอยขีดข่วน
  คอมพิวเตอร์ก็เป็นแบบนั้นเสมอ มันทำตาม สิ่งที่เราขอ ไม่ใช่สิ่งที่เราตั้งใจ

เดโม Stable Audio

เดโม Stable Audio และตัวอย่างการสร้าง

การเปรียบเทียบโมเดลและการสร้างซ้ำด้วยออโตเอนโค้ดเดอร์

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News