เดโม Stable Audio
(stability-ai.github.io)- เดโม Stable Audio แสดงผ่านตัวอย่างเสียงว่าโมเดลเดียวสามารถสร้างได้ทั้งเพลงความยาวมากและซาวด์เอฟเฟกต์ในรูปแบบ สเตอริโอ 44.1kHz
- การสร้างเพลงมุ่งเน้นการสร้าง แนวเพลงและอารมณ์ที่แตกต่างกันด้วยพรอมป์เพียงอย่างเดียว เช่น Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo
- ซาวด์เอฟเฟกต์ครอบคลุม door slam, sports car, motorbike, fireworks, cave footsteps เป็นต้น และมีการใช้วลีอย่าง “high-quality, stereo” ร่วมในพรอมป์ด้วย
- ตัวอย่างเปรียบเทียบจัดให้ฟังผลลัพธ์จาก MusicGen-large, MusicGen-stereo, AudioLDM2, Audiogen-medium เทียบกัน โดยอิงพรอมป์จาก MusicCaps และ AudioCaps
- ตัวอย่างการสร้างซ้ำด้วยออโตเอนโค้ดเดอร์ช่วยให้ตรวจสอบ ความเที่ยงตรงของเสียง ได้โดยเปรียบเทียบไฟล์บันทึกต้นฉบับกับผลลัพธ์หลังผ่านกระบวนการ
เดโม Stable Audio และตัวอย่างการสร้าง
- เว็บไซต์เดโมอาจทำงานไม่ถูกต้องบน Safari จึงแนะนำให้ใช้ Google Chrome เพื่อประสบการณ์ที่ดีที่สุด
- มีเอกสารและทรัพยากรที่เกี่ยวข้อง ได้แก่
arXiv,stable-audio-tools,stable-audio-metricsarXiv: งานวิจัย Stable Audiostable-audio-tools: โค้ดสำหรับทำซ้ำ Stable Audiostable-audio-metrics: โค้ดสำหรับประเมิน Stable Audio
- โมเดลสามารถสร้าง เพลงสเตอริโอความยาวมากแบบความยาวแปรผันได้ ที่ 44.1kHz
- พรอมป์ตัวอย่างมี Berlin techno, uplifting acoustic loop, disco, calm meditation music, drum solo
- พรอมป์บางส่วนระบุทั้ง BPM, เครื่องดนตรี, อารมณ์, สไตล์ตามภูมิภาค และการเป็น loop
- โมเดลเดียวกันยังสร้าง ซาวด์เอฟเฟกต์สเตอริโอ ที่ 44.1kHz ได้ด้วย
- พรอมป์ตัวอย่างมี door slam, sports car passing by, motorbike passing by, fireworks, reverberant footsteps inside a large rocky cave
- สำหรับพรอมป์ซาวด์เอฟเฟกต์ มีการเติม “high-quality, stereo” และระบุว่าวิธีนี้โดยทั่วไปช่วยให้ผลลัพธ์ดีขึ้น
การเปรียบเทียบโมเดลและการสร้างซ้ำด้วยออโตเอนโค้ดเดอร์
- การเปรียบเทียบเพลงความยาวมากจัดทำโดยอิง พรอมป์ MusicCaps
- Stable Audio: stereo, 44.1kHz
- MusicGen-large: mono, 32kHz
- MusicGen-stereo: stereo, 32kHz
- AudioLDM2: mono, 48kHz
- พรอมป์และเสียงที่ใช้ในการเปรียบเทียบเป็นสิ่งที่ใช้ในการศึกษาเชิงคุณภาพที่รายงานไว้ในงานวิจัย
- การเปรียบเทียบซาวด์เอฟเฟกต์ใช้ พรอมป์ AudioCaps
- Stable Audio: stereo, 44.1kHz
- Audiogen-medium: mono, 32kHz
- AudioLDM2: mono, 48kHz
- พรอมป์ AudioCaps ที่เลือกแบบสุ่มไม่ได้ต้องการการเคลื่อนไหวแบบสเตอริโอที่เด่นชัด ทำให้ผลลัพธ์ถูกเรนเดอร์แบบมีมิติเชิงพื้นที่ค่อนข้างน้อย
- ส่วนออโตเอนโค้ดเดอร์ (Autoencoder) มีการเปรียบเทียบการสร้างซ้ำเพื่อประเมิน ความเที่ยงตรงของเสียง
- ด้านซ้ายวางไฟล์บันทึก ground truth ส่วนด้านขวาวางผลลัพธ์หลังนำไฟล์บันทึก ground truth ผ่านออโตเอนโค้ดเดอร์
- ผลลัพธ์การสร้างซ้ำมีความโปร่งใสค่อนข้างมากและใกล้เคียงกับ ground truth มาก
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
ที่น่าสนใจคือ Ed Newton-Rex ซึ่งถูกจ้างมาเพื่อสร้าง Stable Audio ลาออกไม่นานหลังเปิดตัว เพราะกังวลเรื่องลิขสิทธิ์และข้อมูลฝึกสอน
หลังจากนั้นเขาก่อตั้ง https://www.fairlytrained.org/
อ้างอิง: https://x.com/ednewtonrex
แม้แต่ผู้ถือสิทธิ์ที่มีรายการในไลบรารีหลายสิบล้านถึงหลายร้อยล้านรายการ เช่น ชิ้นส่วนภาพหรือเสียง แต่เพียงโทเค็นข้อความต่ำกว่าหนึ่งพันล้านจากคลังขนาดใหญ่ ก็ทำให้ประสิทธิภาพของ encoder สำหรับโมเดลสร้างสื่อปลายทางจากข้อความต่ำเกินไป Adobe Firefly ก็เข้าข่ายนี้ด้วย
การมีข้อมูลคล้าย ๆ กันจำนวนมากในไลบรารีแบบนี้มีประโยชน์เป็นพิเศษ ก็เป็นความเข้าใจผิดเช่นกัน หากไม่มี text encoder ที่แข็งแรง โมเดลแปลงข้อความเป็นสื่อปลายทางส่วนใหญ่จะสร้างผลลัพธ์ที่ดูหรือฟังออกมากลาง ๆ มาก
วิธีคลายข้อสงสัยที่ง่ายที่สุดคือเปิดเผยโครงสร้างโมเดล
อย่างไรก็ดี ต่อให้ทั้งหมดนั้นเป็นความจริง เหตุผลที่เราพูดถึงโมเดล diffusion และให้ความสนใจกับงานอย่าง Fairly Trained ก็เพราะมีคนฝึกโมเดลด้วย ข้อมูลที่ไม่มีไลเซนส์ชัดเจน นั่นเอง
แม้จะเป็นตำแหน่งสำคัญ แต่ถ้าพูดว่า “คนที่ถูกจ้างมาเพื่อสร้าง” ก็ทำให้นึกถึงหัวหน้านักพัฒนาหรือนักวิจัยมากกว่า
เมื่อดูว่าเขาเป็นผู้ก่อตั้งที่มีพื้นฐานด้านดนตรี การลาออกของเขาก็เข้าใจได้มากขึ้น
หรือไม่แน่ว่านั่นอาจเป็นกระบวนการที่จำเป็นต่อโมเดลธุรกิจด้านการรับรองของเขาเองก็ได้
ผมมองว่าไม่ต่างจากศิลปินที่สร้างเพลงโดยได้รับอิทธิพลจากเพลงที่ฟังมาตลอดชีวิต โดยพื้นฐานแล้วมันคือเรื่องเดียวกันเป๊ะ และดนตรีหรือศิลปะไม่สามารถสร้างขึ้นในสุญญากาศได้
Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.รู้สึกเหมือนวนกลับไปยุค Internet Explorer ในทศวรรษ 90 อีกครั้ง ครั้งนี้ต่างออกไปนิดหน่อยตรงที่เบราว์เซอร์เจ้าตลาดเป็นโอเพนซอร์ส
อยากให้ใครสักคนทำ ปุ่ม GIF เคลื่อนไหว สำหรับ Chrome ที่เขียนว่า “Best viewed with Google Chrome” ให้หน่อย
ดูปุ่ม: https://indiscipline.github.io/post/best-viewed-in-google-ch...
เช่นเดียวกับ Stable Diffusion ในโมเดลนี้ text prompt ก็น่าจะเป็น วิธีที่ควบคุมได้ยากที่สุด ในบรรดาวิธีที่จะได้ผลลัพธ์ที่มีประโยชน์
นึกภาพได้ไม่ยากเลยว่าการใช้ MIDI เป็นอินพุตร่วมกับ ControlNet จะทำให้มันกลายเป็น neural synthesizer โดยพฤตินัย
แทนที่จะทำแบบนั้น ควรโฟกัสกับการใช้ AI เพื่อช่วยกระบวนการของศิลปินในหลายขั้นตอนของการผลิตเพลงจะดีกว่า
เมื่อเทียบกับโมเดลเพลงล่าสุดอย่าง MusicGen, MusicLM ตัวนี้ดีมากอย่างเหลือเชื่อ ดูเหมือนจะมีหน้าผลิตภัณฑ์ที่สมัครสมาชิกใช้งานได้แบบ Midjourney ด้วย: https://www.stableaudio.com/
น่าเสียดายที่ไม่ใช่ โมเดลเปิดเผย weights และดูเหมือนไม่มี API ด้วย เป็นการสร้างเสียงผ่าน UI แบบสมัครสมาชิกรายเดือน ไม่ใช่รูปแบบที่นักพัฒนาจะนำไปผสานรวมหรือห่อใช้งานต่อได้
สงสัยว่าทำไมถึงไม่รวมไว้ในเงื่อนไข “ผลิตภัณฑ์เชิงพาณิชย์ที่มีผู้ใช้งานรายเดือนต่ำกว่า 100,000 คน” ไปเลย แต่แยกเป็นเงื่อนไขต่างหาก
ความเร็วในการพัฒนาโมเดลสูงมาก ปีนี้น่าจะเป็นปีที่ค่อนข้างใหญ่สำหรับฝั่งดนตรี
ผมมองว่ายังต้องมีขั้นตอนที่ AI เรียนรู้ก่อนว่า ไลบรารีเสียงคุณภาพสูง นั้นฟังเป็นอย่างไร แล้วจึงนำความสามารถที่เรียนรู้นั้นไปใช้กับ MIDI เพื่อทริกเกอร์เสียงจากไลบรารีนั้น
ถ้าทำแบบนั้นได้ ก็จะได้ทั้งความสร้างสรรค์ของ AI ด้านดนตรีและคุณภาพเสียงที่สมบูรณ์แบบไปพร้อมกัน
ไม่รู้ว่าจะใช้ชุดข้อมูลหรือโครงสร้างแบบไหนกับเรื่องแบบนั้นได้ แต่คงน่าสนใจจริง ๆ
ไม่ได้ตั้งใจจะลดคุณค่าความก้าวหน้าตรงนี้ และมันก็น่าประทับใจจริง ๆ
ในมุมของมือกลอง ‘ดรัมโซโล’ จัดอยู่ในกลุ่มที่น่าเบื่อที่สุด และมีเสียงแปลก ๆ ปนอยู่ สุดท้ายคงขึ้นอยู่กับกลุ่มผู้ฟังที่ตั้งใจไว้
อนึ่ง ณ ตอนนี้ เอฟเฟกต์เสียงก็ยังฟังดูไม่ สมจริง สำหรับหูผม
ถึงอย่างนั้นความก้าวหน้าก็มาก และทำได้ดีแล้ว
เพราะลักษณะที่เหมือนสุ่มแต่ก็ไม่สุ่มไปทั้งหมด ทำให้เกิดแพตเทิร์นจังหวะที่ค่อนข้างไม่เป็นแบบแผน ถ้าใส่ซิงโคเปชันแบบนี้สด ๆ ได้ก็คงดี
แต่อย่าขอให้ถอดออกมาเป็นโน้ตเพลง
ความสม่ำเสมอของเทมโปยอดเยี่ยมมาก เพียงแต่เสียงรบกวนที่ไม่จำเป็นและหางเสียงฉาบแบบสุ่ม ๆ แสดงให้เห็นข้อจำกัดของโมเดล
ตอนนี้มีแทร็กเพลงไลบรารีและเอฟเฟกต์เสียงอยู่เป็นล้าน ๆ รายการที่ฟังดีกว่านี้มากอยู่แล้ว ถ้าจะไปแข่งกับสิ่งเหล่านั้น การลงทุนใน generative AI คงต้องมหาศาล แต่ต่างจากข้อความหรือภาพ ผมไม่เห็นว่ามันจะคุ้มทางเศรษฐกิจ
ฟังเหมือนคนตีกรองมั่ว ๆ ให้พอเข้าจังหวะโดยประมาณ
แต่พวกเพลงแนวเพลงในลิฟต์อะไรทำนองนั้นกลับทำได้พอใช้ ซึ่งก็ตรงกับที่คาดไว้
น่าสนใจที่เปิดเผยโค้ดและคู่มือที่เป็นมิตรสำหรับการฝึก แต่ไม่เปิดเผยโมเดล
เหมือนแทบจะอ้อนวอนให้คนนิรนามเอา data loader ไปเชื่อมกับบัญชี Apple Music แล้วปล่อยให้มันรันเต็มที่ แน่นอนว่าไม่ได้มีใครเสนอให้ทำแบบนั้น
ตอนแรกแอบคาดหวังกับไอเดียการสร้างเอฟเฟกต์เสียงอยู่ชั่วครู่ แต่ “เสียงฝีเท้า” นั่นแย่จนแทบไม่น่าเชื่อ
ถูกต้องไหมที่ไม่มี weight แบบเปิดเผย? หาข้อความที่บอกชัดว่าเป็นฝั่งไหนได้ยาก
แก้ไข: อ้อ ไม่รู้เลยว่าคอมเมนต์นี้จะเป็นประเด็นขนาดนั้น ก่อนกดโหวตลบ ถ้ามีคนตอบคำถามให้ก็คงดี แต่ก็ไม่เป็นไร
อ้างอิง: https://github.com/Stability-AI/stable-audio-tools
“สำหรับพรอมป์ต์เอฟเฟกต์เสียง เรามักเติม ‘high-quality, stereo’ ต่อท้าย เพราะโดยทั่วไปช่วยได้”
ตลกดีที่ค้นพบว่า ถ้า พูดอย่างสุภาพ กับ LLM ให้ทำผลลัพธ์ให้ดีขึ้น เอาต์พุตก็จะดีขึ้น
คอมพิวเตอร์ก็เป็นแบบนั้นเสมอ มันทำตาม สิ่งที่เราขอ ไม่ใช่สิ่งที่เราตั้งใจ