1 คะแนน โดย GN⁺ 2024-02-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เดโม Stable Audio แสดงผ่านตัวอย่างเสียงว่าโมเดลเดียวสามารถสร้างได้ทั้งเพลงความยาวมากและซาวด์เอฟเฟกต์ในรูปแบบ สเตอริโอ 44.1kHz
  • การสร้างเพลงมุ่งเน้นการสร้าง แนวเพลงและอารมณ์ที่แตกต่างกันด้วยพรอมป์เพียงอย่างเดียว เช่น Berlin techno, uplifting acoustic loop, disco, spa lobby meditation, drum solo
  • ซาวด์เอฟเฟกต์ครอบคลุม door slam, sports car, motorbike, fireworks, cave footsteps เป็นต้น และมีการใช้วลีอย่าง “high-quality, stereo” ร่วมในพรอมป์ด้วย
  • ตัวอย่างเปรียบเทียบจัดให้ฟังผลลัพธ์จาก MusicGen-large, MusicGen-stereo, AudioLDM2, Audiogen-medium เทียบกัน โดยอิงพรอมป์จาก MusicCaps และ AudioCaps
  • ตัวอย่างการสร้างซ้ำด้วยออโตเอนโค้ดเดอร์ช่วยให้ตรวจสอบ ความเที่ยงตรงของเสียง ได้โดยเปรียบเทียบไฟล์บันทึกต้นฉบับกับผลลัพธ์หลังผ่านกระบวนการ

เดโม Stable Audio และตัวอย่างการสร้าง

  • เว็บไซต์เดโมอาจทำงานไม่ถูกต้องบน Safari จึงแนะนำให้ใช้ Google Chrome เพื่อประสบการณ์ที่ดีที่สุด
  • มีเอกสารและทรัพยากรที่เกี่ยวข้อง ได้แก่ arXiv, stable-audio-tools, stable-audio-metrics
    • arXiv: งานวิจัย Stable Audio
    • stable-audio-tools: โค้ดสำหรับทำซ้ำ Stable Audio
    • stable-audio-metrics: โค้ดสำหรับประเมิน Stable Audio
  • โมเดลสามารถสร้าง เพลงสเตอริโอความยาวมากแบบความยาวแปรผันได้ ที่ 44.1kHz
    • พรอมป์ตัวอย่างมี Berlin techno, uplifting acoustic loop, disco, calm meditation music, drum solo
    • พรอมป์บางส่วนระบุทั้ง BPM, เครื่องดนตรี, อารมณ์, สไตล์ตามภูมิภาค และการเป็น loop
  • โมเดลเดียวกันยังสร้าง ซาวด์เอฟเฟกต์สเตอริโอ ที่ 44.1kHz ได้ด้วย
    • พรอมป์ตัวอย่างมี door slam, sports car passing by, motorbike passing by, fireworks, reverberant footsteps inside a large rocky cave
    • สำหรับพรอมป์ซาวด์เอฟเฟกต์ มีการเติม “high-quality, stereo” และระบุว่าวิธีนี้โดยทั่วไปช่วยให้ผลลัพธ์ดีขึ้น

การเปรียบเทียบโมเดลและการสร้างซ้ำด้วยออโตเอนโค้ดเดอร์

  • การเปรียบเทียบเพลงความยาวมากจัดทำโดยอิง พรอมป์ MusicCaps
    • Stable Audio: stereo, 44.1kHz
    • MusicGen-large: mono, 32kHz
    • MusicGen-stereo: stereo, 32kHz
    • AudioLDM2: mono, 48kHz
    • พรอมป์และเสียงที่ใช้ในการเปรียบเทียบเป็นสิ่งที่ใช้ในการศึกษาเชิงคุณภาพที่รายงานไว้ในงานวิจัย
  • การเปรียบเทียบซาวด์เอฟเฟกต์ใช้ พรอมป์ AudioCaps
    • Stable Audio: stereo, 44.1kHz
    • Audiogen-medium: mono, 32kHz
    • AudioLDM2: mono, 48kHz
    • พรอมป์ AudioCaps ที่เลือกแบบสุ่มไม่ได้ต้องการการเคลื่อนไหวแบบสเตอริโอที่เด่นชัด ทำให้ผลลัพธ์ถูกเรนเดอร์แบบมีมิติเชิงพื้นที่ค่อนข้างน้อย
  • ส่วนออโตเอนโค้ดเดอร์ (Autoencoder) มีการเปรียบเทียบการสร้างซ้ำเพื่อประเมิน ความเที่ยงตรงของเสียง
    • ด้านซ้ายวางไฟล์บันทึก ground truth ส่วนด้านขวาวางผลลัพธ์หลังนำไฟล์บันทึก ground truth ผ่านออโตเอนโค้ดเดอร์
    • ผลลัพธ์การสร้างซ้ำมีความโปร่งใสค่อนข้างมากและใกล้เคียงกับ ground truth มาก

1 ความคิดเห็น

 
GN⁺ 2024-02-14
ความคิดเห็นบน Hacker News
  • ที่น่าสนใจคือ Ed Newton-Rex ซึ่งถูกจ้างมาเพื่อสร้าง Stable Audio ลาออกไม่นานหลังเปิดตัว เพราะกังวลเรื่องลิขสิทธิ์และข้อมูลฝึกสอน
    หลังจากนั้นเขาก่อตั้ง https://www.fairlytrained.org/
    อ้างอิง: https://x.com/ednewtonrex

    • ในโมเดลเชิงสร้างสรรค์ ถ้าผู้สร้างไม่เปิดเผย โครงสร้างโมเดล และเป็นโมเดลที่แปลงข้อความไปเป็นสื่อประเภทอื่น ก็พอจะมองได้ว่าโมเดลนั้นมอบหมายงานบางส่วนให้ text encoder หรือฟังก์ชันใกล้เคียงที่ฝึกด้วยข้อมูลซึ่งไม่มีไลเซนส์ชัดเจน
      แม้แต่ผู้ถือสิทธิ์ที่มีรายการในไลบรารีหลายสิบล้านถึงหลายร้อยล้านรายการ เช่น ชิ้นส่วนภาพหรือเสียง แต่เพียงโทเค็นข้อความต่ำกว่าหนึ่งพันล้านจากคลังขนาดใหญ่ ก็ทำให้ประสิทธิภาพของ encoder สำหรับโมเดลสร้างสื่อปลายทางจากข้อความต่ำเกินไป Adobe Firefly ก็เข้าข่ายนี้ด้วย
      การมีข้อมูลคล้าย ๆ กันจำนวนมากในไลบรารีแบบนี้มีประโยชน์เป็นพิเศษ ก็เป็นความเข้าใจผิดเช่นกัน หากไม่มี text encoder ที่แข็งแรง โมเดลแปลงข้อความเป็นสื่อปลายทางส่วนใหญ่จะสร้างผลลัพธ์ที่ดูหรือฟังออกมากลาง ๆ มาก
      วิธีคลายข้อสงสัยที่ง่ายที่สุดคือเปิดเผยโครงสร้างโมเดล
      อย่างไรก็ดี ต่อให้ทั้งหมดนั้นเป็นความจริง เหตุผลที่เราพูดถึงโมเดล diffusion และให้ความสนใจกับงานอย่าง Fairly Trained ก็เพราะมีคนฝึกโมเดลด้วย ข้อมูลที่ไม่มีไลเซนส์ชัดเจน นั่นเอง
    • การเรียกเขาว่า “คนที่ถูกจ้างมาเพื่อสร้าง Stable Audio” ออกจะชวนให้เข้าใจผิดอยู่บ้าง เขาอยู่ใน ตำแหน่งผู้บริหาร คือ VP ฝ่ายผลิตภัณฑ์ของกลุ่มเสียงที่ Stability
      แม้จะเป็นตำแหน่งสำคัญ แต่ถ้าพูดว่า “คนที่ถูกจ้างมาเพื่อสร้าง” ก็ทำให้นึกถึงหัวหน้านักพัฒนาหรือนักวิจัยมากกว่า
      เมื่อดูว่าเขาเป็นผู้ก่อตั้งที่มีพื้นฐานด้านดนตรี การลาออกของเขาก็เข้าใจได้มากขึ้น
    • เป็นการตีความที่น่าสนใจ แต่ตอนที่เขาเข้าร่วม Stability นั้น วิธีฝึกของ Stable Diffusion ก็เป็นที่รู้กันดีอยู่แล้ว จึงเป็นจุดยืนที่ค่อนข้างแปลกเหมือนกัน
    • ต่อให้บริษัทจะทำสิ่งนั้นอยู่ดี ก็น่าจะคิดเรื่องนี้ได้ก่อนเข้าไปทำงานที่บริษัทนั้นหรือเปล่า
      หรือไม่แน่ว่านั่นอาจเป็นกระบวนการที่จำเป็นต่อโมเดลธุรกิจด้านการรับรองของเขาเองก็ได้
    • ควรต้องมีทางออกสำหรับ กำแพงลิขสิทธิ์ ที่บริษัทต่าง ๆ เจอเมื่อฝึกโมเดล
      ผมมองว่าไม่ต่างจากศิลปินที่สร้างเพลงโดยได้รับอิทธิพลจากเพลงที่ฟังมาตลอดชีวิต โดยพื้นฐานแล้วมันคือเรื่องเดียวกันเป๊ะ และดนตรีหรือศิลปะไม่สามารถสร้างขึ้นในสุญญากาศได้
  • Warning: This website may not function properly on Safari. For the best experience, please use Google Chrome.
    รู้สึกเหมือนวนกลับไปยุค Internet Explorer ในทศวรรษ 90 อีกครั้ง ครั้งนี้ต่างออกไปนิดหน่อยตรงที่เบราว์เซอร์เจ้าตลาดเป็นโอเพนซอร์ส
    อยากให้ใครสักคนทำ ปุ่ม GIF เคลื่อนไหว สำหรับ Chrome ที่เขียนว่า “Best viewed with Google Chrome” ให้หน่อย

    • มีอยู่นี่
      ดูปุ่ม: https://indiscipline.github.io/post/best-viewed-in-google-ch...
    • Chrome ไม่ใช่โอเพนซอร์ส Chromium ต่างหากที่เป็นโอเพนซอร์ส ไม่ควรสับสนสองอย่างนี้
    • เว็บไซต์ก็ทำงานได้ดีบน Safari และไม่รู้สึกว่ามีปัญหาอะไรเป็นพิเศษ
  • เช่นเดียวกับ Stable Diffusion ในโมเดลนี้ text prompt ก็น่าจะเป็น วิธีที่ควบคุมได้ยากที่สุด ในบรรดาวิธีที่จะได้ผลลัพธ์ที่มีประโยชน์
    นึกภาพได้ไม่ยากเลยว่าการใช้ MIDI เป็นอินพุตร่วมกับ ControlNet จะทำให้มันกลายเป็น neural synthesizer โดยพฤตินัย

    • ใช่เลย ตั้งแต่ตอนทำโปรเจกต์เมโลดี้ AI เมื่อ 2 ปีก่อน (https://www.melodies.ai/) ผมก็มองว่าการสร้างเพลงสำเร็จรูปคุณภาพสูงด้วยข้อความล้วน ๆ จะยังไม่เป็นไปได้และไม่น่าพึงประสงค์ไปอีกระยะหนึ่ง
      แทนที่จะทำแบบนั้น ควรโฟกัสกับการใช้ AI เพื่อช่วยกระบวนการของศิลปินในหลายขั้นตอนของการผลิตเพลงจะดีกว่า
    • สำหรับดนตรีอาจเป็นแบบนั้น แต่สำหรับ เอฟเฟกต์เสียง ผมคิดว่า text prompt เป็นอินเทอร์เฟซผู้ใช้ที่ค่อนข้างดี
    • วิธีที่น่าจะเหมาะคือป้อนทั้งไฟล์เสียงที่ฮัมหรือร้องเมโลดี้ไว้ ร่วมกับ text prompt แล้วให้มันปล่อยแทร็กที่คล้ายกับสิ่งนั้นออกมา
    • มันทำงานได้ดีเมื่อไม่ต้องการการควบคุมมากนัก เช่น prompt อย่าง “โซโลฟรีแจ๊สของนักแซกโซโฟนเทเนอร์ ไม่มี time signature”
    • ใน Stable Diffusion มีอินพุตอะไรนอกจาก text prompt? หมายถึงพวก img2img, ControlNet อะไรแบบนั้นหรือ?
  • เมื่อเทียบกับโมเดลเพลงล่าสุดอย่าง MusicGen, MusicLM ตัวนี้ดีมากอย่างเหลือเชื่อ ดูเหมือนจะมีหน้าผลิตภัณฑ์ที่สมัครสมาชิกใช้งานได้แบบ Midjourney ด้วย: https://www.stableaudio.com/
    น่าเสียดายที่ไม่ใช่ โมเดลเปิดเผย weights และดูเหมือนไม่มี API ด้วย เป็นการสร้างเสียงผ่าน UI แบบสมัครสมาชิกรายเดือน ไม่ใช่รูปแบบที่นักพัฒนาจะนำไปผสานรวมหรือห่อใช้งานต่อได้

    • ผมอยากสร้างเอฟเฟกต์เสียงสำหรับเกมที่กำลังทำอยู่ แต่ดูแล้วเหมือนต้องใช้ ไลเซนส์ระดับองค์กร (https://www.stableaudio.com/pricing)
      สงสัยว่าทำไมถึงไม่รวมไว้ในเงื่อนไข “ผลิตภัณฑ์เชิงพาณิชย์ที่มีผู้ใช้งานรายเดือนต่ำกว่า 100,000 คน” ไปเลย แต่แยกเป็นเงื่อนไขต่างหาก
    • เขาว่าจะมี เวอร์ชันไลเซนส์ CC และ API ออกมาเร็ว ๆ นี้
      ความเร็วในการพัฒนาโมเดลสูงมาก ปีนี้น่าจะเป็นปีที่ค่อนข้างใหญ่สำหรับฝั่งดนตรี
    • โชคดีที่ฝึกที่บ้านได้เหมือนกัน คำถามที่ใหญ่กว่าคือ ข้อมูล
  • ผมมองว่ายังต้องมีขั้นตอนที่ AI เรียนรู้ก่อนว่า ไลบรารีเสียงคุณภาพสูง นั้นฟังเป็นอย่างไร แล้วจึงนำความสามารถที่เรียนรู้นั้นไปใช้กับ MIDI เพื่อทริกเกอร์เสียงจากไลบรารีนั้น
    ถ้าทำแบบนั้นได้ ก็จะได้ทั้งความสร้างสรรค์ของ AI ด้านดนตรีและคุณภาพเสียงที่สมบูรณ์แบบไปพร้อมกัน

    • ผมก็อยากเห็นอะไรแบบนั้นใน AI สร้างภาพมาโดยตลอดเหมือนกัน แทนที่จะปรับปรุงวนซ้ำแบบมหัศจรรย์จากภาพที่เสร็จแล้ว การได้เห็น AI พยายามวาดภาพด้วยฝีแปรงหรือระบายสีน่าจะเท่และน่าสนใจกว่ามาก
      ไม่รู้ว่าจะใช้ชุดข้อมูลหรือโครงสร้างแบบไหนกับเรื่องแบบนั้นได้ แต่คงน่าสนใจจริง ๆ
    • ถ้าใช้ MIDI จะได้เสียงอย่างกีตาร์ที่เล่นแบบหยาบ ๆ หรือเอคโคละเอียด ๆ ที่เกิดจากการอัดในห้องน้ำได้อย่างไร?
    • นั่นไม่ใช่สิ่งที่ suno.ai ทำอยู่เหรอ?
  • ไม่ได้ตั้งใจจะลดคุณค่าความก้าวหน้าตรงนี้ และมันก็น่าประทับใจจริง ๆ
    ในมุมของมือกลอง ‘ดรัมโซโล’ จัดอยู่ในกลุ่มที่น่าเบื่อที่สุด และมีเสียงแปลก ๆ ปนอยู่ สุดท้ายคงขึ้นอยู่กับกลุ่มผู้ฟังที่ตั้งใจไว้
    อนึ่ง ณ ตอนนี้ เอฟเฟกต์เสียงก็ยังฟังดูไม่ สมจริง สำหรับหูผม
    ถึงอย่างนั้นความก้าวหน้าก็มาก และทำได้ดีแล้ว

    • ในมุมของมือกลอง ถ้าคิดว่ามันเกิดขึ้นบนจังหวะ 4/4 ที่มั่นคง ‘ดรัมโซโล’ นั้นกลับฟังน่าสนใจอย่างคาดไม่ถึง
      เพราะลักษณะที่เหมือนสุ่มแต่ก็ไม่สุ่มไปทั้งหมด ทำให้เกิดแพตเทิร์นจังหวะที่ค่อนข้างไม่เป็นแบบแผน ถ้าใส่ซิงโคเปชันแบบนี้สด ๆ ได้ก็คงดี
      แต่อย่าขอให้ถอดออกมาเป็นโน้ตเพลง
      ความสม่ำเสมอของเทมโปยอดเยี่ยมมาก เพียงแต่เสียงรบกวนที่ไม่จำเป็นและหางเสียงฉาบแบบสุ่ม ๆ แสดงให้เห็นข้อจำกัดของโมเดล
    • เป็นความพยายามที่น่าประทับใจ แต่ยังอีกไกลกว่าจะสร้างเพลงหรือเสียงที่ใช้งานได้จริง
      ตอนนี้มีแทร็กเพลงไลบรารีและเอฟเฟกต์เสียงอยู่เป็นล้าน ๆ รายการที่ฟังดีกว่านี้มากอยู่แล้ว ถ้าจะไปแข่งกับสิ่งเหล่านั้น การลงทุนใน generative AI คงต้องมหาศาล แต่ต่างจากข้อความหรือภาพ ผมไม่เห็นว่ามันจะคุ้มทางเศรษฐกิจ
    • ผิดหวังมากขึ้นเพราะตัวอย่างเพลงไม่มี ท่อนเปลี่ยนผ่าน เพลงส่วนใหญ่มีการเปลี่ยนคีย์หรือการเปลี่ยนผ่านด้วยเพอร์คัสชัน
    • ดรัมโซโลแสดงให้เห็นชัดว่าโมเดลนี้พลาดแก่นของดรัมโซโลไปมากแค่ไหน ถึงผมจะไม่ใช่มือกลอง แต่ฟังแล้วไม่เพลิดเพลินเลย
      ฟังเหมือนคนตีกรองมั่ว ๆ ให้พอเข้าจังหวะโดยประมาณ
      แต่พวกเพลงแนวเพลงในลิฟต์อะไรทำนองนั้นกลับทำได้พอใช้ ซึ่งก็ตรงกับที่คาดไว้
  • น่าสนใจที่เปิดเผยโค้ดและคู่มือที่เป็นมิตรสำหรับการฝึก แต่ไม่เปิดเผยโมเดล
    เหมือนแทบจะอ้อนวอนให้คนนิรนามเอา data loader ไปเชื่อมกับบัญชี Apple Music แล้วปล่อยให้มันรันเต็มที่ แน่นอนว่าไม่ได้มีใครเสนอให้ทำแบบนั้น

    • เดาว่าเงื่อนไขที่ AudioSparx มอบ ไลบรารีเสียงสต็อก ที่มีไลเซนส์ให้ใช้ฝึก อาจมีข้อกำหนดห้ามแจกจ่ายโมเดลผลลัพธ์ต่อ
  • ตอนแรกแอบคาดหวังกับไอเดียการสร้างเอฟเฟกต์เสียงอยู่ชั่วครู่ แต่ “เสียงฝีเท้า” นั่นแย่จนแทบไม่น่าเชื่อ

    • ผมลองสร้างเพลงที่ stableaudio.com แล้ว ใช่เลย แย่จริง ๆ แต่ความเร็วในการพัฒนาโมเดลแบบนี้เร็วมากอยู่แล้ว ถ้าภายใน 1–2 ปีมันดีขึ้นจนน่าทึ่ง ผมก็คงไม่แปลกใจ
  • ถูกต้องไหมที่ไม่มี weight แบบเปิดเผย? หาข้อความที่บอกชัดว่าเป็นฝั่งไหนได้ยาก
    แก้ไข: อ้อ ไม่รู้เลยว่าคอมเมนต์นี้จะเป็นประเด็นขนาดนั้น ก่อนกดโหวตลบ ถ้ามีคนตอบคำถามให้ก็คงดี แต่ก็ไม่เป็นไร

    • ใช่ ไม่มี เปิดเผยโค้ดสำหรับการฝึก การอนุมาน และการ fine-tune แต่ไม่ได้เปิดเผย ชุดข้อมูลหรือ weight
      อ้างอิง: https://github.com/Stability-AI/stable-audio-tools
  • “สำหรับพรอมป์ต์เอฟเฟกต์เสียง เรามักเติม ‘high-quality, stereo’ ต่อท้าย เพราะโดยทั่วไปช่วยได้”
    ตลกดีที่ค้นพบว่า ถ้า พูดอย่างสุภาพ กับ LLM ให้ทำผลลัพธ์ให้ดีขึ้น เอาต์พุตก็จะดีขึ้น

    • บางครั้งเราอาจอยากได้เสียงเหมือนเทปคาสเซ็ตเก่า ๆ หรือเสียงจากแผ่นเสียง 78rpm ที่เก่ากว่านั้นและมีรอยขีดข่วน
      คอมพิวเตอร์ก็เป็นแบบนั้นเสมอ มันทำตาม สิ่งที่เราขอ ไม่ใช่สิ่งที่เราตั้งใจ