1 คะแนน โดย GN⁺ 2024-02-14 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

คำแนะนำ

  • เว็บไซต์นี้อาจทำงานได้ไม่สมบูรณ์บน Safari และแนะนำให้ใช้ Google Chrome เพื่อประสบการณ์ที่ดีที่สุด

การสร้างเสียงที่เสถียร

  • โมเดลสามารถสร้างเพลงสเตอริโอ 44.1kHz ได้ในหลากหลายความยาว โดยมีตัวอย่างเช่น Berlin techno, rave, drum machine, synthesizer และดนตรีบรรยากาศมืดหม่น
  • แตกต่างจากโมเดลล้ำสมัยก่อนหน้านี้ โมเดลนี้ยังสามารถสร้างเอฟเฟกต์เสียงสเตอริโอ 44.1kHz ได้ด้วย โดยมีตัวอย่างเช่น เสียงประตูปิด เสียงรถสปอร์ตหรือมอเตอร์ไซค์วิ่งผ่าน เสียงดอกไม้ไฟ และเสียงฝีเท้าภายในถ้ำ
  • ตัวอย่างทั้งหมดในเว็บไซต์นี้สร้างขึ้นด้วยโมเดลเดียวกันที่สามารถสร้างทั้งเพลงและเอฟเฟกต์เสียงเป็นสเตอริโอ 44.1kHz

การสร้างเพลงสเตอริโอระยะยาว: เปรียบเทียบกับเทคโนโลยีล้ำสมัยล่าสุด

  • สามารถประเมินคุณภาพเสียงได้ผ่านการเปรียบเทียบระหว่างโมเดลที่สร้างดนตรีผสานเสียงแมนโดลิน เสียงผิวปาก กีตาร์ และฟลูต กับโมเดลอื่น ๆ
  • การสร้างเพลงเชิงพาณิชย์ที่ผสานเมโลดี้เปียโน สแนร์โรล แพตเทิร์นคิก ไฮแฮต เสียงปรบมือ และเมโลดี้ซินธ์ลีด ก็เป็นอีกหนึ่งหัวข้อที่ใช้เปรียบเทียบ

เอฟเฟกต์เสียง: เปรียบเทียบกับเทคโนโลยีล้ำสมัยล่าสุด

  • สามารถประเมินคุณภาพเสียงได้ผ่านการเปรียบเทียบระหว่างโมเดลที่สร้างเสียงคลิกของเครื่องยนต์ เสียงหมุนด้วยความเร็วสูง และเสียงนกร้องแหลมดัง กับโมเดลอื่น ๆ
  • พรอมป์ต์ที่เลือกไม่ได้ต้องการการเคลื่อนไหวแบบสเตอริโอมากนัก จึงแสดงผลลัพธ์การเรนเดอร์ที่ค่อนข้างไม่เน้นมิติพื้นที่

ออโตเอนโค้ดเดอร์: การสร้างกลับ

  • เพื่อประเมินความสามารถด้านความเที่ยงตรงของเสียง จึงเปรียบเทียบระหว่างการบันทึกต้นฉบับกับการบันทึกที่ผ่านออโตเอนโค้ดเดอร์
  • การสร้างกลับด้วยออโตเอนโค้ดเดอร์มีความใกล้เคียงกับต้นฉบับอย่างมาก และแทบจะแยกไม่ออก

ความคิดเห็นของ GN⁺

  • เทคโนโลยีนี้ถือเป็นความก้าวหน้าสำคัญในด้านการสร้างดนตรีและเอฟเฟกต์เสียง โดยเฉพาะความสามารถในการสร้างเสียงสเตอริโอคุณภาพสูงที่โดดเด่น
  • การเปรียบเทียบกับโมเดลล้ำสมัยล่าสุดช่วยให้ประเมินคุณภาพเสียงที่เหนือกว่าของโมเดลนี้ได้อย่างเป็นกลาง จึงคาดว่าจะเป็นเครื่องมือที่มีประโยชน์สำหรับผู้สร้างคอนเทนต์เสียง
  • การเปรียบเทียบการสร้างกลับผ่านออโตเอนโค้ดเดอร์แสดงให้เห็นว่าเทคโนโลยีนี้สามารถกู้คืนเสียงต้นฉบับได้อย่างแม่นยำมาก ซึ่งชี้ให้เห็นถึงศักยภาพในการใช้งานด้านที่ไวต่อคุณภาพเสียง

1 ความคิดเห็น

 
GN⁺ 2024-02-14
ความคิดเห็นจาก Hacker News
  • Ed Newton-Rex ลาออกไม่นานหลังการเปิดตัว Stable Audio เนื่องจากความกังวลเรื่องลิขสิทธิ์และข้อมูลฝึก

    เว็บไซต์อาจทำงานได้ไม่ถูกต้องบน Safari เพื่อประสบการณ์ที่ดีที่สุด แนะนำให้ใช้ Google Chrome

  • สถานการณ์แบบยุค 90 และ Internet Explorer กำลังเกิดขึ้นซ้ำอีกครั้ง แต่ครั้งนี้มีด้านบวกตรงที่เบราว์เซอร์เจ้าตลาดเป็นโอเพนซอร์ส

    • มีการขอให้ใครสักคนทำปุ่ม GIF แบบแอนิเมชันที่บอกว่าทางที่ดีที่สุดคือดูบน Chrome เท่านั้น
  • เช่นเดียวกับ Stable Diffusion ข้อความพรอมป์ตน่าจะเป็นวิธีที่ควบคุมได้ยากที่สุดในการให้ได้ผลลัพธ์ที่มีประโยชน์

    • คาดว่าน่าจะสามารถได้ neural network synthesizer โดยใช้ MIDI เป็นอินพุต
  • Stable Audio ยอดเยี่ยมมากเมื่อเทียบกับโมเดลดนตรีระดับ SOTA ในปัจจุบันอย่าง MusicGen และ MusicLM

    • สามารถสมัครใช้งานได้ที่หน้าผลิตภัณฑ์ Stable Audio แต่ยังไม่มี API ให้ผู้พัฒนานำไปผสานรวมหรือใช้งาน
  • ยังจำเป็นต้องมีขั้นตอนที่ AI เรียนรู้จากคลังเสียงคุณภาพสูง และใช้ MIDI เพื่อทริกเกอร์เสียงจากคลังนั้น

    • วิธีนี้น่าจะทำให้คุณภาพเสียงสมบูรณ์แบบ ขณะเดียวกันก็ยังคงความสร้างสรรค์ของ AI ด้านดนตรีไว้ได้
  • ในฐานะมือกลอง คำว่า 'กลองโซโล' ฟังดูน่าเบื่อ มีเสียงแปลก ๆ ปนอยู่ และยังไม่ใช่เอฟเฟกต์เสียงที่เหมือนจริง

    • แต่ความก้าวหน้าที่ทำได้ก็มหาศาลและน่าประทับใจมาก
  • มีการเปิดเผยโค้ดและคำสั่งการฝึก แต่ไม่ได้เปิดเผยตัวโมเดล

    • ในทางปฏิบัติ มันแทบไม่ต่างจากการชักชวนให้ผู้ใช้ที่ไม่ระบุตัวตนเอา data loader ไปต่อกับบัญชี Apple Music เพื่อทดลอง
  • เป็นเรื่องน่าสนใจที่พบว่าการเพิ่มพรอมป์ตคำว่า 'คุณภาพสูง, สเตอริโอ' มักช่วยได้โดยทั่วไป

    • น่าสนใจที่ใน LLM เราสามารถได้ผลลัพธ์ที่ดีกว่าเพียงแค่ขอให้ดีขึ้น
  • ไอเดียเรื่องการสร้างซาวด์เอฟเฟกต์ดูน่าสนใจอยู่พักหนึ่ง แต่ 'เสียงฝีเท้า' แย่มาก

  • ใช้พรอมป์ต 'ดนตรีที่เปี่ยมพลัง, ไวโอลิน, โวคัล, ออร์เคสตรา, เปียโน, มินิมัลลิสม์, John Adams, Nixon in China' เพื่อสร้างดนตรีที่มีเอกลักษณ์และน่าสนใจมากได้