1 คะแนน โดย GN⁺ 2023-07-18 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • SoundStorm เป็นโมเดลสำหรับการสร้างเสียงที่มีประสิทธิภาพและไม่ใช่แบบออโตรีเกรสซีฟ
  • โมเดลนี้ใช้ bidirectional attention และการถอดรหัสแบบขนานที่อิงตามความเชื่อมั่นเพื่อสร้างโทเค็นเสียง
  • เมื่อเทียบกับแนวทางอื่น ๆ SoundStorm เร็วกว่า 100 เท่า โดยยังคงคุณภาพและความสอดคล้องของเสียงในระดับเดียวกัน
  • บน TPU-v4 SoundStorm สามารถสร้างเสียงความยาว 30 วินาทีได้ภายในเวลาเพียง 0.5 วินาที
  • โมเดลนี้สามารถสังเคราะห์บทสนทนาธรรมชาติคุณภาพสูงได้ โดยควบคุมทั้งเนื้อหาที่พูด เสียงของผู้พูด และการสลับผู้พูด
  • SoundStorm สามารถสร้างเสียงจาก semantic tokens ร่วมกับ voice prompt ได้
  • โมเดลนี้สร้างเสียงคุณภาพสูงพร้อมคงลักษณะเสียงของผู้พูดจาก voice prompt ไว้
  • SoundStorm สร้างเสียงที่มีคุณภาพสูงกว่าเมื่อเทียบกับโมเดลอื่น
  • เนื่องจากโมเดลนี้อาจได้รับอิทธิพลจากอคติในข้อมูลฝึก จึงต้องใช้ความระมัดระวังเพื่อป้องกันการนำไปใช้ในทางที่ผิด
  • SoundStorm สามารถถูกตรวจจับได้ด้วยตัวจำแนกเฉพาะทาง จึงช่วยลดความเสี่ยงจากการใช้งานในทางที่ผิด
  • โมเดลนี้ได้รับการพัฒนาขึ้นเพื่อให้การวิจัยด้านการสร้างเสียงเข้าถึงชุมชนในวงกว้างได้มากขึ้น

1 ความคิดเห็น

 
GN⁺ 2023-07-18
ความคิดเห็นบน Hacker News
  • อุตสาหกรรม CGI ได้พัฒนาไปมากในการสร้างภาพและเสียงที่สมจริง
  • เทคโนโลยีสังเคราะห์บทสนทนาได้มาถึงหมุดหมายที่เครื่องสามารถสร้างเสียงที่แยกไม่ออกจากมนุษย์
  • ในอดีต เทคโนโลยี TTS อาจฟังดูแย่ แต่ตอนนี้มีตัวเลือกคุณภาพสูงแล้ว
  • ผู้เขียนสงสัยว่าเทคโนโลยีนี้จะเข้าถึงได้บนอุปกรณ์อย่าง Raspberry Pi เมื่อใด
  • Bing และ Bard ใช้เทคโนโลยีเสียงขั้นสูง แต่ต้องการให้ความก้าวหน้าเหล่านี้ใช้งานได้ผ่าน API สาธารณะและส่วนติดต่อผู้ใช้
  • งานใหม่ที่เกิดจากความก้าวหน้าทางเทคโนโลยีมักเป็นงานค่าแรงต่ำและงานที่ไม่เป็นที่ยกย่อง
  • SoundStorm ได้รับการฝึกให้สร้างบทสนทนาโดยใช้ทรานสคริปต์ที่แสดงการเปลี่ยนเสียงพูดด้วย |
  • โมเดล Bark ก็สร้างบทสนทนาได้เช่นกัน แต่บางครั้งก็พลาดการเปลี่ยนเสียงพูด
  • ความสามารถในการสร้าง TTS 30 วินาทีจากข้อมูลต้นทางเพียง 3 วินาทีนั้นน่าประทับใจ
  • ตลาดงานอย่าง UpWork และ Fiverr อาจต้องปรับตัวต่อการมีอยู่ของซอฟต์แวร์ที่สามารถให้บริการของตัวเองได้
  • ผู้ใช้ Linux กำลังมองหาเสียง TTS ที่ตั้งค่าได้ง่าย
  • ผู้แสดงความคิดเห็นไม่สนใจเกมที่สร้างโดย AI และชอบบทสนทนา NPC ที่มนุษย์เขียนมากกว่า
  • ตัวอย่างเอาต์พุตของ SoundStorm น่าประทับใจ แต่มีข้อบกพร่องเล็กน้อยบางประการ
  • การใช้เสียงที่สร้างโดย AI ในโฆษณาโดยไม่ได้รับอนุญาตอาจก่อให้เกิดปัญหาทางกฎหมาย
  • มีการให้ลิงก์ GitHub ของคลัง SoundStorm PyTorch ไว้