Bark - โมเดล Text-To-Audio ที่อิงกับทรานส์ฟอร์เมอร์

xguru · 2023-04-24T09:35:19+09:00

สามารถสร้างเสียงพูดหลายภาษาได้อย่างสมจริงมาก รองรับเพลง เสียงรบกวนพื้นหลัง และเอฟเฟกต์เสียงแบบง่าย สามารถถ่ายทอดการสื่อสารที่ไม่ใช้คำพูด เช่น เสียงหัวเราะ เสียงถอนหายใจ และเสียงร้องไห้ รองรับภาษาอังกฤษ/เกาหลี รวมถึงเยอรมัน/ฝรั่งเศส/ญี่ปุ่น/จีน เป็นต้น ใช้โคเดก EnCodec ของ Facebook Bark ใช้ไลเซนส์ CC-BY 4.0 NC และตัวโมเดล Suno เองสามารถใช้งานเชิงพาณิชย์ได้

(github.com/suno-ai)

24 คะแนน โดย xguru 2023-04-24 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

สามารถสร้างเสียงพูดหลายภาษาได้อย่างสมจริงมาก
รองรับเพลง เสียงรบกวนพื้นหลัง และเอฟเฟกต์เสียงแบบง่าย
สามารถถ่ายทอดการสื่อสารที่ไม่ใช้คำพูด เช่น เสียงหัวเราะ เสียงถอนหายใจ และเสียงร้องไห้
รองรับภาษาอังกฤษ/เกาหลี รวมถึงเยอรมัน/ฝรั่งเศส/ญี่ปุ่น/จีน เป็นต้น
ใช้โคเดก EnCodec ของ Facebook
Bark ใช้ไลเซนส์ CC-BY 4.0 NC และตัวโมเดล Suno เองสามารถใช้งานเชิงพาณิชย์ได้

2 ความคิดเห็น

dlehals2 2023-04-24

บางครั้งสิ่งที่ Bark สร้างขึ้นก็แตกต่างจากพรอมป์ของผม เกิดอะไรขึ้น?
Bark เป็นโมเดลสไตล์ GPT ดังนั้นมันจึงอาจใช้เสรีภาพเชิงสร้างสรรค์อยู่บ้างในการสร้างผลลัพธ์ ทำให้เอาต์พุตของโมเดลมีความแปรปรวนสูงกว่าวิธีแปลงข้อความเป็นเสียงพูดแบบดั้งเดิม

ตรงนี้น่ากลัวนะ 555 บางครั้งที่มันสร้างออกมาต่างจากพรอมป์ก็เพราะเพื่อให้โมเดลมีเสรีภาพเชิงสร้างสรรค์งั้นเหรอ..

kuroneko 2023-04-24

น่าทึ่งที่มันสร้างภาษาเกาหลีได้ค่อนข้างดีเลยนะ

Bark - โมเดล Text-To-Audio ที่อิงกับทรานส์ฟอร์เมอร์

บทความที่เกี่ยวข้อง

2 ความคิดเห็น