Bark - โมเดล Text-To-Audio ที่อิงกับทรานส์ฟอร์เมอร์
(github.com/suno-ai)- สามารถสร้างเสียงพูดหลายภาษาได้อย่างสมจริงมาก
- รองรับเพลง เสียงรบกวนพื้นหลัง และเอฟเฟกต์เสียงแบบง่าย
- สามารถถ่ายทอดการสื่อสารที่ไม่ใช้คำพูด เช่น เสียงหัวเราะ เสียงถอนหายใจ และเสียงร้องไห้
- รองรับภาษาอังกฤษ/เกาหลี รวมถึงเยอรมัน/ฝรั่งเศส/ญี่ปุ่น/จีน เป็นต้น
- ใช้โคเดก EnCodec ของ Facebook
- Bark ใช้ไลเซนส์ CC-BY 4.0 NC และตัวโมเดล Suno เองสามารถใช้งานเชิงพาณิชย์ได้
2 ความคิดเห็น
บางครั้งสิ่งที่ Bark สร้างขึ้นก็แตกต่างจากพรอมป์ของผม เกิดอะไรขึ้น?
Bark เป็นโมเดลสไตล์ GPT ดังนั้นมันจึงอาจใช้เสรีภาพเชิงสร้างสรรค์อยู่บ้างในการสร้างผลลัพธ์ ทำให้เอาต์พุตของโมเดลมีความแปรปรวนสูงกว่าวิธีแปลงข้อความเป็นเสียงพูดแบบดั้งเดิม
ตรงนี้น่ากลัวนะ 555 บางครั้งที่มันสร้างออกมาต่างจากพรอมป์ก็เพราะเพื่อให้โมเดลมีเสรีภาพเชิงสร้างสรรค์งั้นเหรอ..
น่าทึ่งที่มันสร้างภาษาเกาหลีได้ค่อนข้างดีเลยนะ