- สร้างเสียงพูดและเอฟเฟกต์เสียงได้ด้วยการผสานอินพุตเสียงพูดกับพรอมป์ข้อความภาษาธรรมชาติ
- สามารถสร้างเสียงแบบปรับแต่งตามการใช้งานที่หลากหลายได้อย่างง่ายดาย
- ปรับปรุงจาก Voicebox ที่เปิดตัวเมื่อต้นปีนี้ โดยรวมความสามารถในการสร้างและแก้ไขสำหรับเสียงพูด, เอฟเฟกต์เสียง (เช่น เสียงสุนัขเห่า, แตรรถยนต์, เสียงฟ้าร้อง ซึ่งเป็นเสียงสั้นและไม่ต่อเนื่อง) และ Soundscape (ภูมิทัศน์เสียง) เข้าด้วยกัน พร้อมเพิ่มความสามารถในการควบคุมสำหรับแต่ละกรณีการใช้งานให้สูงสุดผ่านกลไกอินพุตที่หลากหลาย
- สามารถใช้พรอมป์ภาษาธรรมชาติเพื่ออธิบายเสียงหรือประเภทเสียงพูดที่ต้องการสร้างได้
- สามารถสร้างซาวด์สเคปด้วยพรอมป์อย่าง "สายน้ำไหลและเสียงนกร้อง"
- พิมพ์ว่า "ผู้หญิงวัยหนุ่มสาวพูดด้วยโทนเสียงสูงและความเร็วเร็ว" เพื่อสร้างเสียงพูดตามต้องการ
- สามารถผสานอินพุตเสียงพูดกับพรอมป์ข้อความด้านสไตล์ เพื่อสังเคราะห์เสียงของเสียงพูดนั้นให้เข้ากับสภาพแวดล้อมใดก็ได้ (เช่น "ในโบสถ์") หรืออารมณ์ใดก็ได้ (เช่น "พูดอย่างเศร้าและช้า")
- เป็นโมเดลแรกที่รองรับอินพุตคู่ (พรอมป์เสียงพูดและพรอมป์คำอธิบายข้อความ) สำหรับการเปลี่ยนสไตล์เสียงพูดแบบอิสระ
- ให้ประสิทธิภาพเหนือกว่า Voicebox มากกว่า 30% ในด้านความคล้ายคลึงของสไตล์ในสไตล์เสียงพูดที่หลากหลาย
- Meta เปิด Audiobox ให้กับนักวิจัยและสถาบันการศึกษาที่ได้รับการคัดสรรซึ่งมีผลงานในงานวิจัยด้านเสียง เพื่อช่วยผลักดันเทคโนโลยีล้ำสมัยของสาขานี้และสร้างพันธมิตรที่หลากหลายสำหรับการดูแลประเด็น AI อย่างมีความรับผิดชอบของงานนี้
1 ความคิดเห็น
Meta เปิดตัว Voicebox โมเดล Generative AI สำหรับเสียง