Audiobox - โมเดลพื้นฐานใหม่ของ Meta สำหรับการสร้างเสียง

xguru · 2023-12-12T09:40:47+09:00

สร้างเสียงพูดและเอฟเฟกต์เสียงได้ด้วยการผสานอินพุตเสียงพูดกับพรอมป์ข้อความภาษาธรรมชาติ สามารถสร้างเสียงแบบปรับแต่งตามการใช้งานที่หลากหลายได้อย่างง่ายดาย ปรับปรุงจาก Voicebox ที่เปิดตัวเมื่อต้นปีนี้ โดยรวมความสามารถในการสร้างและแก้ไขสำหรับเสียงพูด, เอฟเฟกต์เสียง (เช่น เสียงสุนัขเห่า, แตรรถยนต์, เสียงฟ้าร้อง ซึ่งเป็นเสียงสั้นและไม่ต่อเนื่อง) และ Soundscape (ภูมิทัศน์เสียง) เข้าด้วยกัน พร้อมเพิ่มความสามารถในการควบคุมสำหรับแต่ละกรณีการใช้งานให้สูงสุดผ่านกลไกอินพุตที่หลากหลาย สามารถใช้พรอมป์ภาษาธรรมชาติเพื่ออธิบายเสียงหรือประเภทเสียงพูดที่ต้องการสร้างได้ สามารถสร้างซาวด์สเคปด้วยพรอมป์อย่าง "สายน้ำไหลและเสียงนกร้อง" พิมพ์ว่า "ผู้หญิงวัยหนุ่มสาวพูดด้วยโทนเสียงสูงและความเร็วเร็ว" เพื่อสร้างเสียงพูดตามต้องการ สามารถผสานอินพุตเสียงพูดกับพรอมป์ข้อความด้านสไตล์ เพื่อสังเคราะห์เสียงของเสียงพูดนั้นให้เข้ากับสภาพแวดล้อมใดก็ได้ (เช่น "ในโบสถ์") หรืออารมณ์ใดก็ได้ (เช่น "พูดอย่างเศร้าและช้า") เป็นโมเดลแรกที่รองรับอินพุตคู่ (พรอมป์เสียงพูดและพรอมป์คำอธิบายข้อความ) สำหรับการเปลี่ยนสไตล์เสียงพูดแบบอิสระ ให้ประสิทธิภาพเหนือกว่า Voicebox มากกว่า 30% ในด้านความคล้ายคลึงของสไตล์ในสไตล์เสียงพูดที่หลากหลาย Meta เปิด Audiobox ให้กับนักวิจัยและสถาบันการศึกษาที่ได้รับการคัดสรรซึ่งมีผลงานในงานวิจัยด้านเสียง เพื่อช่วยผลักดันเทคโนโลยีล้ำสมัยของสาขานี้และสร้างพันธมิตรที่หลากหลายสำหรับการดูแลประเด็น AI อย่างมีความรับผิดชอบของงานนี้

(ai.meta.com)

8 คะแนน โดย xguru 2023-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

สร้างเสียงพูดและเอฟเฟกต์เสียงได้ด้วยการผสานอินพุตเสียงพูดกับพรอมป์ข้อความภาษาธรรมชาติ
- สามารถสร้างเสียงแบบปรับแต่งตามการใช้งานที่หลากหลายได้อย่างง่ายดาย
ปรับปรุงจาก Voicebox ที่เปิดตัวเมื่อต้นปีนี้ โดยรวมความสามารถในการสร้างและแก้ไขสำหรับเสียงพูด, เอฟเฟกต์เสียง (เช่น เสียงสุนัขเห่า, แตรรถยนต์, เสียงฟ้าร้อง ซึ่งเป็นเสียงสั้นและไม่ต่อเนื่อง) และ Soundscape (ภูมิทัศน์เสียง) เข้าด้วยกัน พร้อมเพิ่มความสามารถในการควบคุมสำหรับแต่ละกรณีการใช้งานให้สูงสุดผ่านกลไกอินพุตที่หลากหลาย
สามารถใช้พรอมป์ภาษาธรรมชาติเพื่ออธิบายเสียงหรือประเภทเสียงพูดที่ต้องการสร้างได้
- สามารถสร้างซาวด์สเคปด้วยพรอมป์อย่าง "สายน้ำไหลและเสียงนกร้อง"
- พิมพ์ว่า "ผู้หญิงวัยหนุ่มสาวพูดด้วยโทนเสียงสูงและความเร็วเร็ว" เพื่อสร้างเสียงพูดตามต้องการ
สามารถผสานอินพุตเสียงพูดกับพรอมป์ข้อความด้านสไตล์ เพื่อสังเคราะห์เสียงของเสียงพูดนั้นให้เข้ากับสภาพแวดล้อมใดก็ได้ (เช่น "ในโบสถ์") หรืออารมณ์ใดก็ได้ (เช่น "พูดอย่างเศร้าและช้า")
- เป็นโมเดลแรกที่รองรับอินพุตคู่ (พรอมป์เสียงพูดและพรอมป์คำอธิบายข้อความ) สำหรับการเปลี่ยนสไตล์เสียงพูดแบบอิสระ
ให้ประสิทธิภาพเหนือกว่า Voicebox มากกว่า 30% ในด้านความคล้ายคลึงของสไตล์ในสไตล์เสียงพูดที่หลากหลาย
Meta เปิด Audiobox ให้กับนักวิจัยและสถาบันการศึกษาที่ได้รับการคัดสรรซึ่งมีผลงานในงานวิจัยด้านเสียง เพื่อช่วยผลักดันเทคโนโลยีล้ำสมัยของสาขานี้และสร้างพันธมิตรที่หลากหลายสำหรับการดูแลประเด็น AI อย่างมีความรับผิดชอบของงานนี้

1 ความคิดเห็น

xguru 2023-12-12

Meta เปิดตัว Voicebox โมเดล Generative AI สำหรับเสียง

Audiobox - โมเดลพื้นฐานใหม่ของ Meta สำหรับการสร้างเสียง

บทความที่เกี่ยวข้อง

1 ความคิดเห็น