8 คะแนน โดย xguru 2023-12-12 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • สร้างเสียงพูดและเอฟเฟกต์เสียงได้ด้วยการผสานอินพุตเสียงพูดกับพรอมป์ข้อความภาษาธรรมชาติ
    • สามารถสร้างเสียงแบบปรับแต่งตามการใช้งานที่หลากหลายได้อย่างง่ายดาย
  • ปรับปรุงจาก Voicebox ที่เปิดตัวเมื่อต้นปีนี้ โดยรวมความสามารถในการสร้างและแก้ไขสำหรับเสียงพูด, เอฟเฟกต์เสียง (เช่น เสียงสุนัขเห่า, แตรรถยนต์, เสียงฟ้าร้อง ซึ่งเป็นเสียงสั้นและไม่ต่อเนื่อง) และ Soundscape (ภูมิทัศน์เสียง) เข้าด้วยกัน พร้อมเพิ่มความสามารถในการควบคุมสำหรับแต่ละกรณีการใช้งานให้สูงสุดผ่านกลไกอินพุตที่หลากหลาย
  • สามารถใช้พรอมป์ภาษาธรรมชาติเพื่ออธิบายเสียงหรือประเภทเสียงพูดที่ต้องการสร้างได้
    • สามารถสร้างซาวด์สเคปด้วยพรอมป์อย่าง "สายน้ำไหลและเสียงนกร้อง"
    • พิมพ์ว่า "ผู้หญิงวัยหนุ่มสาวพูดด้วยโทนเสียงสูงและความเร็วเร็ว" เพื่อสร้างเสียงพูดตามต้องการ
  • สามารถผสานอินพุตเสียงพูดกับพรอมป์ข้อความด้านสไตล์ เพื่อสังเคราะห์เสียงของเสียงพูดนั้นให้เข้ากับสภาพแวดล้อมใดก็ได้ (เช่น "ในโบสถ์") หรืออารมณ์ใดก็ได้ (เช่น "พูดอย่างเศร้าและช้า")
    • เป็นโมเดลแรกที่รองรับอินพุตคู่ (พรอมป์เสียงพูดและพรอมป์คำอธิบายข้อความ) สำหรับการเปลี่ยนสไตล์เสียงพูดแบบอิสระ
  • ให้ประสิทธิภาพเหนือกว่า Voicebox มากกว่า 30% ในด้านความคล้ายคลึงของสไตล์ในสไตล์เสียงพูดที่หลากหลาย
  • Meta เปิด Audiobox ให้กับนักวิจัยและสถาบันการศึกษาที่ได้รับการคัดสรรซึ่งมีผลงานในงานวิจัยด้านเสียง เพื่อช่วยผลักดันเทคโนโลยีล้ำสมัยของสาขานี้และสร้างพันธมิตรที่หลากหลายสำหรับการดูแลประเด็น AI อย่างมีความรับผิดชอบของงานนี้