Nvidia เปิดตัว Fugatto โมเดล AI สร้างเสียงที่ยืดหยุ่น
(blogs.nvidia.com)- โมเดล AI สร้างเสียง
Fugattoที่สามารถควบคุมเอาต์พุตเสียงได้ด้วยข้อความ- ทำงานได้หลากหลาย เช่น สร้างเพลง เปลี่ยนน้ำเสียงหรืออารมณ์ของเสียงพูด เพิ่ม/ลบเครื่องดนตรีจากเพลงเดิม
- ยังสามารถสร้างเสียงใหม่ทั้งหมดที่ไม่เคยได้ยินมาก่อน
- Fugatto สามารถรับเพลง เสียงพูด และเสียงแวดล้อมเป็นข้อความหรือไฟล์เสียงเพื่อสร้างหรือแปลงได้
- ออกแบบมาเพื่อให้เข้าใจและสร้างเสียงได้คล้ายมนุษย์
-
"รองรับการเรียนรู้แบบหลายงานโดยไม่มีผู้กำกับดูแล (Unsupervised) ทำให้ปลดล็อกศักยภาพใหม่ในด้านสเกลของข้อมูลและโมเดล"
กรณีการใช้งานที่หลากหลาย
- การผลิตเพลง: ทดลองและปรับแก้สไตล์เพลง เสียงร้อง และเครื่องดนตรีได้ทันที
- โฆษณา: ปรับแต่งเสียงให้เหมาะกับแต่ละภูมิภาคและแต่ละสถานการณ์เพื่อเพิ่มประสิทธิภาพแคมเปญ
- การเรียนภาษา: มอบคอนเทนต์การเรียนรู้แบบปรับให้เหมาะกับผู้ใช้ด้วยเสียงที่เลือกเอง
- การพัฒนาเกม: ดัดแปลงหรือสร้างทรัพยากรเสียงใหม่ตามสถานการณ์ในเกม
- การสร้างเสียงรูปแบบใหม่: คล้ายกับ "เก้าอี้อะโวคาโด" ของ AI สร้างภาพ
- ตัวอย่างเช่น สามารถสร้างเสียงทรัมเป็ตที่เห่าเหมือนสุนัข (bark) หรือเสียงแซกโซโฟนที่ร้องเหมือนแมว (meow)
- ยังจัดการงานที่ไม่ได้ถูกพรีเทรนไว้ล่วงหน้าได้ เช่น สร้างเสียงร้องเพลงคุณภาพสูงจากข้อความพรอมป์ต์ผ่านการปรับจูนละเอียดและใช้ข้อมูลเพลงเพียงเล็กน้อย
มอบ Artistic Control (การควบคุมเชิงศิลป์) ให้ผู้ใช้
- ความสามารถในการควบคุมที่ยึดผู้ใช้เป็นศูนย์กลาง
- ผสานหลายคำสั่งเข้าด้วยกันผ่านเทคโนโลยี ComposableART
- ปรับรายละเอียดของคำสั่งข้อความได้ เช่น ผสานสำเนียงฝรั่งเศสเข้ากับอารมณ์เศร้า
- ควบคุมการเปลี่ยนแปลงของเสียงด้วย temporal interpolation: เช่น สร้างบรรยากาศฝนตกที่เสียงฟ้าร้องค่อย ๆ จางหายไป
- มอบอิสระในการสร้างสรรค์เสียงอย่างที่ไม่เคยมีมาก่อนให้ผู้ใช้
คุณลักษณะทางเทคนิค
- โมเดล generative AI ที่ฝึกด้วยพารามิเตอร์ 250 ล้านตัว โดยใช้ระบบ NVIDIA DGX และ GPU H100
- เสริมการรองรับหลายภาษาและหลายสำเนียงผ่านความร่วมมือของทีมนักวิจัยนานาชาติ
- สร้างชุดข้อมูลฝึกจากตัวอย่างเสียงหลายล้านรายการ
- วิเคราะห์ความสัมพันธ์ระหว่างข้อมูลในรูปแบบใหม่เพื่อเพิ่มประสิทธิภาพ
- ใช้เวลามากกว่า 1 ปีในการจัดหาข้อมูลฝึกและขยายขนาดโมเดล
- ทีมงานรู้สึกทึ่งเมื่อสามารถสร้างเพลงได้สำเร็จจากข้อความพรอมป์ต์ครั้งแรก และเดโมที่ผสมดนตรีอิเล็กทรอนิกส์กับเสียงสุนัขเห่าก็เรียกเสียงหัวเราะ พร้อมยืนยันถึงความเป็นไปได้ในอนาคต
ยังไม่มีความคิดเห็น