Nvidia เปิดตัว Fugatto โมเดล AI สร้างเสียงที่ยืดหยุ่น

xguru · 2024-11-27T11:20:01+09:00

โมเดล AI สร้างเสียง Fugatto ที่สามารถควบคุมเอาต์พุตเสียงได้ด้วยข้อความ ทำงานได้หลากหลาย เช่น สร้างเพลง เปลี่ยนน้ำเสียงหรืออารมณ์ของเสียงพูด เพิ่ม/ลบเครื่องดนตรีจากเพลงเดิม ยังสามารถสร้างเสียงใหม่ทั้งหมดที่ไม่เคยได้ยินมาก่อน Fugatto สามารถรับเพลง เสียงพูด และเสียงแวดล้อมเป็นข้อความหรือไฟล์เสียงเพื่อสร้างหรือแปลงได้ ออกแบบมาเพื่อให้เข้าใจและสร้างเสียงได้คล้ายมนุษย์ "รองรับการเรียนรู้แบบหลายงานโดยไม่มีผู้กำกับดูแล (Unsupervised) ทำให้ปลดล็อกศักยภาพใหม่ในด้านสเกลของข้อมูลและโมเดล" กรณีการใช้งานที่หลากหลาย การผลิตเพลง: ทดลองและปรับแก้สไตล์เพลง เสียงร้อง และเครื่องดนตรีได้ทันที โฆษณา: ปรับแต่งเสียงให้เหมาะกับแต่ละภูมิภาคและแต่ละสถานการณ์เพื่อเพิ่มประสิทธิภาพแคมเปญ การเรียนภาษา: มอบคอนเทนต์การเรียนรู้แบบปรับให้เหมาะกับผู้ใช้ด้วยเสียงที่เลือกเอง การพัฒนาเกม: ดัดแปลงหรือสร้างทรัพยากรเสียงใหม่ตามสถานการณ์ในเกม การสร้างเสียงรูปแบบใหม่: คล้ายกับ "เก้าอี้อะโวคาโด" ของ AI สร้างภาพ ตัวอย่างเช่น สามารถสร้างเสียงทรัมเป็ตที่เห่าเหมือนสุนัข (bark) หรือเสียงแซกโซโฟนที่ร้องเหมือนแมว (meow) ยังจัดการงานที่ไม่ได้ถูกพรีเทรนไว้ล่วงหน้าได้ เช่น สร้างเสียงร้องเพลงคุณภาพสูงจากข้อความพรอมป์ต์ผ่านการปรับจูนละเอียดและใช้ข้อมูลเพลงเพียงเล็กน้อย มอบ Artistic Control (การควบคุมเชิงศิลป์) ให้ผู้ใช้ ความสามารถในการควบคุมที่ยึดผู้ใช้เป็นศูนย์กลาง ผสานหลายคำสั่งเข้าด้วยกันผ่านเทคโนโลยี ComposableART ปรับรายละเอียดของคำสั่งข้อความได้ เช่น ผสานสำเนียงฝรั่งเศสเข้ากับอารมณ์เศร้า ควบคุมการเปลี่ยนแปลงของเสียงด้วย temporal interpolation: เช่น สร้างบรรยากาศฝนตกที่เสียงฟ้าร้องค่อย ๆ จางหายไป มอบอิสระในการสร้างสรรค์เสียงอย่างที่ไม่เคยมีมาก่อนให้ผู้ใช้ คุณลักษณะทางเทคนิค โมเดล generative AI ที่ฝึกด้วยพารามิเตอร์ 250 ล้านตัว โดยใช้ระบบ NVIDIA DGX และ GPU H100 เสริมการรองรับหลายภาษาและหลายสำเนียงผ่านความร่วมมือของทีมนักวิจัยนานาชาติ สร้างชุดข้อมูลฝึกจากตัวอย่างเสียงหลายล้านรายการ วิเคราะห์ความสัมพันธ์ระหว่างข้อมูลในรูปแบบใหม่เพื่อเพิ่มประสิทธิภาพ ใช้เวลามากกว่า 1 ปีในการจัดหาข้อมูลฝึกและขยายขนาดโมเดล ทีมงานรู้สึกทึ่งเมื่อสามารถสร้างเพลงได้สำเร็จจากข้อความพรอมป์ต์ครั้งแรก และเดโมที่ผสมดนตรีอิเล็กทรอนิกส์กับเสียงสุนัขเห่าก็เรียกเสียงหัวเราะ พร้อมยืนยันถึงความเป็นไปได้ในอนาคต

(blogs.nvidia.com)

3 คะแนน โดย xguru 2024-11-27 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

โมเดล AI สร้างเสียง Fugatto ที่สามารถควบคุมเอาต์พุตเสียงได้ด้วยข้อความ
- ทำงานได้หลากหลาย เช่น สร้างเพลง เปลี่ยนน้ำเสียงหรืออารมณ์ของเสียงพูด เพิ่ม/ลบเครื่องดนตรีจากเพลงเดิม
- ยังสามารถสร้างเสียงใหม่ทั้งหมดที่ไม่เคยได้ยินมาก่อน
Fugatto สามารถรับเพลง เสียงพูด และเสียงแวดล้อมเป็นข้อความหรือไฟล์เสียงเพื่อสร้างหรือแปลงได้
- ออกแบบมาเพื่อให้เข้าใจและสร้างเสียงได้คล้ายมนุษย์
- "รองรับการเรียนรู้แบบหลายงานโดยไม่มีผู้กำกับดูแล (Unsupervised) ทำให้ปลดล็อกศักยภาพใหม่ในด้านสเกลของข้อมูลและโมเดล"
โฆษณา

กรณีการใช้งานที่หลากหลาย

การผลิตเพลง: ทดลองและปรับแก้สไตล์เพลง เสียงร้อง และเครื่องดนตรีได้ทันที
โฆษณา: ปรับแต่งเสียงให้เหมาะกับแต่ละภูมิภาคและแต่ละสถานการณ์เพื่อเพิ่มประสิทธิภาพแคมเปญ
การเรียนภาษา: มอบคอนเทนต์การเรียนรู้แบบปรับให้เหมาะกับผู้ใช้ด้วยเสียงที่เลือกเอง
การพัฒนาเกม: ดัดแปลงหรือสร้างทรัพยากรเสียงใหม่ตามสถานการณ์ในเกม
การสร้างเสียงรูปแบบใหม่: คล้ายกับ "เก้าอี้อะโวคาโด" ของ AI สร้างภาพ
- ตัวอย่างเช่น สามารถสร้างเสียงทรัมเป็ตที่เห่าเหมือนสุนัข (bark) หรือเสียงแซกโซโฟนที่ร้องเหมือนแมว (meow)
- ยังจัดการงานที่ไม่ได้ถูกพรีเทรนไว้ล่วงหน้าได้ เช่น สร้างเสียงร้องเพลงคุณภาพสูงจากข้อความพรอมป์ต์ผ่านการปรับจูนละเอียดและใช้ข้อมูลเพลงเพียงเล็กน้อย

มอบ Artistic Control (การควบคุมเชิงศิลป์) ให้ผู้ใช้

ความสามารถในการควบคุมที่ยึดผู้ใช้เป็นศูนย์กลาง
- ผสานหลายคำสั่งเข้าด้วยกันผ่านเทคโนโลยี ComposableART
- ปรับรายละเอียดของคำสั่งข้อความได้ เช่น ผสานสำเนียงฝรั่งเศสเข้ากับอารมณ์เศร้า
- ควบคุมการเปลี่ยนแปลงของเสียงด้วย temporal interpolation: เช่น สร้างบรรยากาศฝนตกที่เสียงฟ้าร้องค่อย ๆ จางหายไป
มอบอิสระในการสร้างสรรค์เสียงอย่างที่ไม่เคยมีมาก่อนให้ผู้ใช้

คุณลักษณะทางเทคนิค

โมเดล generative AI ที่ฝึกด้วยพารามิเตอร์ 250 ล้านตัว โดยใช้ระบบ NVIDIA DGX และ GPU H100
เสริมการรองรับหลายภาษาและหลายสำเนียงผ่านความร่วมมือของทีมนักวิจัยนานาชาติ
สร้างชุดข้อมูลฝึกจากตัวอย่างเสียงหลายล้านรายการ
- วิเคราะห์ความสัมพันธ์ระหว่างข้อมูลในรูปแบบใหม่เพื่อเพิ่มประสิทธิภาพ
ใช้เวลามากกว่า 1 ปีในการจัดหาข้อมูลฝึกและขยายขนาดโมเดล
ทีมงานรู้สึกทึ่งเมื่อสามารถสร้างเพลงได้สำเร็จจากข้อความพรอมป์ต์ครั้งแรก และเดโมที่ผสมดนตรีอิเล็กทรอนิกส์กับเสียงสุนัขเห่าก็เรียกเสียงหัวเราะ พร้อมยืนยันถึงความเป็นไปได้ในอนาคต

Nvidia เปิดตัว Fugatto โมเดล AI สร้างเสียงที่ยืดหยุ่น

กรณีการใช้งานที่หลากหลาย

มอบ Artistic Control (การควบคุมเชิงศิลป์) ให้ผู้ใช้

คุณลักษณะทางเทคนิค

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น