- Microsoft Research เปิดเผยโปรเจกต์ใหม่ชื่อ VASA-1
- เทคโนโลยีที่สร้างวิดีโอใบหน้าพูดที่สมจริงจากภาพถ่ายบุคคลเพียงใบเดียว พร้อมรับอินพุตเสียงแบบเรียลไทม์
- ริมฝีปากและสีหน้าจะขยับอย่างเป็นธรรมชาติตามเสียง และมีความสมจริงจนแทบแยกไม่ออกจากภาพคนจริงที่กำลังพูด
- ใช้โมเดลการแพร่กระจาย (diffusion model) ที่รับสัญญาณทางเลือกเป็นเงื่อนไข เช่น ทิศทางการมองหลัก ระยะห่างของศีรษะ และออฟเซ็ตอารมณ์ โดยแสดงผลลัพธ์การสร้างตามทิศทางการมองหลัก (ตรงไปข้างหน้า, ซ้าย, ขวา, ขึ้น), สเกลระยะห่างของศีรษะ และออฟเซ็ตอารมณ์ (เป็นกลาง, มีความสุข, โกรธ, ประหลาดใจ)
- ในโหมดประมวลผลแบบออฟไลน์เป็นชุด สามารถสร้างเฟรมวิดีโอขนาด 512x512 ได้ที่ 45 เฟรมต่อวินาที
- ในโหมดสตรีมมิงออนไลน์ รองรับได้สูงสุด 40 เฟรมต่อวินาที และต้องการเวลาแฝงล่วงหน้าเพียง 170ms (เดสก์ท็อปพีซีที่มี NVIDIA RTX 4090 GPU 1 ตัว)
ความเห็นของ GN⁺
- หากเทคโนโลยีลักษณะนี้ถูกนำไปใช้ได้จริง ก็อาจประยุกต์ใช้ได้ในหลากหลายสาขา เช่น มนุษย์เสมือน, AI avatar, metaverse เป็นต้น โดยเฉพาะในอุตสาหกรรมบันเทิงอย่างเกม ภาพยนตร์ และแอนิเมชัน น่าจะมีความต้องการสูง
- ในอีกด้านหนึ่ง ก็มีความกังวลถึงผลกระทบด้านลบ เช่น การนำไปใช้สร้างข่าวปลอม หรือทำวิดีโอดีปเฟกด้วยใบหน้าคนดัง จึงน่าจะจำเป็นต้องมีทั้งมาตรการทางเทคนิคและเชิงนโยบายเพื่อป้องกันการใช้งานในทางที่ผิด
- เทคโนโลยีที่คล้ายกันมี Audio2Face ของ NVIDIA เป็นต้น โดยเทคโนโลยีเหล่านี้ส่วนใหญ่สร้างได้เฉพาะใบหน้าของบุคคลที่ฝึกไว้ล่วงหน้า ขณะที่ VASA-1 มีความแตกต่างตรงที่สามารถสร้างใบหน้าใหม่ได้แบบเรียลไทม์
- ตามคำกล่าวของทีมพัฒนา VASA-1 ยังอยู่ในระยะเริ่มต้น และมีแผนจะปรับปรุงคุณภาพของภาพและความเสถียรต่อไป แม้อาจต้องใช้เวลาอีกระยะกว่าจะนำไปใช้เชิงพาณิชย์ได้ แต่ก็คาดว่าสักวันหนึ่งเราอาจได้พบกับมนุษย์สังเคราะห์ลักษณะนี้ในชีวิตประจำวัน
2 ความคิดเห็น
ในรายการ Unanswered Questions ตอนที่ 1394 มีการยกกรณีที่ใช้ภาพถ่ายและเสียงปลอมตัวเป็นคนดังเพื่อหลอกเอาเงิน ซึ่งน่ากังวลว่าเทคโนโลยีแบบนี้อาจถูกนำไปใช้ในทางที่ผิดได้
ความคิดเห็นบน Hacker News
สรุป: