VASA-1: สร้างใบหน้าพูดแบบเรียลไทม์จากภาพถ่ายใบเดียวและเสียง

(microsoft.com)

4 คะแนน โดย GN⁺ 2024-04-20 | 2 ความคิดเห็น | แชร์ทาง WhatsApp

Microsoft Research เปิดเผยโปรเจกต์ใหม่ชื่อ VASA-1
เทคโนโลยีที่สร้างวิดีโอใบหน้าพูดที่สมจริงจากภาพถ่ายบุคคลเพียงใบเดียว พร้อมรับอินพุตเสียงแบบเรียลไทม์
ริมฝีปากและสีหน้าจะขยับอย่างเป็นธรรมชาติตามเสียง และมีความสมจริงจนแทบแยกไม่ออกจากภาพคนจริงที่กำลังพูด
ใช้โมเดลการแพร่กระจาย (diffusion model) ที่รับสัญญาณทางเลือกเป็นเงื่อนไข เช่น ทิศทางการมองหลัก ระยะห่างของศีรษะ และออฟเซ็ตอารมณ์ โดยแสดงผลลัพธ์การสร้างตามทิศทางการมองหลัก (ตรงไปข้างหน้า, ซ้าย, ขวา, ขึ้น), สเกลระยะห่างของศีรษะ และออฟเซ็ตอารมณ์ (เป็นกลาง, มีความสุข, โกรธ, ประหลาดใจ)
ในโหมดประมวลผลแบบออฟไลน์เป็นชุด สามารถสร้างเฟรมวิดีโอขนาด 512x512 ได้ที่ 45 เฟรมต่อวินาที
ในโหมดสตรีมมิงออนไลน์ รองรับได้สูงสุด 40 เฟรมต่อวินาที และต้องการเวลาแฝงล่วงหน้าเพียง 170ms (เดสก์ท็อปพีซีที่มี NVIDIA RTX 4090 GPU 1 ตัว)

ความเห็นของ GN⁺

หากเทคโนโลยีลักษณะนี้ถูกนำไปใช้ได้จริง ก็อาจประยุกต์ใช้ได้ในหลากหลายสาขา เช่น มนุษย์เสมือน, AI avatar, metaverse เป็นต้น โดยเฉพาะในอุตสาหกรรมบันเทิงอย่างเกม ภาพยนตร์ และแอนิเมชัน น่าจะมีความต้องการสูง
ในอีกด้านหนึ่ง ก็มีความกังวลถึงผลกระทบด้านลบ เช่น การนำไปใช้สร้างข่าวปลอม หรือทำวิดีโอดีปเฟกด้วยใบหน้าคนดัง จึงน่าจะจำเป็นต้องมีทั้งมาตรการทางเทคนิคและเชิงนโยบายเพื่อป้องกันการใช้งานในทางที่ผิด
เทคโนโลยีที่คล้ายกันมี Audio2Face ของ NVIDIA เป็นต้น โดยเทคโนโลยีเหล่านี้ส่วนใหญ่สร้างได้เฉพาะใบหน้าของบุคคลที่ฝึกไว้ล่วงหน้า ขณะที่ VASA-1 มีความแตกต่างตรงที่สามารถสร้างใบหน้าใหม่ได้แบบเรียลไทม์
ตามคำกล่าวของทีมพัฒนา VASA-1 ยังอยู่ในระยะเริ่มต้น และมีแผนจะปรับปรุงคุณภาพของภาพและความเสถียรต่อไป แม้อาจต้องใช้เวลาอีกระยะกว่าจะนำไปใช้เชิงพาณิชย์ได้ แต่ก็คาดว่าสักวันหนึ่งเราอาจได้พบกับมนุษย์สังเคราะห์ลักษณะนี้ในชีวิตประจำวัน

2 ความคิดเห็น

tomriddle7 2024-04-22

ในรายการ Unanswered Questions ตอนที่ 1394 มีการยกกรณีที่ใช้ภาพถ่ายและเสียงปลอมตัวเป็นคนดังเพื่อหลอกเอาเงิน ซึ่งน่ากังวลว่าเทคโนโลยีแบบนี้อาจถูกนำไปใช้ในทางที่ผิดได้

GN⁺ 2024-04-20

ความคิดเห็นบน Hacker News

สรุป:

VASA-1 ของ Microsoft สามารถสร้างดีปเฟกจากภาพถ่ายเพียงภาพเดียวและแทร็กเสียงได้ ดูเหมือนว่าเทคโนโลยีดีปเฟกจะยิ่งเร็วขึ้น ดีขึ้น ใช้ง่ายขึ้น และราคาถูกลงเรื่อย ๆ
ขณะเดียวกัน บริษัทบัตรเครดิตได้นำการยืนยันตัวตนด้วยเสียงมาใช้ แต่กลับไม่ตระหนักว่าใคร ๆ ก็สามารถหาออดิโอคลิปสั้น ๆ จากโซเชียลเน็ตเวิร์กมาโคลนเสียงได้ บริษัทต่าง ๆ กำลังตามยุคไม่ทัน
VASA-1 ยังไม่ดีเท่า EMO มีการเคลื่อนไหวร่างกายที่ดูปลอม และมีหลายจุดที่ลิปซิงก์ไม่ถูกต้อง การเคลื่อนไหวของดวงตา รวมถึงการเคลื่อนไหวของศีรษะและร่างกายโดยรวมยังไม่เป็นธรรมชาติ
ดูเหมือนว่าจุดประสงค์เดียวของเทคโนโลยีนี้คือให้สายลับใช้เพื่อแอบอ้างเป็นคนอื่นเพื่อก่อการละเมิด ต่อไปเราจะต้องยืนยันตัวตนในการโทรและวิดีโอคอลทุกครั้งหรือไม่?
บทความนี้ระบุว่าใช้ Diffusion Transformers ส่วนอิมพลีเมนเทชันโอเพนซอร์สคือเวอร์ชัน PyTorch ของ Facebook Research แต่เป็นไลเซนส์สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์ จึงสงสัยว่ามีไลเซนส์เทียบเท่าแบบ MIT หรือ Apache หรือไม่
เราจำเป็นต้องมีระบบกำกับดูแลบางอย่างเพื่อรับประกันความแท้จริงของสิ่งที่เราเห็น แต่ก็เป็นปัญหาที่ไม่ง่าย เช่น ลายเซ็นอาจเสียหายเมื่อมีการแก้ไขภาพถ่ายหรือวิดีโอ
นี่เป็นเทคโนโลยีที่บ้าคลั่งอย่างแท้จริง และมันจะยิ่งดีขึ้นอีก เดิมคิดว่าดีปเฟกยังอยู่อีกไกล แต่ดูเหมือนว่าเราคงต้องระวังตัวบนออนไลน์ให้มากขึ้น
ความก้าวหน้าทางเทคโนโลยีที่ยอดเยี่ยมสำหรับการแทรกแซงการเลือกตั้ง!

VASA-1: สร้างใบหน้าพูดแบบเรียลไทม์จากภาพถ่ายใบเดียวและเสียง

ความเห็นของ GN⁺

บทความที่เกี่ยวข้อง

2 ความคิดเห็น

ความคิดเห็นบน Hacker News