4 คะแนน โดย GN⁺ 2024-04-20 | 2 ความคิดเห็น | แชร์ทาง WhatsApp
  • Microsoft Research เปิดเผยโปรเจกต์ใหม่ชื่อ VASA-1
  • เทคโนโลยีที่สร้างวิดีโอใบหน้าพูดที่สมจริงจากภาพถ่ายบุคคลเพียงใบเดียว พร้อมรับอินพุตเสียงแบบเรียลไทม์
  • ริมฝีปากและสีหน้าจะขยับอย่างเป็นธรรมชาติตามเสียง และมีความสมจริงจนแทบแยกไม่ออกจากภาพคนจริงที่กำลังพูด
  • ใช้โมเดลการแพร่กระจาย (diffusion model) ที่รับสัญญาณทางเลือกเป็นเงื่อนไข เช่น ทิศทางการมองหลัก ระยะห่างของศีรษะ และออฟเซ็ตอารมณ์ โดยแสดงผลลัพธ์การสร้างตามทิศทางการมองหลัก (ตรงไปข้างหน้า, ซ้าย, ขวา, ขึ้น), สเกลระยะห่างของศีรษะ และออฟเซ็ตอารมณ์ (เป็นกลาง, มีความสุข, โกรธ, ประหลาดใจ)
  • ในโหมดประมวลผลแบบออฟไลน์เป็นชุด สามารถสร้างเฟรมวิดีโอขนาด 512x512 ได้ที่ 45 เฟรมต่อวินาที
  • ในโหมดสตรีมมิงออนไลน์ รองรับได้สูงสุด 40 เฟรมต่อวินาที และต้องการเวลาแฝงล่วงหน้าเพียง 170ms (เดสก์ท็อปพีซีที่มี NVIDIA RTX 4090 GPU 1 ตัว)

ความเห็นของ GN⁺

  • หากเทคโนโลยีลักษณะนี้ถูกนำไปใช้ได้จริง ก็อาจประยุกต์ใช้ได้ในหลากหลายสาขา เช่น มนุษย์เสมือน, AI avatar, metaverse เป็นต้น โดยเฉพาะในอุตสาหกรรมบันเทิงอย่างเกม ภาพยนตร์ และแอนิเมชัน น่าจะมีความต้องการสูง
  • ในอีกด้านหนึ่ง ก็มีความกังวลถึงผลกระทบด้านลบ เช่น การนำไปใช้สร้างข่าวปลอม หรือทำวิดีโอดีปเฟกด้วยใบหน้าคนดัง จึงน่าจะจำเป็นต้องมีทั้งมาตรการทางเทคนิคและเชิงนโยบายเพื่อป้องกันการใช้งานในทางที่ผิด
  • เทคโนโลยีที่คล้ายกันมี Audio2Face ของ NVIDIA เป็นต้น โดยเทคโนโลยีเหล่านี้ส่วนใหญ่สร้างได้เฉพาะใบหน้าของบุคคลที่ฝึกไว้ล่วงหน้า ขณะที่ VASA-1 มีความแตกต่างตรงที่สามารถสร้างใบหน้าใหม่ได้แบบเรียลไทม์
  • ตามคำกล่าวของทีมพัฒนา VASA-1 ยังอยู่ในระยะเริ่มต้น และมีแผนจะปรับปรุงคุณภาพของภาพและความเสถียรต่อไป แม้อาจต้องใช้เวลาอีกระยะกว่าจะนำไปใช้เชิงพาณิชย์ได้ แต่ก็คาดว่าสักวันหนึ่งเราอาจได้พบกับมนุษย์สังเคราะห์ลักษณะนี้ในชีวิตประจำวัน

2 ความคิดเห็น

 
tomriddle7 2024-04-22

ในรายการ Unanswered Questions ตอนที่ 1394 มีการยกกรณีที่ใช้ภาพถ่ายและเสียงปลอมตัวเป็นคนดังเพื่อหลอกเอาเงิน ซึ่งน่ากังวลว่าเทคโนโลยีแบบนี้อาจถูกนำไปใช้ในทางที่ผิดได้

 
GN⁺ 2024-04-20
ความคิดเห็นบน Hacker News

สรุป:

  • VASA-1 ของ Microsoft สามารถสร้างดีปเฟกจากภาพถ่ายเพียงภาพเดียวและแทร็กเสียงได้ ดูเหมือนว่าเทคโนโลยีดีปเฟกจะยิ่งเร็วขึ้น ดีขึ้น ใช้ง่ายขึ้น และราคาถูกลงเรื่อย ๆ
  • ขณะเดียวกัน บริษัทบัตรเครดิตได้นำการยืนยันตัวตนด้วยเสียงมาใช้ แต่กลับไม่ตระหนักว่าใคร ๆ ก็สามารถหาออดิโอคลิปสั้น ๆ จากโซเชียลเน็ตเวิร์กมาโคลนเสียงได้ บริษัทต่าง ๆ กำลังตามยุคไม่ทัน
  • VASA-1 ยังไม่ดีเท่า EMO มีการเคลื่อนไหวร่างกายที่ดูปลอม และมีหลายจุดที่ลิปซิงก์ไม่ถูกต้อง การเคลื่อนไหวของดวงตา รวมถึงการเคลื่อนไหวของศีรษะและร่างกายโดยรวมยังไม่เป็นธรรมชาติ
  • ดูเหมือนว่าจุดประสงค์เดียวของเทคโนโลยีนี้คือให้สายลับใช้เพื่อแอบอ้างเป็นคนอื่นเพื่อก่อการละเมิด ต่อไปเราจะต้องยืนยันตัวตนในการโทรและวิดีโอคอลทุกครั้งหรือไม่?
  • บทความนี้ระบุว่าใช้ Diffusion Transformers ส่วนอิมพลีเมนเทชันโอเพนซอร์สคือเวอร์ชัน PyTorch ของ Facebook Research แต่เป็นไลเซนส์สำหรับการใช้งานที่ไม่ใช่เชิงพาณิชย์ จึงสงสัยว่ามีไลเซนส์เทียบเท่าแบบ MIT หรือ Apache หรือไม่
  • เราจำเป็นต้องมีระบบกำกับดูแลบางอย่างเพื่อรับประกันความแท้จริงของสิ่งที่เราเห็น แต่ก็เป็นปัญหาที่ไม่ง่าย เช่น ลายเซ็นอาจเสียหายเมื่อมีการแก้ไขภาพถ่ายหรือวิดีโอ
  • นี่เป็นเทคโนโลยีที่บ้าคลั่งอย่างแท้จริง และมันจะยิ่งดีขึ้นอีก เดิมคิดว่าดีปเฟกยังอยู่อีกไกล แต่ดูเหมือนว่าเราคงต้องระวังตัวบนออนไลน์ให้มากขึ้น
  • ความก้าวหน้าทางเทคโนโลยีที่ยอดเยี่ยมสำหรับการแทรกแซงการเลือกตั้ง!