เทคนิคการสังเคราะห์ภาพเป็นวิดีโอที่มีความสอดคล้องและควบคุมได้สำหรับแอนิเมชันตัวละคร
- แอนิเมชันตัวละครมีเป้าหมายเพื่อสร้างวิดีโอตัวละครจากภาพนิ่งโดยอาศัยสัญญาณการเคลื่อนไหว
- โมเดล diffusion กลายเป็นกระแสหลักของงานวิจัยด้านการสร้างภาพด้วยความสามารถในการสร้างที่ทรงพลัง แต่ในงานภาพเป็นวิดีโอ โดยเฉพาะแอนิเมชันตัวละคร การคงรายละเอียดให้สอดคล้องกันตามเวลาเป็นความท้าทายสำคัญ
- บทความนี้เสนอเฟรมเวิร์กใหม่สำหรับแอนิเมชันตัวละครโดยอาศัยข้อดีของโมเดล diffusion และออกแบบ ReferenceNet เพื่อคงลักษณะรูปลักษณ์ที่ซับซ้อนของภาพอ้างอิง โดยผสานคุณลักษณะรายละเอียดผ่าน spatial attention
วิธีการ
- ภาพรวมของวิธีที่เสนอคือ ใช้ Pose Guider เข้ารหัสลำดับท่าทางเบื้องต้น จากนั้นผสานเข้ากับ noise แบบหลายเฟรม แล้วให้ Denoising UNet ดำเนินกระบวนการลบสัญญาณรบกวนเพื่อสร้างวิดีโอ
- บล็อกการคำนวณของ Denoising UNet ประกอบด้วย spatial attention, cross attention และ temporal attention โดยการผสานภาพอ้างอิงมีอยู่สองด้าน
- ประการแรก คุณลักษณะรายละเอียดที่สกัดผ่าน ReferenceNet จะถูกใช้ใน spatial attention และประการที่สอง คุณลักษณะเชิงความหมายที่สกัดผ่าน CLIP image encoder จะถูกใช้ใน cross attention
- temporal attention ทำงานบนมิติเวลา และท้ายที่สุด VAE decoder จะถอดรหัสผลลัพธ์ออกมาเป็นคลิปวิดีโอ
แอนิเมชันตัวละครที่หลากหลาย
- สามารถทำแอนิเมชันให้กับตัวละครหลากหลายประเภท รวมถึงมนุษย์ อนิเมะ/การ์ตูน และตัวละครฮิวแมนนอยด์
- การสังเคราะห์วิดีโอแฟชั่นมีเป้าหมายเพื่อแปลงภาพถ่ายแฟชั่นให้เป็นวิดีโอแอนิเมชันที่สมจริง โดยทำการทดลองบนชุดข้อมูล UBC Fashion Video ด้วยข้อมูลฝึกชุดเดียวกัน
- การสร้างการเต้นของมนุษย์มุ่งเน้นการทำให้ภาพเคลื่อนไหวในสถานการณ์การเต้นจริง โดยทำการทดลองบนชุดข้อมูล TikTok ด้วยข้อมูลฝึกชุดเดียวกัน
ความเห็นของ GN⁺
- งานวิจัยนี้สะท้อนความก้าวหน้าที่สำคัญในด้านแอนิเมชันตัวละคร และนำเสนอวิธีใหม่ในการสร้างวิดีโอจากภาพโดยใช้โมเดล diffusion
- เทคโนโลยีที่สามารถควบคุมการเคลื่อนไหวของตัวละครได้อย่างละเอียดพร้อมกับคงคุณลักษณะรายละเอียดของภาพอ้างอิง อาจส่งผลกระทบอย่างมากต่ออุตสาหกรรมแอนิเมชันและวิชวลเอฟเฟกต์
- บทความนี้นำเสนอข้อมูลที่น่าสนใจเกี่ยวกับแนวทางใหม่สำหรับแอนิเมชันตัวละคร และวิธีที่แนวทางดังกล่าวสามารถนำไปใช้กับตัวละครและสถานการณ์ที่หลากหลายได้
3 ความคิดเห็น
พอนึกถึงแอนิเมชันที่งานภาพพังเพราะตารางงานเลื่อนแล้ว บางทีผลลัพธ์จากทางนี้อาจจะออกมาดีกว่าก็ได้เหมือนกันนะครับ แม้ว่าในขั้นตอนโพสต์โปรดักชันก็คงยังต้องมีคนเข้ามาช่วยเก็บงานอยู่บ้างก็ตาม
ผลงานที่ออกมานี่ไม่ธรรมดาเลยนะครับ ฝั่งวิดีโอก็กำลังพัฒนาอย่างรวดเร็วมากเช่นกัน
ความเห็นจาก Hacker News
ทึ่งที่ได้เห็น AI สร้างการเคลื่อนไหวของมนุษย์ที่น่าเชื่อเป็นครั้งแรก
ประหลาดใจที่ภายในไม่กี่ปี เทคโนโลยีนี้อาจขยายไปใช้ได้ทั่วไปนอกเหนือจากตัวละครหญิงสาวหน้าตาดีตามขนบเดิม
ตั้งคำถามต่อการโพสต์ผลวิจัยบน Github แต่ไม่เปิดเผยโค้ด
คาดหวังเครื่องมือหรือชุดเครื่องมือที่จะทำให้ลองเปลี่ยนมังงะเรื่องโปรดให้เป็นแอนิเมชันได้
จินตนาการว่าในอีกไม่กี่ปีจะมีเว็บไซต์แบบ YouTube ที่วิดีโอทั้งหมดถูกสร้างแบบเรียลไทม์
วิจารณ์ว่าการเลือกภาพทดสอบไม่เหมาะสม
สงสัยว่าตัวอย่างถูกคัดมาเฉพาะที่ดี และระบบอาจ overfit กับชุดข้อมูลจนไม่สามารถ generalize ไปยังอย่างอื่นได้
จินตนาการเมื่อเทคโนโลยีนี้ถูกรวมเข้ากับการทำ 3D modeling และ VR
ตั้งคำถามว่าทำไมทุกอย่างในแวดวงนี้ถึงมีแนวโน้มไปทางเรื่องเพศ