Animate Anyone: เทคโนโลยีสังเคราะห์ภาพเป็นวิดีโอสำหรับแอนิเมชันตัวละคร

(humanaigc.github.io)

15 คะแนน โดย GN⁺ 2023-12-02 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

เทคนิคการสังเคราะห์ภาพเป็นวิดีโอที่มีความสอดคล้องและควบคุมได้สำหรับแอนิเมชันตัวละคร

แอนิเมชันตัวละครมีเป้าหมายเพื่อสร้างวิดีโอตัวละครจากภาพนิ่งโดยอาศัยสัญญาณการเคลื่อนไหว
โมเดล diffusion กลายเป็นกระแสหลักของงานวิจัยด้านการสร้างภาพด้วยความสามารถในการสร้างที่ทรงพลัง แต่ในงานภาพเป็นวิดีโอ โดยเฉพาะแอนิเมชันตัวละคร การคงรายละเอียดให้สอดคล้องกันตามเวลาเป็นความท้าทายสำคัญ
บทความนี้เสนอเฟรมเวิร์กใหม่สำหรับแอนิเมชันตัวละครโดยอาศัยข้อดีของโมเดล diffusion และออกแบบ ReferenceNet เพื่อคงลักษณะรูปลักษณ์ที่ซับซ้อนของภาพอ้างอิง โดยผสานคุณลักษณะรายละเอียดผ่าน spatial attention

วิธีการ

ภาพรวมของวิธีที่เสนอคือ ใช้ Pose Guider เข้ารหัสลำดับท่าทางเบื้องต้น จากนั้นผสานเข้ากับ noise แบบหลายเฟรม แล้วให้ Denoising UNet ดำเนินกระบวนการลบสัญญาณรบกวนเพื่อสร้างวิดีโอ
บล็อกการคำนวณของ Denoising UNet ประกอบด้วย spatial attention, cross attention และ temporal attention โดยการผสานภาพอ้างอิงมีอยู่สองด้าน
ประการแรก คุณลักษณะรายละเอียดที่สกัดผ่าน ReferenceNet จะถูกใช้ใน spatial attention และประการที่สอง คุณลักษณะเชิงความหมายที่สกัดผ่าน CLIP image encoder จะถูกใช้ใน cross attention
temporal attention ทำงานบนมิติเวลา และท้ายที่สุด VAE decoder จะถอดรหัสผลลัพธ์ออกมาเป็นคลิปวิดีโอ

แอนิเมชันตัวละครที่หลากหลาย

สามารถทำแอนิเมชันให้กับตัวละครหลากหลายประเภท รวมถึงมนุษย์ อนิเมะ/การ์ตูน และตัวละครฮิวแมนนอยด์
การสังเคราะห์วิดีโอแฟชั่นมีเป้าหมายเพื่อแปลงภาพถ่ายแฟชั่นให้เป็นวิดีโอแอนิเมชันที่สมจริง โดยทำการทดลองบนชุดข้อมูล UBC Fashion Video ด้วยข้อมูลฝึกชุดเดียวกัน
การสร้างการเต้นของมนุษย์มุ่งเน้นการทำให้ภาพเคลื่อนไหวในสถานการณ์การเต้นจริง โดยทำการทดลองบนชุดข้อมูล TikTok ด้วยข้อมูลฝึกชุดเดียวกัน

ความเห็นของ GN⁺

งานวิจัยนี้สะท้อนความก้าวหน้าที่สำคัญในด้านแอนิเมชันตัวละคร และนำเสนอวิธีใหม่ในการสร้างวิดีโอจากภาพโดยใช้โมเดล diffusion
เทคโนโลยีที่สามารถควบคุมการเคลื่อนไหวของตัวละครได้อย่างละเอียดพร้อมกับคงคุณลักษณะรายละเอียดของภาพอ้างอิง อาจส่งผลกระทบอย่างมากต่ออุตสาหกรรมแอนิเมชันและวิชวลเอฟเฟกต์
บทความนี้นำเสนอข้อมูลที่น่าสนใจเกี่ยวกับแนวทางใหม่สำหรับแอนิเมชันตัวละคร และวิธีที่แนวทางดังกล่าวสามารถนำไปใช้กับตัวละครและสถานการณ์ที่หลากหลายได้

3 ความคิดเห็น

laeyoung 2023-12-04

พอนึกถึงแอนิเมชันที่งานภาพพังเพราะตารางงานเลื่อนแล้ว บางทีผลลัพธ์จากทางนี้อาจจะออกมาดีกว่าก็ได้เหมือนกันนะครับ แม้ว่าในขั้นตอนโพสต์โปรดักชันก็คงยังต้องมีคนเข้ามาช่วยเก็บงานอยู่บ้างก็ตาม

xguru 2023-12-02

ผลงานที่ออกมานี่ไม่ธรรมดาเลยนะครับ ฝั่งวิดีโอก็กำลังพัฒนาอย่างรวดเร็วมากเช่นกัน

GN⁺ 2023-12-02

ความเห็นจาก Hacker News

ทึ่งที่ได้เห็น AI สร้างการเคลื่อนไหวของมนุษย์ที่น่าเชื่อเป็นครั้งแรก
- โครงกระดูกของการเคลื่อนไหวจริงน่าจะมาจาก motion capture เป็นหลัก
- สงสัยว่าระดับเทคโนโลยีปัจจุบันในการสร้างโครงกระดูกการเคลื่อนไหวที่สำคัญต่อวิดีโอเกมไปถึงไหนแล้ว
- กล่าวถึง Rock, Paper, Scissors ของ Corridor Crew ว่าเป็นระดับสูงสุดก่อนหน้านี้ของแอนิเมชันตัวละคร AI
- คาดว่าอุปสรรคในการเริ่มต้นสร้างแอนิเมชันจะลดลงอย่างมาก
- องค์ประกอบชวนขนลุกเกี่ยวกับ AI girlfriend เพิ่มมากขึ้น
ประหลาดใจที่ภายในไม่กี่ปี เทคโนโลยีนี้อาจขยายไปใช้ได้ทั่วไปนอกเหนือจากตัวละครหญิงสาวหน้าตาดีตามขนบเดิม
ตั้งคำถามต่อการโพสต์ผลวิจัยบน Github แต่ไม่เปิดเผยโค้ด
- มองว่าแนวโน้มนี้แปลก
คาดหวังเครื่องมือหรือชุดเครื่องมือที่จะทำให้ลองเปลี่ยนมังงะเรื่องโปรดให้เป็นแอนิเมชันได้
- หวังว่าจะสามารถป้อนซีซัน 1 หรือ OVA เพื่อดูซีซัน 2 ได้โดยไม่ต้องรอการออกฉบับทางการ
จินตนาการว่าในอีกไม่กี่ปีจะมีเว็บไซต์แบบ YouTube ที่วิดีโอทั้งหมดถูกสร้างแบบเรียลไทม์
- คาดหวังว่าทุกอย่างตั้งแต่การซ่อมเครื่องใช้ไฟฟ้าไปจนถึงการเรียนวิทยาศาสตร์จะถูกปรับให้เข้ากับระดับการเรียนรู้และความสนใจของผู้ใช้
วิจารณ์ว่าการเลือกภาพทดสอบไม่เหมาะสม
- โต้แย้งว่าควรใช้ชุดข้อมูลที่หลากหลายและเป็นมาตรฐาน
- อ้างถึงคำวิจารณ์เกี่ยวกับการใช้ภาพเชิงทางเพศในชั้นเรียนประมวลผลภาพ
สงสัยว่าตัวอย่างถูกคัดมาเฉพาะที่ดี และระบบอาจ overfit กับชุดข้อมูลจนไม่สามารถ generalize ไปยังอย่างอื่นได้
- การไม่มีกรณีล้มเหลวเป็นสัญญาณที่ควรระวัง
- แม้ในรูปแบบปัจจุบันก็อาจยังมีประโยชน์ และการจะสร้างระบบที่ทั่วไปกว่านี้ส่วนใหญ่ต้องอาศัยการเก็บข้อมูลฝึกที่เหมาะสม
จินตนาการเมื่อเทคโนโลยีนี้ถูกรวมเข้ากับการทำ 3D modeling และ VR
- VR porn, วิดีโอเกมที่มีตัวละคร AI แบบไดนามิก, นักแสดงผู้ล่วงลับและบุคคลสำคัญทางประวัติศาสตร์ที่ถูกชุบชีวิตขึ้นมาใหม่ในภาพยนตร์และการศึกษา
- ทำให้ความกลัวเกี่ยวกับบ้านพักคนชราในอนาคตลดลง
ตั้งคำถามว่าทำไมทุกอย่างในแวดวงนี้ถึงมีแนวโน้มไปทางเรื่องเพศ
- แม้อาจเป็นปัญหาได้ แต่ก็มีท่าทีต้อนรับเมื่อผู้คนเปิดเผยเจตนาอย่างตรงไปตรงมา