15 คะแนน โดย GN⁺ 2023-12-02 | 3 ความคิดเห็น | แชร์ทาง WhatsApp

เทคนิคการสังเคราะห์ภาพเป็นวิดีโอที่มีความสอดคล้องและควบคุมได้สำหรับแอนิเมชันตัวละคร

  • แอนิเมชันตัวละครมีเป้าหมายเพื่อสร้างวิดีโอตัวละครจากภาพนิ่งโดยอาศัยสัญญาณการเคลื่อนไหว
  • โมเดล diffusion กลายเป็นกระแสหลักของงานวิจัยด้านการสร้างภาพด้วยความสามารถในการสร้างที่ทรงพลัง แต่ในงานภาพเป็นวิดีโอ โดยเฉพาะแอนิเมชันตัวละคร การคงรายละเอียดให้สอดคล้องกันตามเวลาเป็นความท้าทายสำคัญ
  • บทความนี้เสนอเฟรมเวิร์กใหม่สำหรับแอนิเมชันตัวละครโดยอาศัยข้อดีของโมเดล diffusion และออกแบบ ReferenceNet เพื่อคงลักษณะรูปลักษณ์ที่ซับซ้อนของภาพอ้างอิง โดยผสานคุณลักษณะรายละเอียดผ่าน spatial attention

วิธีการ

  • ภาพรวมของวิธีที่เสนอคือ ใช้ Pose Guider เข้ารหัสลำดับท่าทางเบื้องต้น จากนั้นผสานเข้ากับ noise แบบหลายเฟรม แล้วให้ Denoising UNet ดำเนินกระบวนการลบสัญญาณรบกวนเพื่อสร้างวิดีโอ
  • บล็อกการคำนวณของ Denoising UNet ประกอบด้วย spatial attention, cross attention และ temporal attention โดยการผสานภาพอ้างอิงมีอยู่สองด้าน
  • ประการแรก คุณลักษณะรายละเอียดที่สกัดผ่าน ReferenceNet จะถูกใช้ใน spatial attention และประการที่สอง คุณลักษณะเชิงความหมายที่สกัดผ่าน CLIP image encoder จะถูกใช้ใน cross attention
  • temporal attention ทำงานบนมิติเวลา และท้ายที่สุด VAE decoder จะถอดรหัสผลลัพธ์ออกมาเป็นคลิปวิดีโอ

แอนิเมชันตัวละครที่หลากหลาย

  • สามารถทำแอนิเมชันให้กับตัวละครหลากหลายประเภท รวมถึงมนุษย์ อนิเมะ/การ์ตูน และตัวละครฮิวแมนนอยด์
  • การสังเคราะห์วิดีโอแฟชั่นมีเป้าหมายเพื่อแปลงภาพถ่ายแฟชั่นให้เป็นวิดีโอแอนิเมชันที่สมจริง โดยทำการทดลองบนชุดข้อมูล UBC Fashion Video ด้วยข้อมูลฝึกชุดเดียวกัน
  • การสร้างการเต้นของมนุษย์มุ่งเน้นการทำให้ภาพเคลื่อนไหวในสถานการณ์การเต้นจริง โดยทำการทดลองบนชุดข้อมูล TikTok ด้วยข้อมูลฝึกชุดเดียวกัน

ความเห็นของ GN⁺

  • งานวิจัยนี้สะท้อนความก้าวหน้าที่สำคัญในด้านแอนิเมชันตัวละคร และนำเสนอวิธีใหม่ในการสร้างวิดีโอจากภาพโดยใช้โมเดล diffusion
  • เทคโนโลยีที่สามารถควบคุมการเคลื่อนไหวของตัวละครได้อย่างละเอียดพร้อมกับคงคุณลักษณะรายละเอียดของภาพอ้างอิง อาจส่งผลกระทบอย่างมากต่ออุตสาหกรรมแอนิเมชันและวิชวลเอฟเฟกต์
  • บทความนี้นำเสนอข้อมูลที่น่าสนใจเกี่ยวกับแนวทางใหม่สำหรับแอนิเมชันตัวละคร และวิธีที่แนวทางดังกล่าวสามารถนำไปใช้กับตัวละครและสถานการณ์ที่หลากหลายได้

3 ความคิดเห็น

 
laeyoung 2023-12-04

พอนึกถึงแอนิเมชันที่งานภาพพังเพราะตารางงานเลื่อนแล้ว บางทีผลลัพธ์จากทางนี้อาจจะออกมาดีกว่าก็ได้เหมือนกันนะครับ แม้ว่าในขั้นตอนโพสต์โปรดักชันก็คงยังต้องมีคนเข้ามาช่วยเก็บงานอยู่บ้างก็ตาม

 
xguru 2023-12-02

ผลงานที่ออกมานี่ไม่ธรรมดาเลยนะครับ ฝั่งวิดีโอก็กำลังพัฒนาอย่างรวดเร็วมากเช่นกัน

 
GN⁺ 2023-12-02
ความเห็นจาก Hacker News
  • ทึ่งที่ได้เห็น AI สร้างการเคลื่อนไหวของมนุษย์ที่น่าเชื่อเป็นครั้งแรก

    • โครงกระดูกของการเคลื่อนไหวจริงน่าจะมาจาก motion capture เป็นหลัก
    • สงสัยว่าระดับเทคโนโลยีปัจจุบันในการสร้างโครงกระดูกการเคลื่อนไหวที่สำคัญต่อวิดีโอเกมไปถึงไหนแล้ว
    • กล่าวถึง Rock, Paper, Scissors ของ Corridor Crew ว่าเป็นระดับสูงสุดก่อนหน้านี้ของแอนิเมชันตัวละคร AI
    • คาดว่าอุปสรรคในการเริ่มต้นสร้างแอนิเมชันจะลดลงอย่างมาก
    • องค์ประกอบชวนขนลุกเกี่ยวกับ AI girlfriend เพิ่มมากขึ้น
  • ประหลาดใจที่ภายในไม่กี่ปี เทคโนโลยีนี้อาจขยายไปใช้ได้ทั่วไปนอกเหนือจากตัวละครหญิงสาวหน้าตาดีตามขนบเดิม

  • ตั้งคำถามต่อการโพสต์ผลวิจัยบน Github แต่ไม่เปิดเผยโค้ด

    • มองว่าแนวโน้มนี้แปลก
  • คาดหวังเครื่องมือหรือชุดเครื่องมือที่จะทำให้ลองเปลี่ยนมังงะเรื่องโปรดให้เป็นแอนิเมชันได้

    • หวังว่าจะสามารถป้อนซีซัน 1 หรือ OVA เพื่อดูซีซัน 2 ได้โดยไม่ต้องรอการออกฉบับทางการ
  • จินตนาการว่าในอีกไม่กี่ปีจะมีเว็บไซต์แบบ YouTube ที่วิดีโอทั้งหมดถูกสร้างแบบเรียลไทม์

    • คาดหวังว่าทุกอย่างตั้งแต่การซ่อมเครื่องใช้ไฟฟ้าไปจนถึงการเรียนวิทยาศาสตร์จะถูกปรับให้เข้ากับระดับการเรียนรู้และความสนใจของผู้ใช้
  • วิจารณ์ว่าการเลือกภาพทดสอบไม่เหมาะสม

    • โต้แย้งว่าควรใช้ชุดข้อมูลที่หลากหลายและเป็นมาตรฐาน
    • อ้างถึงคำวิจารณ์เกี่ยวกับการใช้ภาพเชิงทางเพศในชั้นเรียนประมวลผลภาพ
  • สงสัยว่าตัวอย่างถูกคัดมาเฉพาะที่ดี และระบบอาจ overfit กับชุดข้อมูลจนไม่สามารถ generalize ไปยังอย่างอื่นได้

    • การไม่มีกรณีล้มเหลวเป็นสัญญาณที่ควรระวัง
    • แม้ในรูปแบบปัจจุบันก็อาจยังมีประโยชน์ และการจะสร้างระบบที่ทั่วไปกว่านี้ส่วนใหญ่ต้องอาศัยการเก็บข้อมูลฝึกที่เหมาะสม
  • จินตนาการเมื่อเทคโนโลยีนี้ถูกรวมเข้ากับการทำ 3D modeling และ VR

    • VR porn, วิดีโอเกมที่มีตัวละคร AI แบบไดนามิก, นักแสดงผู้ล่วงลับและบุคคลสำคัญทางประวัติศาสตร์ที่ถูกชุบชีวิตขึ้นมาใหม่ในภาพยนตร์และการศึกษา
    • ทำให้ความกลัวเกี่ยวกับบ้านพักคนชราในอนาคตลดลง
  • ตั้งคำถามว่าทำไมทุกอย่างในแวดวงนี้ถึงมีแนวโน้มไปทางเรื่องเพศ

    • แม้อาจเป็นปัญหาได้ แต่ก็มีท่าทีต้อนรับเมื่อผู้คนเปิดเผยเจตนาอย่างตรงไปตรงมา