แชร์ทั้งวิธีการและโค้ดแบบโอเพนซอร์ส(open-source) เพื่อให้สามารถทำ video editing ได้อย่างอิสระแบบไม่ต้องฝึก (training-free) 🌱

  • Video Editing: หมายถึงการสร้างวิดีโอโดยเพิ่มสิ่งที่ผู้ใช้ต้องการลงในวิดีโออินพุตผ่าน text prompt (กล่าวคือ ความสอดคล้อง ระหว่างวิดีโออินพุตและเอาต์พุตเป็นสิ่งสำคัญ)
  • Training-Free Video Editing: โดยไม่ต้องฝึกเพิ่มเติม จะเป็นการปรับแต่ง latent vector ภายใน diffusion model ระหว่างกระบวนการ inference เพื่อ ชี้นำให้วิดีโอถูกสร้างตาม text prompt ที่ผู้ใช้ต้องการ 🐬

ได้พัฒนาโค้ดสำหรับทำ video-editing บนพื้นฐานของโมเดล WAN2.1-T2V-1.3B ซึ่งกำลังได้รับความสนใจในวงการ video generation ช่วงนี้ 🔮

  • นำ training-free methods ที่เคยใช้ใน Image Editing มาประยุกต์กับ WAN2.1
    • FlowEdit & FlowAlign

ยิ่งไปกว่านั้น ผู้เขียนยังเสนอวิธีการชื่อ WANAlign2.1 🌠 🛠️

  • เป็นวิธีที่ทำ masking เฉพาะบริเวณที่จะทำการแก้ไขใน attention map เพื่อ เพิ่มความสอดคล้องกับวิดีโออินพุตให้ดียิ่งขึ้น

🌟🌟หวังว่าจะนำไปใช้งานกันได้อย่างอิสระ และถ้าสนใจก็กดดาวให้ด้วย🌟🌟!!

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น