• ช่วงหลังมานี้มีโมเดลสร้างวิดีโอออกมาหลายตัวและแสดงคุณภาพภาพที่น่าทึ่ง แต่ข้อจำกัดในปัจจุบันคือยังขาดความสามารถในการสร้างการเคลื่อนไหวขนาดใหญ่ที่สอดคล้องกันได้อย่างต่อเนื่อง
  • VideoPoet เป็น LLM ที่สามารถทำงานสร้างวิดีโอได้หลากหลาย เช่น ข้อความเป็นวิดีโอ, ภาพเป็นวิดีโอ, การใส่สไตล์ให้วิดีโอ, วิดีโออินเพนต์ติ้งและเอาต์เพนต์ติ้ง, รวมถึงการสร้างวิดีโอ-เสียง
    • ต่างจากโมเดลอื่นที่พึ่งพาองค์ประกอบซึ่งเก่งเฉพาะงานแต่ละแบบ VideoPoet รวมความสามารถเหล่านี้ไว้ภายใน LLM เดียว
    • สามารถแปลงภาพให้มีการเคลื่อนไหว และแก้ไขวิดีโอเพื่อทำอินเพนต์ติ้งหรือเอาต์เพนต์ติ้งได้
  • VideoPoet ฝึกโมเดลภาษาแบบอัตโนมัติถดถอยโดยใช้โทเคนไนเซอร์หลายตัวเพื่อเรียนรู้โมดาลิตีของวิดีโอ ภาพ เสียง และข้อความ
  • สำหรับ text-to-video เอาต์พุตวิดีโอมีความยาวแปรผันได้ และสามารถใช้การเคลื่อนไหวกับสไตล์ที่หลากหลายตามเนื้อหาของข้อความ
  • สำหรับ image-to-video จะทำให้ภาพอินพุตเคลื่อนไหวเป็นแอนิเมชันร่วมกับพรอมป์ต์
  • ในงานวิดีโอสไตลิง จะทำนายข้อมูล Optical Flow และ Depth ก่อน แล้วจึงป้อนเข้า VideoPoet พร้อมข้อความอินพุตเพิ่มเติม
  • VideoPoet ยังสามารถสร้างเสียงได้ ทำให้โมเดลเดียวสามารถสร้างทั้งวิดีโอและเสียงได้
  • จากผลการประเมินงานสร้าง โดยเฉลี่ยผู้คนประเมินว่า VideoPoet ทำตามพรอมป์ต์ได้ดีกว่า และสร้างการเคลื่อนไหวที่น่าสนใจยิ่งกว่า
  • VideoPoet แสดงให้เห็นว่า LLM มีความสามารถในการแข่งขันในการสร้างการเคลื่อนไหวที่น่าสนใจและคุณภาพสูงภายในวิดีโอ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น