- ช่วงหลังมานี้มีโมเดลสร้างวิดีโอออกมาหลายตัวและแสดงคุณภาพภาพที่น่าทึ่ง แต่ข้อจำกัดในปัจจุบันคือยังขาดความสามารถในการสร้างการเคลื่อนไหวขนาดใหญ่ที่สอดคล้องกันได้อย่างต่อเนื่อง
- VideoPoet เป็น LLM ที่สามารถทำงานสร้างวิดีโอได้หลากหลาย เช่น ข้อความเป็นวิดีโอ, ภาพเป็นวิดีโอ, การใส่สไตล์ให้วิดีโอ, วิดีโออินเพนต์ติ้งและเอาต์เพนต์ติ้ง, รวมถึงการสร้างวิดีโอ-เสียง
- ต่างจากโมเดลอื่นที่พึ่งพาองค์ประกอบซึ่งเก่งเฉพาะงานแต่ละแบบ VideoPoet รวมความสามารถเหล่านี้ไว้ภายใน LLM เดียว
- สามารถแปลงภาพให้มีการเคลื่อนไหว และแก้ไขวิดีโอเพื่อทำอินเพนต์ติ้งหรือเอาต์เพนต์ติ้งได้
- VideoPoet ฝึกโมเดลภาษาแบบอัตโนมัติถดถอยโดยใช้โทเคนไนเซอร์หลายตัวเพื่อเรียนรู้โมดาลิตีของวิดีโอ ภาพ เสียง และข้อความ
- สำหรับ text-to-video เอาต์พุตวิดีโอมีความยาวแปรผันได้ และสามารถใช้การเคลื่อนไหวกับสไตล์ที่หลากหลายตามเนื้อหาของข้อความ
- สำหรับ image-to-video จะทำให้ภาพอินพุตเคลื่อนไหวเป็นแอนิเมชันร่วมกับพรอมป์ต์
- ในงานวิดีโอสไตลิง จะทำนายข้อมูล Optical Flow และ Depth ก่อน แล้วจึงป้อนเข้า VideoPoet พร้อมข้อความอินพุตเพิ่มเติม
- VideoPoet ยังสามารถสร้างเสียงได้ ทำให้โมเดลเดียวสามารถสร้างทั้งวิดีโอและเสียงได้
- จากผลการประเมินงานสร้าง โดยเฉลี่ยผู้คนประเมินว่า VideoPoet ทำตามพรอมป์ต์ได้ดีกว่า และสร้างการเคลื่อนไหวที่น่าสนใจยิ่งกว่า
- VideoPoet แสดงให้เห็นว่า LLM มีความสามารถในการแข่งขันในการสร้างการเคลื่อนไหวที่น่าสนใจและคุณภาพสูงภายในวิดีโอ
ยังไม่มีความคิดเห็น