VideoPoet - LLM ของ Google ที่เชี่ยวชาญด้านการสร้างวิดีโอแบบ Zero-Shot

xguru · 2023-12-22T10:15:01+09:00

ช่วงหลังมานี้มีโมเดลสร้างวิดีโอออกมาหลายตัวและแสดงคุณภาพภาพที่น่าทึ่ง แต่ข้อจำกัดในปัจจุบันคือยังขาดความสามารถในการสร้างการเคลื่อนไหวขนาดใหญ่ที่สอดคล้องกันได้อย่างต่อเนื่อง VideoPoet เป็น LLM ที่สามารถทำงานสร้างวิดีโอได้หลากหลาย เช่น ข้อความเป็นวิดีโอ, ภาพเป็นวิดีโอ, การใส่สไตล์ให้วิดีโอ, วิดีโออินเพนต์ติ้งและเอาต์เพนต์ติ้ง, รวมถึงการสร้างวิดีโอ-เสียง ต่างจากโมเดลอื่นที่พึ่งพาองค์ประกอบซึ่งเก่งเฉพาะงานแต่ละแบบ VideoPoet รวมความสามารถเหล่านี้ไว้ภายใน LLM เดียว สามารถแปลงภาพให้มีการเคลื่อนไหว และแก้ไขวิดีโอเพื่อทำอินเพนต์ติ้งหรือเอาต์เพนต์ติ้งได้ VideoPoet ฝึกโมเดลภาษาแบบอัตโนมัติถดถอยโดยใช้โทเคนไนเซอร์หลายตัวเพื่อเรียนรู้โมดาลิตีของวิดีโอ ภาพ เสียง และข้อความ สำหรับ text-to-video เอาต์พุตวิดีโอมีความยาวแปรผันได้ และสามารถใช้การเคลื่อนไหวกับสไตล์ที่หลากหลายตามเนื้อหาของข้อความ สำหรับ image-to-video จะทำให้ภาพอินพุตเคลื่อนไหวเป็นแอนิเมชันร่วมกับพรอมป์ต์ ในงานวิดีโอสไตลิง จะทำนายข้อมูล Optical Flow และ Depth ก่อน แล้วจึงป้อนเข้า VideoPoet พร้อมข้อความอินพุตเพิ่มเติม VideoPoet ยังสามารถสร้างเสียงได้ ทำให้โมเดลเดียวสามารถสร้างทั้งวิดีโอและเสียงได้ จากผลการประเมินงานสร้าง โดยเฉลี่ยผู้คนประเมินว่า VideoPoet ทำตามพรอมป์ต์ได้ดีกว่า และสร้างการเคลื่อนไหวที่น่าสนใจยิ่งกว่า VideoPoet แสดงให้เห็นว่า LLM มีความสามารถในการแข่งขันในการสร้างการเคลื่อนไหวที่น่าสนใจและคุณภาพสูงภายในวิดีโอ

(blog.research.google)

5 คะแนน โดย xguru 2023-12-22 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ช่วงหลังมานี้มีโมเดลสร้างวิดีโอออกมาหลายตัวและแสดงคุณภาพภาพที่น่าทึ่ง แต่ข้อจำกัดในปัจจุบันคือยังขาดความสามารถในการสร้างการเคลื่อนไหวขนาดใหญ่ที่สอดคล้องกันได้อย่างต่อเนื่อง
VideoPoet เป็น LLM ที่สามารถทำงานสร้างวิดีโอได้หลากหลาย เช่น ข้อความเป็นวิดีโอ, ภาพเป็นวิดีโอ, การใส่สไตล์ให้วิดีโอ, วิดีโออินเพนต์ติ้งและเอาต์เพนต์ติ้ง, รวมถึงการสร้างวิดีโอ-เสียง
- ต่างจากโมเดลอื่นที่พึ่งพาองค์ประกอบซึ่งเก่งเฉพาะงานแต่ละแบบ VideoPoet รวมความสามารถเหล่านี้ไว้ภายใน LLM เดียว
- สามารถแปลงภาพให้มีการเคลื่อนไหว และแก้ไขวิดีโอเพื่อทำอินเพนต์ติ้งหรือเอาต์เพนต์ติ้งได้
VideoPoet ฝึกโมเดลภาษาแบบอัตโนมัติถดถอยโดยใช้โทเคนไนเซอร์หลายตัวเพื่อเรียนรู้โมดาลิตีของวิดีโอ ภาพ เสียง และข้อความ
สำหรับ text-to-video เอาต์พุตวิดีโอมีความยาวแปรผันได้ และสามารถใช้การเคลื่อนไหวกับสไตล์ที่หลากหลายตามเนื้อหาของข้อความ
สำหรับ image-to-video จะทำให้ภาพอินพุตเคลื่อนไหวเป็นแอนิเมชันร่วมกับพรอมป์ต์
ในงานวิดีโอสไตลิง จะทำนายข้อมูล Optical Flow และ Depth ก่อน แล้วจึงป้อนเข้า VideoPoet พร้อมข้อความอินพุตเพิ่มเติม
VideoPoet ยังสามารถสร้างเสียงได้ ทำให้โมเดลเดียวสามารถสร้างทั้งวิดีโอและเสียงได้
จากผลการประเมินงานสร้าง โดยเฉลี่ยผู้คนประเมินว่า VideoPoet ทำตามพรอมป์ต์ได้ดีกว่า และสร้างการเคลื่อนไหวที่น่าสนใจยิ่งกว่า
VideoPoet แสดงให้เห็นว่า LLM มีความสามารถในการแข่งขันในการสร้างการเคลื่อนไหวที่น่าสนใจและคุณภาพสูงภายในวิดีโอ

VideoPoet - LLM ของ Google ที่เชี่ยวชาญด้านการสร้างวิดีโอแบบ Zero-Shot

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น