VideoLDM - การสังเคราะห์ Text-to-Video ความละเอียดสูงด้วย Latent Diffusion Model

xguru · 2023-04-22T10:18:01+09:00

LDM เป็นการฝึก Diffusion Model ใน latent space แบบบีบอัดที่มีมิติต่ำ ทำให้สามารถสังเคราะห์ภาพความละเอียดสูงได้โดยไม่ต้องใช้ทรัพยากรคอมพิวต์จำนวนมาก งานวิจัยของ NVIDIA ที่นำ LDM นี้ไปใช้กับวิดีโอความละเอียดสูง พรีเทรน LDM สำหรับภาพโดยเฉพาะ แล้วเพิ่ม temporal dimension พร้อมปรับจูนลำดับภาพที่ถูกเข้ารหัสอย่างละเอียด เพื่อเปลี่ยนตัวสร้างภาพให้เป็นตัวสร้างวิดีโอ จัดแนว diffusion model upsampler เพื่อเปลี่ยนให้เป็นโมเดลวิดีโอความละเอียดสูงมากที่มีความสอดคล้องกันตามเวลา

(research.nvidia.com)

7 คะแนน โดย xguru 2023-04-22 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

LDM เป็นการฝึก Diffusion Model ใน latent space แบบบีบอัดที่มีมิติต่ำ ทำให้สามารถสังเคราะห์ภาพความละเอียดสูงได้โดยไม่ต้องใช้ทรัพยากรคอมพิวต์จำนวนมาก
งานวิจัยของ NVIDIA ที่นำ LDM นี้ไปใช้กับวิดีโอความละเอียดสูง
พรีเทรน LDM สำหรับภาพโดยเฉพาะ แล้วเพิ่ม temporal dimension พร้อมปรับจูนลำดับภาพที่ถูกเข้ารหัสอย่างละเอียด เพื่อเปลี่ยนตัวสร้างภาพให้เป็นตัวสร้างวิดีโอ
จัดแนว diffusion model upsampler เพื่อเปลี่ยนให้เป็นโมเดลวิดีโอความละเอียดสูงมากที่มีความสอดคล้องกันตามเวลา

VideoLDM - การสังเคราะห์ Text-to-Video ความละเอียดสูงด้วย Latent Diffusion Model

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น