VideoLDM - การสังเคราะห์ Text-to-Video ความละเอียดสูงด้วย Latent Diffusion Model
(research.nvidia.com)- LDM เป็นการฝึก Diffusion Model ใน latent space แบบบีบอัดที่มีมิติต่ำ ทำให้สามารถสังเคราะห์ภาพความละเอียดสูงได้โดยไม่ต้องใช้ทรัพยากรคอมพิวต์จำนวนมาก
- งานวิจัยของ NVIDIA ที่นำ LDM นี้ไปใช้กับวิดีโอความละเอียดสูง
- พรีเทรน LDM สำหรับภาพโดยเฉพาะ แล้วเพิ่ม temporal dimension พร้อมปรับจูนลำดับภาพที่ถูกเข้ารหัสอย่างละเอียด เพื่อเปลี่ยนตัวสร้างภาพให้เป็นตัวสร้างวิดีโอ
- จัดแนว diffusion model upsampler เพื่อเปลี่ยนให้เป็นโมเดลวิดีโอความละเอียดสูงมากที่มีความสอดคล้องกันตามเวลา
ยังไม่มีความคิดเห็น