9 คะแนน โดย xguru 2022-10-07 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ระบบ "Text-conditional Video Generation System" ที่สร้างวิดีโอจากข้อความด้วย Video Diffusion Model
  • จุดเด่นคือสร้างวิดีโอความละเอียดต่ำ (24x48 พิกเซล, 16 เฟรม, 3fps) จากข้อความก่อน แล้วซ้อน diffusion model แบบ cascade 7 ชั้นเพื่ออัปสเกล
  • เอาต์พุตสุดท้ายคือ 1280x768 24fps และสามารถสร้างวิดีโอความยาว 5.3 วินาทีได้
  • งานวิจัย: Imagen Video : High Definition Video Generation with Diffusion Models