📝 TL;DR

  • LTX-2 = มาตรฐานใหม่ของโมเดลสร้างวิดีโอมัลติโหมดแบบโอเพนซอร์ส
  • สร้าง 4K+เสียงแบบเรียลไทม์บนฮาร์ดแวร์ระดับผู้บริโภค
  • ปลายเดือนพฤศจิกายนจะเปิดโมเดลเวต+โค้ด+เบนช์มาร์กทั้งหมด
  • พัฒนาโดย Lightricks และเผยแพร่บทความบน arXiv แล้ว

🔑 Key Highlights

  • โมเดลสร้างเสียง-วิดีโอแบบซิงก์กันตัวแรกของโอเพนซอร์ส

    • Sora 2 และ Movie Gen เป็นเชิงพาณิชย์/ปิด ส่วน LTX-2 จะเปิดโอเพนซอร์สเต็มรูปแบบปลายเดือนพฤศจิกายน
    • สร้างวิดีโอ 4K 50fps ความยาวสูงสุด 10 วินาที พร้อมเสียงที่ซิงก์กัน
  • ความเร็วในการสร้างที่เร็วกว่าระดับเรียลไทม์

    • H100: ที่ความละเอียด 768x512 สร้างวิดีโอ 5 วินาที 24fps ได้ในเวลาเพียง 2 วินาที
    • ลดต้นทุนการประมวลผลลง 50% เมื่อเทียบกับโมเดลเดิม
    • รันได้บน GPU ระดับผู้บริโภค (เช่น RTX 4090)
  • นวัตกรรมของสถาปัตยกรรมไฮบริด DiT

    • Video-VAE: อัตราการบีบอัด 1:192 (ดาวน์สเกล 32x32x8)
    • VAE decoder ทำงานจนถึงขั้น denoising สุดท้าย → คงรายละเอียดละเอียดอ่อนได้โดยไม่ต้องมีการ upsampling แยก
    • ทำประสิทธิภาพระดับเรียลไทม์ได้ด้วยสแตกการอนุมานแบบมัลติ GPU
  • การควบคุมงานสร้างสรรค์อย่างละเอียด

    • รองรับ multi-keyframe conditioning และลอจิกกล้อง 3D
    • รักษาความสม่ำเสมอของแบรนด์สไตล์/IP ได้ด้วยการฟাইনจูน LoRA
    • มี 3 โหมด Fast/Pro/Ultra สำหรับปรับสมดุลความเร็ว-คุณภาพ
  • อีโคซิสเต็มที่พร้อมใช้งานทันที

    • รวมเข้ากับ Fal.ai, Replicate, ComfyUI เรียบร้อยแล้ว
    • ทดสอบได้ใน API Playground
    • รองรับการเชื่อมตรงกับเครื่องมือแก้ไข, VFX stack และเกมเอนจิน

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น