📝 TL;DR
- LTX-2 = มาตรฐานใหม่ของโมเดลสร้างวิดีโอมัลติโหมดแบบโอเพนซอร์ส
- สร้าง 4K+เสียงแบบเรียลไทม์บนฮาร์ดแวร์ระดับผู้บริโภค
- ปลายเดือนพฤศจิกายนจะเปิดโมเดลเวต+โค้ด+เบนช์มาร์กทั้งหมด
- พัฒนาโดย Lightricks และเผยแพร่บทความบน arXiv แล้ว
🔑 Key Highlights
-
โมเดลสร้างเสียง-วิดีโอแบบซิงก์กันตัวแรกของโอเพนซอร์ส
- Sora 2 และ Movie Gen เป็นเชิงพาณิชย์/ปิด ส่วน LTX-2 จะเปิดโอเพนซอร์สเต็มรูปแบบปลายเดือนพฤศจิกายน
- สร้างวิดีโอ 4K 50fps ความยาวสูงสุด 10 วินาที พร้อมเสียงที่ซิงก์กัน
-
ความเร็วในการสร้างที่เร็วกว่าระดับเรียลไทม์
- H100: ที่ความละเอียด 768x512 สร้างวิดีโอ 5 วินาที 24fps ได้ในเวลาเพียง 2 วินาที
- ลดต้นทุนการประมวลผลลง 50% เมื่อเทียบกับโมเดลเดิม
- รันได้บน GPU ระดับผู้บริโภค (เช่น RTX 4090)
-
นวัตกรรมของสถาปัตยกรรมไฮบริด DiT
- Video-VAE: อัตราการบีบอัด 1:192 (ดาวน์สเกล 32x32x8)
- VAE decoder ทำงานจนถึงขั้น denoising สุดท้าย → คงรายละเอียดละเอียดอ่อนได้โดยไม่ต้องมีการ upsampling แยก
- ทำประสิทธิภาพระดับเรียลไทม์ได้ด้วยสแตกการอนุมานแบบมัลติ GPU
-
การควบคุมงานสร้างสรรค์อย่างละเอียด
- รองรับ multi-keyframe conditioning และลอจิกกล้อง 3D
- รักษาความสม่ำเสมอของแบรนด์สไตล์/IP ได้ด้วยการฟাইনจูน LoRA
- มี 3 โหมด Fast/Pro/Ultra สำหรับปรับสมดุลความเร็ว-คุณภาพ
-
อีโคซิสเต็มที่พร้อมใช้งานทันที
- รวมเข้ากับ Fal.ai, Replicate, ComfyUI เรียบร้อยแล้ว
- ทดสอบได้ใน API Playground
- รองรับการเชื่อมตรงกับเครื่องมือแก้ไข, VFX stack และเกมเอนจิน
ยังไม่มีความคิดเห็น