Lightricks LTX-2 - โมเดลสร้างเสียง·วิดีโอแบบรวมตัวแรกของโอเพนซอร์ส

davespark · 2025-10-26T14:15:16+09:00

📝 TL;DR LTX-2 = มาตรฐานใหม่ของโมเดลสร้างวิดีโอมัลติโหมดแบบโอเพนซอร์ส สร้าง 4K+เสียงแบบเรียลไทม์บนฮาร์ดแวร์ระดับผู้บริโภค ปลายเดือนพฤศจิกายนจะเปิดโมเดลเวต+โค้ด+เบนช์มาร์กทั้งหมด พัฒนาโดย Lightricks และเผยแพร่บทความบน arXiv แล้ว 🔑 Key Highlights โมเดลสร้างเสียง-วิดีโอแบบซิงก์กันตัวแรกของโอเพนซอร์ส Sora 2 และ Movie Gen เป็นเชิงพาณิชย์/ปิด ส่วน LTX-2 จะเปิดโอเพนซอร์สเต็มรูปแบบปลายเดือนพฤศจิกายน สร้างวิดีโอ 4K 50fps ความยาวสูงสุด 10 วินาที พร้อมเสียงที่ซิงก์กัน ความเร็วในการสร้างที่เร็วกว่าระดับเรียลไทม์ H100: ที่ความละเอียด 768x512 สร้างวิดีโอ 5 วินาที 24fps ได้ในเวลาเพียง 2 วินาที ลดต้นทุนการประมวลผลลง 50% เมื่อเทียบกับโมเดลเดิม รันได้บน GPU ระดับผู้บริโภค (เช่น RTX 4090) นวัตกรรมของสถาปัตยกรรมไฮบริด DiT Video-VAE: อัตราการบีบอัด 1:192 (ดาวน์สเกล 32x32x8) VAE decoder ทำงานจนถึงขั้น denoising สุดท้าย → คงรายละเอียดละเอียดอ่อนได้โดยไม่ต้องมีการ upsampling แยก ทำประสิทธิภาพระดับเรียลไทม์ได้ด้วยสแตกการอนุมานแบบมัลติ GPU การควบคุมงานสร้างสรรค์อย่างละเอียด รองรับ multi-keyframe conditioning และลอจิกกล้อง 3D รักษาความสม่ำเสมอของแบรนด์สไตล์/IP ได้ด้วยการฟাইনจูน LoRA มี 3 โหมด Fast/Pro/Ultra สำหรับปรับสมดุลความเร็ว-คุณภาพ อีโคซิสเต็มที่พร้อมใช้งานทันที รวมเข้ากับ Fal.ai, Replicate, ComfyUI เรียบร้อยแล้ว ทดสอบได้ใน API Playground รองรับการเชื่อมตรงกับเครื่องมือแก้ไข, VFX stack และเกมเอนจิน

(aisparkup.com)

5 คะแนน โดย davespark 2025-10-26 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

📝 TL;DR

LTX-2 = มาตรฐานใหม่ของโมเดลสร้างวิดีโอมัลติโหมดแบบโอเพนซอร์ส
สร้าง 4K+เสียงแบบเรียลไทม์บนฮาร์ดแวร์ระดับผู้บริโภค
ปลายเดือนพฤศจิกายนจะเปิดโมเดลเวต+โค้ด+เบนช์มาร์กทั้งหมด
พัฒนาโดย Lightricks และเผยแพร่บทความบน arXiv แล้ว

🔑 Key Highlights

โมเดลสร้างเสียง-วิดีโอแบบซิงก์กันตัวแรกของโอเพนซอร์ส
- Sora 2 และ Movie Gen เป็นเชิงพาณิชย์/ปิด ส่วน LTX-2 จะเปิดโอเพนซอร์สเต็มรูปแบบปลายเดือนพฤศจิกายน
- สร้างวิดีโอ 4K 50fps ความยาวสูงสุด 10 วินาที พร้อมเสียงที่ซิงก์กัน
ความเร็วในการสร้างที่เร็วกว่าระดับเรียลไทม์
- H100: ที่ความละเอียด 768x512 สร้างวิดีโอ 5 วินาที 24fps ได้ในเวลาเพียง 2 วินาที
- ลดต้นทุนการประมวลผลลง 50% เมื่อเทียบกับโมเดลเดิม
- รันได้บน GPU ระดับผู้บริโภค (เช่น RTX 4090)
นวัตกรรมของสถาปัตยกรรมไฮบริด DiT
- Video-VAE: อัตราการบีบอัด 1:192 (ดาวน์สเกล 32x32x8)
- VAE decoder ทำงานจนถึงขั้น denoising สุดท้าย → คงรายละเอียดละเอียดอ่อนได้โดยไม่ต้องมีการ upsampling แยก
- ทำประสิทธิภาพระดับเรียลไทม์ได้ด้วยสแตกการอนุมานแบบมัลติ GPU
การควบคุมงานสร้างสรรค์อย่างละเอียด
- รองรับ multi-keyframe conditioning และลอจิกกล้อง 3D
- รักษาความสม่ำเสมอของแบรนด์สไตล์/IP ได้ด้วยการฟাইনจูน LoRA
- มี 3 โหมด Fast/Pro/Ultra สำหรับปรับสมดุลความเร็ว-คุณภาพ
อีโคซิสเต็มที่พร้อมใช้งานทันที
- รวมเข้ากับ Fal.ai, Replicate, ComfyUI เรียบร้อยแล้ว
- ทดสอบได้ใน API Playground
- รองรับการเชื่อมตรงกับเครื่องมือแก้ไข, VFX stack และเกมเอนจิน

Lightricks LTX-2 - โมเดลสร้างเสียง·วิดีโอแบบรวมตัวแรกของโอเพนซอร์ส

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น