- เป็นงานวิจัยเกี่ยวกับวิธีการแพ็ก input frame context ใน โมเดลทำนายเฟรมถัดไป สำหรับ การสร้างวิดีโอ
- FramePack เป็นวิธีที่ช่วยให้ทำ การทำนายเฟรม ได้อย่างมีประสิทธิภาพ โดยปรับ layout หน่วยความจำ GPU ให้เหมาะสม
- จัดสรร ทรัพยากร GPU ตาม ความสำคัญของเฟรม เพื่อลด ความซับซ้อนในการคำนวณ ลงเหลือ O(1)
- เสนอ การสุ่มตัวอย่างแบบสองทิศทาง เพื่อแก้ปัญหา drifting
- เน้นวิธี reverse anti-drifting sampling ที่ให้ความสำคัญกับ เฟรมแรก ในงาน แปลงภาพเป็นวิดีโอ
การแพ็กเฟรมอินพุตในการสร้างวิดีโอ
- โมเดลทำนายเฟรมถัดไป เป็นแนวทางที่ใช้เฟรมอินพุตหลายเฟรมเพื่อสร้างเฟรมใหม่
- FramePack เข้ารหัสเฟรมอินพุตให้สอดคล้องกับ layout หน่วยความจำ GPU เพื่อให้สามารถ สร้างเฟรมได้อย่างมีประสิทธิภาพ
- แต่ละเฟรมจะถูกเข้ารหัสด้วย patchification kernel และปรับ ความยาวคอนเท็กซ์ ตามระดับความสำคัญ
- ตัวอย่างเช่น ใน HunyuanVideo เฟรม 480p จะกลายเป็น 1536 โทเค็นเมื่อใช้ patchification kernel แบบ (1, 2, 2) และจะเป็น 192 โทเค็นเมื่อใช้ patchification kernel แบบ (2, 4, 4)
ความสำคัญของเฟรมและการจัดตาราง
- เฟรมที่สำคัญ จะได้รับการจัดสรร ทรัพยากร GPU มากกว่า
- ผ่าน รูปแบบการบีบอัด ที่หลากหลาย สามารถทำให้เฟรมเริ่มต้นมีความสำคัญในระดับเดียวกันได้
- การจัดตารางทั้งหมดมี ความซับซ้อน O(1)
- ในบทความมี การประเมินอย่างละเอียด สำหรับการจัดตารางหลายรูปแบบ
ปัญหา drifting และวิธีแก้
- Drifting คือปัญหาที่ คุณภาพลดลง เมื่อวิดีโอมีความยาวมากขึ้น
- เรียกอีกอย่างว่า การสะสมของข้อผิดพลาด หรือ exposure bias
- เพื่อแก้ปัญหานี้ จึงมีการ ทำลายความเป็นเหตุเป็นผล และนำ การสุ่มตัวอย่างแบบสองทิศทาง มาใช้
- Reverse anti-drifting sampling ใช้เฟรมแรกเป็น เป้าหมายโดยประมาณ สำหรับทุกขั้นตอนการอนุมาน
ประสิทธิภาพในการแปลงภาพเป็นวิดีโอ
- บนโน้ตบุ๊ก RTX 3060 6GB มีการใช้ 13B HY variant เพื่อสร้างวิดีโอ image-to-5-second และ image-to-60-second
- ผลลัพธ์ถูกบีบอัดด้วย h264crf18 ให้สอดคล้องกับ GitHub repository
1 ความคิดเห็น
ความคิดเห็นจาก Hacker News