2 คะแนน โดย GN⁺ 2025-04-21 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • เป็นงานวิจัยเกี่ยวกับวิธีการแพ็ก input frame context ใน โมเดลทำนายเฟรมถัดไป สำหรับ การสร้างวิดีโอ
  • FramePack เป็นวิธีที่ช่วยให้ทำ การทำนายเฟรม ได้อย่างมีประสิทธิภาพ โดยปรับ layout หน่วยความจำ GPU ให้เหมาะสม
  • จัดสรร ทรัพยากร GPU ตาม ความสำคัญของเฟรม เพื่อลด ความซับซ้อนในการคำนวณ ลงเหลือ O(1)
  • เสนอ การสุ่มตัวอย่างแบบสองทิศทาง เพื่อแก้ปัญหา drifting
  • เน้นวิธี reverse anti-drifting sampling ที่ให้ความสำคัญกับ เฟรมแรก ในงาน แปลงภาพเป็นวิดีโอ

การแพ็กเฟรมอินพุตในการสร้างวิดีโอ

  • โมเดลทำนายเฟรมถัดไป เป็นแนวทางที่ใช้เฟรมอินพุตหลายเฟรมเพื่อสร้างเฟรมใหม่
  • FramePack เข้ารหัสเฟรมอินพุตให้สอดคล้องกับ layout หน่วยความจำ GPU เพื่อให้สามารถ สร้างเฟรมได้อย่างมีประสิทธิภาพ
  • แต่ละเฟรมจะถูกเข้ารหัสด้วย patchification kernel และปรับ ความยาวคอนเท็กซ์ ตามระดับความสำคัญ
  • ตัวอย่างเช่น ใน HunyuanVideo เฟรม 480p จะกลายเป็น 1536 โทเค็นเมื่อใช้ patchification kernel แบบ (1, 2, 2) และจะเป็น 192 โทเค็นเมื่อใช้ patchification kernel แบบ (2, 4, 4)

ความสำคัญของเฟรมและการจัดตาราง

  • เฟรมที่สำคัญ จะได้รับการจัดสรร ทรัพยากร GPU มากกว่า
  • ผ่าน รูปแบบการบีบอัด ที่หลากหลาย สามารถทำให้เฟรมเริ่มต้นมีความสำคัญในระดับเดียวกันได้
  • การจัดตารางทั้งหมดมี ความซับซ้อน O(1)
  • ในบทความมี การประเมินอย่างละเอียด สำหรับการจัดตารางหลายรูปแบบ

ปัญหา drifting และวิธีแก้

  • Drifting คือปัญหาที่ คุณภาพลดลง เมื่อวิดีโอมีความยาวมากขึ้น
  • เรียกอีกอย่างว่า การสะสมของข้อผิดพลาด หรือ exposure bias
  • เพื่อแก้ปัญหานี้ จึงมีการ ทำลายความเป็นเหตุเป็นผล และนำ การสุ่มตัวอย่างแบบสองทิศทาง มาใช้
  • Reverse anti-drifting sampling ใช้เฟรมแรกเป็น เป้าหมายโดยประมาณ สำหรับทุกขั้นตอนการอนุมาน

ประสิทธิภาพในการแปลงภาพเป็นวิดีโอ

  • บนโน้ตบุ๊ก RTX 3060 6GB มีการใช้ 13B HY variant เพื่อสร้างวิดีโอ image-to-5-second และ image-to-60-second
  • ผลลัพธ์ถูกบีบอัดด้วย h264crf18 ให้สอดคล้องกับ GitHub repository

1 ความคิดเห็น

 
GN⁺ 2025-04-21
ความคิดเห็นจาก Hacker News
  • คนนี้เป็นอัจฉริยะ เพื่อบอกให้คนที่ไม่รู้ว่าเขาเป็นคนพัฒนา ControlNet ด้วย โมเดลนี้คือโมเดลสร้างวิดีโอที่พอใช้ได้ตัวแรกที่รันบนฮาร์ดแวร์ระดับผู้บริโภคได้ คาดหวังการรองรับ pose ของ ControlNet ได้ในเร็ว ๆ นี้
    • น่าขำดีที่โมเดลนี้เหมือนจะอยากให้คนเต้นมาก ๆ แม้แต่คนที่นั่งอยู่เพื่อการสัมภาษณ์ก็ยังเริ่มนั่งเต้น
    • ตัวอย่างต่าง ๆ น่าประทับใจมาก และทรัพยากรที่ใช้สร้างก็แทบจะน้อยนิด ดูเหมือนว่าน่าจะทำ inference บนฮาร์ดแวร์ระดับผู้บริโภครุ่นก่อนหน้าได้ด้วย อยากเห็นสถิติ throughput ของ inference บน 5090 เหมือนกัน
    • จะทำสิ่งนี้ในเชิงพื้นที่ได้ไหม? เช่น สร้างจากบนลงล่างแทนที่จะสร้างทั้งภาพในครั้งเดียว
    • โมเดลนี้สามารถใช้กับการทำ interpolation แทนการทำ video extrapolation ได้ไหม
    • น่าทึ่ง ถ้ามี RAM มากขึ้นหรือมีอย่างอื่นเพิ่ม จะทำให้เร็วขึ้นได้ไหม? จะรีดความเร็วบน H100 หรือ H200 ได้มากกว่านี้ไหม
    • ดูเหมือนว่าการเคลื่อนไหวอย่างเดียวที่โมเดลนี้ทำได้คือการเต้น