- ใช้ Normalizing Flow เพื่อสร้างวิดีโอโดยตรงจากอินพุตข้อความ ภาพ และวิดีโอ และเป็น โมเดลสร้างวิดีโอเชิงสาเหตุแบบออโตรีเกรสซีฟตัวแรก
- รองรับการใช้งานแบบ การฝึก End-to-End, การประมาณความน่าจะเป็นที่แม่นยำ, และ งานการสร้างหลายประเภท (T2V/I2V/V2V) ในโมเดลเดียว
- เพิ่มความสอดคล้องเชิงอวกาศ-เวลาและประสิทธิภาพด้วย สถาปัตยกรรม Global-Local, Flow-Score Matching, และ การทำซ้ำ Jacobi แบบรับรู้วิดีโอ
- โมเดลขนาด 7B พารามิเตอร์ สร้างวิดีโอที่ 480p และ 16fps โดยฝึกด้วยข้อมูล 70M ข้อความ-วิดีโอ และ 400M ข้อความ-ภาพ
- แสดงให้เห็นว่า Normalizing Flow สามารถบรรลุคุณภาพใกล้เคียงกับ โมเดลแบบ diffusion และพิสูจน์ศักยภาพของ การสร้างวิดีโอแบบออโตรีเกรสซีฟคุณภาพสูง
ภาพรวม STARFlow-V
- STARFlow-V คือ โมเดลสร้างวิดีโอเชิงสาเหตุบนพื้นฐาน Normalizing Flow ที่บรรลุคุณภาพภาพระดับเดียวกับโมเดล diffusion
- ให้ความสามารถพร้อมกันทั้ง การฝึกแบบ End-to-End, การประมาณความน่าจะเป็นที่แม่นยำ, และ การรองรับงานสร้างหลายประเภท
- ในขณะที่วงการสร้างวิดีโอยังคงถูกครอบงำโดยโมเดล diffusion, STARFlow-V ยืนยันความเป็นไปได้เชิงปฏิบัติของ Normalizing Flow
- สามารถรองรับการสร้าง Text-to-Video (T2V), Image-to-Video (I2V) และ Video-to-Video (V2V) ได้ด้วย โครงสร้างเพียงแบบเดียว
โครงสร้างการออกแบบหลักและโครงสร้างการฝึก
- โมเดลประกอบด้วย Deep Autoregressive Block (อนุมานลำดับเวลาครอบคลุมในระดับ global) และ Shallow Flow Block (การถ่ายทอดรายละเอียดภายในเฟรม)
- ส่วนแรกจับความสัมพันธ์เชิงพึ่งพาระยะยาว (long-range dependency) ใน latent space เชิงพื้นที่-เวลา
- ส่วนที่สองจำลองรายละเอียดเชิงพื้นที่ท้องถิ่นของแต่ละเฟรม
- Flow-Score Matching ใช้ฝึก ตัวกำจัดสัญญาณรบกวนเชิงสาเหตุแบบน้ำหนักเบา เพื่อปรับปรุงความสอดคล้องของเอาต์พุต
- เป้าหมายการเรียนรู้มีโครงสร้างวัตถุประสงค์แบบคู่: การประมาณ likelihood สูงสุด และ Flow-Score Matching
การมีส่วนร่วมทางเทคนิคหลัก
- สถาปัตยกรรม Global-Local
- บล็อก Transformer เชิงสาเหตุระดับ global จัดการความพึ่งพาเชิงพื้นที่-เวลาแบบระยะยาว
- บล็อก flow แบบตื้นระดับเฟรมรับผิดชอบการจำลองรายละเอียดเชิงท้องถิ่น
- ลดปัญหาความผิดพลาดสะสมในโมเดลออโตรีเกรสซีฟระดับพิกเซล
- ตัวลดสัญญาณรบกวนด้วย Flow-Score Matching
- ฝึก ตัวลดสัญญาณรบกวนประสาทเชิงสาเหตุ ร่วมกันเพื่อทำนายส่วนชันของการแจกแจงความน่าจะเป็น (score) ของโมเดล
- สามารถทำ การปรับปรุงผลลัพธ์ขั้นตอนเดียว โดยไม่ต้องพึ่ง external denoiser ที่ไม่เชิงสาเหตุหรือล้มเหลว/ไม่สมบูรณ์
- การทำซ้ำ Jacobi แบบรับรู้วิดีโอ
- รีคอนสตรัคต์ กระบวนการสร้างเป็นการแก้ระบบสมการเชิงไม่เชิงเส้นเพื่อทำ การอัปเดต latent แบบขนาน
- เร่งความเร็วด้วยการเริ่มต้นจากข้อมูลลำดับเวลาของเฟรมข้างเคียงและการรันแบบ pipeline
ข้อมูลจำเพาะของโมเดล
- ข้อมูลการฝึก: 70M คู่ข้อความ-วิดีโอ, 400M คู่ข้อความ-ภาพ
- ขนาดโมเดล: 7B พารามิเตอร์, ความละเอียดเอาต์พุต 480p, อัตราเฟรม 16fps
- คุณสมบัติกลับคืนของ Normalizing Flow ช่วยให้สามารถทำงานสร้างหลายงานได้หลากหลาย โดยไม่ต้องเปลี่ยนโครงสร้างหรือฝึกใหม่
ผลลัพธ์การสร้างและการเปรียบเทียบ
- Text-to-Video: สร้างฉากหลากหลายได้คุณภาพสูง เช่น แสงธรรมชาติ ลุคแบบสมจริง และมุมมองมาโคร
- Image-to-Video: ขยายวิดีโอจากภาพอินพุตโดยยังคงความสอดคล้องทางเวลาได้
- Video-to-Video: ปรับเปลี่ยนได้หลายรูปแบบ เช่น เพิ่มวัตถุ, เปลี่ยนสี, เปลี่ยนสไตล์, และ Inpainting
- การสร้างวิดีโอยาว: ผลิตวิดีโอความยาว 10-30 วินาที แบบออโตรีเกรสซีฟเป็นช่วง ๆ
- การทดลองเปรียบเทียบ: ให้ผลลัพธ์เด่นชัดกว่า NOVA และ WAN-Causal ทั้งในด้าน ความสมจริงทางภาพ และ ความสอดคล้องตามเวลา
ข้อจำกัดและกรณีที่ยังล้มเหลว
- คุณภาพอาจลดลงเมื่อเผชิญกับการโต้ตอบทางฟิสิกส์ที่ซับซ้อนหรือการเคลื่อนไหวรวดเร็ว
- สาเหตุระบุว่าเกิดจาก ข้อจำกัดด้านทรัพยากรการฝึก, ข้อมูลคุณภาพต่ำ, และ การขาดการปรับแต่งละเอียดต่อเนื่อง (SFT/RL)
- ตัวอย่างเช่น การส่ายตัวของสุนัขที่ตัวเปียก หรือแกะที่กระโดด พบการเคลื่อนไหวที่ไม่ธรรมชาติ
นัยสำคัญเชิงการวิจัย
- STARFlow-V เป็นครั้งแรกที่ยืนยันว่า Normalizing Flow เหมาะสำหรับการสร้างวิดีโอแบบออโตรีเกรสซีฟคุณภาพสูง
- เสนอทิศทางทางเลือกใหม่ให้กับงานวิจัยการสร้างวิดีโอที่เน้นโมเดล diffusion
- ถูกประเมินว่าเป็นแนวทางวิจัยที่มีศักยภาพสูงสำหรับการสร้าง world model
1 ความคิดเห็น
ความคิดเห็นบน Hacker News
Apple ก็มีโมเดลทำความเข้าใจวิดีโอเหมือนกัน
ในฐานะคนพิการทางสายตา AI ได้เปลี่ยนชีวิตฉันไปอย่างสิ้นเชิง ฉันตื่นเต้นมากว่าจะพัฒนาฟีเจอร์ด้านการเข้าถึงได้อย่างไรด้วยโมเดลนี้
ไลเซนส์ ของ Apple จำกัดไว้เพื่อการวิจัยที่ไม่ใช่เชิงพาณิชย์เท่านั้น จึงไม่สอดคล้องกับนิยามโอเพนซอร์ส
ดังนั้นผมคิดว่าเรียกว่า ‘weights available’ จะถูกต้องกว่า ‘โอเพนซอร์ส’
ตามกฎหมายสหรัฐฯ น้ำหนักโมเดลไม่ถือเป็นงานสร้างสรรค์แต่เป็นผลลัพธ์จากเครื่องจักร จึงมองว่าไม่มีลิขสิทธิ์
เพราะงั้นผมน่าจะไม่สนใจไลเซนส์ไร้ความหมายแบบนี้และใช้งานอย่างอิสระ
แนวคิดเรื่อง “โมเดลโอเพนเวต” ให้ความรู้สึกเหมือน**‘Windows เวอร์ชัน machine code แบบโอเพนซอร์ส’** เลยทำให้รู้สึกขัดๆ
อย่างน้อยก็ยังดีที่ไลเซนส์ของ Apple เป็นแนว Clickwrap MIT ที่ให้สิทธิ์แก้ไขและแจกจ่ายต่อได้
ถึงอย่างนั้นการใช้งานไบนารีได้โดยตรงก็ยังดีกว่ามีแค่ SaaS ให้ใช้
โอเพนเวตต่างจากไฟล์รันอย่างเดียวตรงที่สามารถรีเทรนหรือทำdistillationได้
ผมดูตัวอย่าง text-to-videoแล้ว พูดตรงๆ ว่าไม่ค่อยน่าประทับใจ
มันทำให้นึกถึงวิดีโอ Will Smith กินเส้นก๋วยเตี๋ยวสมัยก่อน ผมพลาดอะไรไปหรือเปล่า?
ถึงอย่างนั้นการเปิดให้เหล่านักวิจัยนำไปทดลองก็ยังมีความหมาย
แม้จะยังไม่สมบูรณ์ แต่ในบรรดาโมเดลที่เปิดเผยสู่สาธารณะ มันอาจอยู่ในระดับก้าวหน้าที่สุดก็ได้
เพียงแต่ยังสงสัยว่าไลเซนส์นั้น ‘เปิด’ มากพอหรือไม่
โปรเจกต์นี้ในฐานะงานวิจัยได้แสดงให้เห็นถึงความพยายามใหม่และความเป็นไปได้
แต่ในมุมมองผลิตภัณฑ์ก็เห็นชัดว่ามีข้อจำกัดด้านทรัพยากรคอมพิวต์
ซึ่งสอดคล้องกับรายงานที่ว่า CFO ขัดขวางการตัดสินใจลงทุนโครงสร้างพื้นฐาน ML ของ CEO
เมื่อพิจารณาจากการลาออกของ JG การปรับโครงสร้างครั้งใหญ่ในฝ่าย AI และข่าวลือว่า Tim จะลงจากตำแหน่งในปี 2026
ดูเหมือนว่าฝ่ายที่ไม่ใช่ ML จะชนะในเกมการเมืองภายในบริษัท
ถึงอย่างนั้นแนวทางนี้ก็น่าสนใจ จึงหวังว่าคนอื่นจะนำไปต่อยอดเป็นสิ่งที่มีประโยชน์ได้
ตามบทความวิจัย โมเดลนี้เป็นโมเดลเพื่อการวิจัยที่พยายามแก้ปัญหาข้อผิดพลาดสะสมของโมเดลวิดีโอแบบ diffusion
โดยออกแบบ latent space ให้มีโครงสร้างแบบcausalเพื่อเพิ่มความสอดคล้อง
สำหรับโมเดลขนาด 7B ผลลัพธ์ถือว่าค่อนข้างดี
ถ้า Apple จะปล่อยโมเดลระดับเดียวกับ wan หรือ veo จริง ก็น่าจะผ่านการฝึกด้วยข้อมูลที่คัดสรรอย่างประณีตมาก
มีการบอกว่า STARFlow-V ฝึกด้วยวิดีโอราว 20 ล้านรายการโดยใช้GPU H100 จำนวน 96 ตัว
แต่ไม่ได้ระบุระยะเวลาฝึก
เลยสงสัยว่าตัวอย่างใน repo จะรัน inference บน Mac ได้ไหม
ชื่อเรื่องผิด โมเดลนี้ยังไม่ถูกเผยแพร่ และในลิงก์ก็ไม่มีข้อความแบบนั้น
เลยสงสัยว่าทำไมถึงใช้ชื่อที่ถูกแก้ไขแบบนี้
โมเดลดูดีอยู่ แต่ก็สงสัยว่า Apple มีกรณีการใช้งานแบบไหนในใจ
หรืออาจเป็นแค่ความสนใจของนักวิจัยเองก็ได้ และไม่แน่ใจว่าทิศทางงานวิจัยของบริษัทใหญ่ถูกกำหนดจากบนลงล่างแค่ไหน
มีสายสัมพันธ์ต่อเนื่องมาตั้งแต่ยุค Jobs
อีกไม่นาน TikTok หรือ Instagram ก็คงใส่ฟีเจอร์แบบนี้ แต่ Apple ดูเหมือนอยากทำเอง
ส่วนตัวคิดว่าการซื้อกิจการ Snapchatน่าจะเป็นกลยุทธ์ที่ดี
ใน repo เขียนไว้ว่า “Pretrained checkpoints will be released soon”
หมายความว่าตอนนี้ยังไม่ใช่โอเพนเวต
จะเป็นโมเดลเปิดอย่างแท้จริงได้ก็ต่อเมื่อมีการปล่อยน้ำหนักโมเดลจริง
คำว่า “Soon” จะหมายถึงเมื่อไรก็ยังไม่มีใครรู้