STARFlow-V: โมเดลสร้างวิดีโอแบบปลายทางถึงปลายทางบนพื้นฐาน Normalizing Flow

(starflow-v.github.io)

2 คะแนน โดย GN⁺ 2025-12-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

ใช้ Normalizing Flow เพื่อสร้างวิดีโอโดยตรงจากอินพุตข้อความ ภาพ และวิดีโอ และเป็น โมเดลสร้างวิดีโอเชิงสาเหตุแบบออโตรีเกรสซีฟตัวแรก
รองรับการใช้งานแบบ การฝึก End-to-End, การประมาณความน่าจะเป็นที่แม่นยำ, และ งานการสร้างหลายประเภท (T2V/I2V/V2V) ในโมเดลเดียว
เพิ่มความสอดคล้องเชิงอวกาศ-เวลาและประสิทธิภาพด้วย สถาปัตยกรรม Global-Local, Flow-Score Matching, และ การทำซ้ำ Jacobi แบบรับรู้วิดีโอ
โมเดลขนาด 7B พารามิเตอร์ สร้างวิดีโอที่ 480p และ 16fps โดยฝึกด้วยข้อมูล 70M ข้อความ-วิดีโอ และ 400M ข้อความ-ภาพ
แสดงให้เห็นว่า Normalizing Flow สามารถบรรลุคุณภาพใกล้เคียงกับ โมเดลแบบ diffusion และพิสูจน์ศักยภาพของ การสร้างวิดีโอแบบออโตรีเกรสซีฟคุณภาพสูง

ภาพรวม STARFlow-V

STARFlow-V คือ โมเดลสร้างวิดีโอเชิงสาเหตุบนพื้นฐาน Normalizing Flow ที่บรรลุคุณภาพภาพระดับเดียวกับโมเดล diffusion
- ให้ความสามารถพร้อมกันทั้ง การฝึกแบบ End-to-End, การประมาณความน่าจะเป็นที่แม่นยำ, และ การรองรับงานสร้างหลายประเภท
ในขณะที่วงการสร้างวิดีโอยังคงถูกครอบงำโดยโมเดล diffusion, STARFlow-V ยืนยันความเป็นไปได้เชิงปฏิบัติของ Normalizing Flow
สามารถรองรับการสร้าง Text-to-Video (T2V), Image-to-Video (I2V) และ Video-to-Video (V2V) ได้ด้วย โครงสร้างเพียงแบบเดียว

โครงสร้างการออกแบบหลักและโครงสร้างการฝึก

โมเดลประกอบด้วย Deep Autoregressive Block (อนุมานลำดับเวลาครอบคลุมในระดับ global) และ Shallow Flow Block (การถ่ายทอดรายละเอียดภายในเฟรม)
- ส่วนแรกจับความสัมพันธ์เชิงพึ่งพาระยะยาว (long-range dependency) ใน latent space เชิงพื้นที่-เวลา
- ส่วนที่สองจำลองรายละเอียดเชิงพื้นที่ท้องถิ่นของแต่ละเฟรม
Flow-Score Matching ใช้ฝึก ตัวกำจัดสัญญาณรบกวนเชิงสาเหตุแบบน้ำหนักเบา เพื่อปรับปรุงความสอดคล้องของเอาต์พุต
เป้าหมายการเรียนรู้มีโครงสร้างวัตถุประสงค์แบบคู่: การประมาณ likelihood สูงสุด และ Flow-Score Matching

การมีส่วนร่วมทางเทคนิคหลัก

สถาปัตยกรรม Global-Local
- บล็อก Transformer เชิงสาเหตุระดับ global จัดการความพึ่งพาเชิงพื้นที่-เวลาแบบระยะยาว
- บล็อก flow แบบตื้นระดับเฟรมรับผิดชอบการจำลองรายละเอียดเชิงท้องถิ่น
- ลดปัญหาความผิดพลาดสะสมในโมเดลออโตรีเกรสซีฟระดับพิกเซล
ตัวลดสัญญาณรบกวนด้วย Flow-Score Matching
- ฝึก ตัวลดสัญญาณรบกวนประสาทเชิงสาเหตุ ร่วมกันเพื่อทำนายส่วนชันของการแจกแจงความน่าจะเป็น (score) ของโมเดล
- สามารถทำ การปรับปรุงผลลัพธ์ขั้นตอนเดียว โดยไม่ต้องพึ่ง external denoiser ที่ไม่เชิงสาเหตุหรือล้มเหลว/ไม่สมบูรณ์
การทำซ้ำ Jacobi แบบรับรู้วิดีโอ
- รีคอนสตรัคต์ กระบวนการสร้างเป็นการแก้ระบบสมการเชิงไม่เชิงเส้นเพื่อทำ การอัปเดต latent แบบขนาน
- เร่งความเร็วด้วยการเริ่มต้นจากข้อมูลลำดับเวลาของเฟรมข้างเคียงและการรันแบบ pipeline

ข้อมูลจำเพาะของโมเดล

ข้อมูลการฝึก: 70M คู่ข้อความ-วิดีโอ, 400M คู่ข้อความ-ภาพ
ขนาดโมเดล: 7B พารามิเตอร์, ความละเอียดเอาต์พุต 480p, อัตราเฟรม 16fps
คุณสมบัติกลับคืนของ Normalizing Flow ช่วยให้สามารถทำงานสร้างหลายงานได้หลากหลาย โดยไม่ต้องเปลี่ยนโครงสร้างหรือฝึกใหม่

ผลลัพธ์การสร้างและการเปรียบเทียบ

Text-to-Video: สร้างฉากหลากหลายได้คุณภาพสูง เช่น แสงธรรมชาติ ลุคแบบสมจริง และมุมมองมาโคร
Image-to-Video: ขยายวิดีโอจากภาพอินพุตโดยยังคงความสอดคล้องทางเวลาได้
Video-to-Video: ปรับเปลี่ยนได้หลายรูปแบบ เช่น เพิ่มวัตถุ, เปลี่ยนสี, เปลี่ยนสไตล์, และ Inpainting
การสร้างวิดีโอยาว: ผลิตวิดีโอความยาว 10-30 วินาที แบบออโตรีเกรสซีฟเป็นช่วง ๆ
การทดลองเปรียบเทียบ: ให้ผลลัพธ์เด่นชัดกว่า NOVA และ WAN-Causal ทั้งในด้าน ความสมจริงทางภาพ และ ความสอดคล้องตามเวลา

ข้อจำกัดและกรณีที่ยังล้มเหลว

คุณภาพอาจลดลงเมื่อเผชิญกับการโต้ตอบทางฟิสิกส์ที่ซับซ้อนหรือการเคลื่อนไหวรวดเร็ว
สาเหตุระบุว่าเกิดจาก ข้อจำกัดด้านทรัพยากรการฝึก, ข้อมูลคุณภาพต่ำ, และ การขาดการปรับแต่งละเอียดต่อเนื่อง (SFT/RL)
ตัวอย่างเช่น การส่ายตัวของสุนัขที่ตัวเปียก หรือแกะที่กระโดด พบการเคลื่อนไหวที่ไม่ธรรมชาติ

นัยสำคัญเชิงการวิจัย

STARFlow-V เป็นครั้งแรกที่ยืนยันว่า Normalizing Flow เหมาะสำหรับการสร้างวิดีโอแบบออโตรีเกรสซีฟคุณภาพสูง
เสนอทิศทางทางเลือกใหม่ให้กับงานวิจัยการสร้างวิดีโอที่เน้นโมเดล diffusion
ถูกประเมินว่าเป็นแนวทางวิจัยที่มีศักยภาพสูงสำหรับการสร้าง world model

1 ความคิดเห็น

GN⁺ 2025-12-03

ความคิดเห็นบน Hacker News

Apple ก็มีโมเดลทำความเข้าใจวิดีโอเหมือนกัน
ในฐานะคนพิการทางสายตา AI ได้เปลี่ยนชีวิตฉันไปอย่างสิ้นเชิง ฉันตื่นเต้นมากว่าจะพัฒนาฟีเจอร์ด้านการเข้าถึงได้อย่างไรด้วยโมเดลนี้
- เรื่องแบบนี้ไม่ค่อยได้เห็นในพาดหัวข่าวเลย เป็นคอมเมนต์ที่น่ายินดีจริงๆ
- เมื่อไม่กี่ปีก่อนก็มีการเพิ่มฟีเจอร์ตรวจจับเสียงเด็กร้องเพื่อแจ้งเตือนสำหรับพ่อแม่ที่บกพร่องทางการได้ยินด้วย
- อาจเป็นคอมเมนต์คุณภาพไม่สูงนัก แต่ฉันรู้สึกยินดีและขอแสดงความยินดีจากใจจริง
- อยากรู้ว่าสามารถเล่าให้ละเอียดได้ไหมว่า AI เปลี่ยนชีวิตคุณอย่างไรบ้าง
- ดีใจที่ได้เห็นข่าวดีหายากที่AI ช่วยผู้คนได้จริง
ไลเซนส์ ของ Apple จำกัดไว้เพื่อการวิจัยที่ไม่ใช่เชิงพาณิชย์เท่านั้น จึงไม่สอดคล้องกับนิยามโอเพนซอร์ส
ดังนั้นผมคิดว่าเรียกว่า ‘weights available’ จะถูกต้องกว่า ‘โอเพนซอร์ส’
- จริงๆ แล้วตอนนี้แม้แต่น้ำหนักโมเดลก็ยังไม่ถูกเผยแพร่
  ตามกฎหมายสหรัฐฯ น้ำหนักโมเดลไม่ถือเป็นงานสร้างสรรค์แต่เป็นผลลัพธ์จากเครื่องจักร จึงมองว่าไม่มีลิขสิทธิ์
  เพราะงั้นผมน่าจะไม่สนใจไลเซนส์ไร้ความหมายแบบนี้และใช้งานอย่างอิสระ
แนวคิดเรื่อง “โมเดลโอเพนเวต” ให้ความรู้สึกเหมือน**‘Windows เวอร์ชัน machine code แบบโอเพนซอร์ส’** เลยทำให้รู้สึกขัดๆ
อย่างน้อยก็ยังดีที่ไลเซนส์ของ Apple เป็นแนว Clickwrap MIT ที่ให้สิทธิ์แก้ไขและแจกจ่ายต่อได้
- เปรียบเทียบได้ดีมาก ถ้าจะต่อยอด “machine code แบบปิด” ก็คงเหมือนโมเดล SaaS ทั่วไป
  ถึงอย่างนั้นการใช้งานไบนารีได้โดยตรงก็ยังดีกว่ามีแค่ SaaS ให้ใช้
- การรันได้บนเครื่องโลคัลเป็นประเด็นสำคัญ
  โอเพนเวตต่างจากไฟล์รันอย่างเดียวตรงที่สามารถรีเทรนหรือทำdistillationได้
- น่าจะสับสนระหว่างไลเซนส์โค้ดกับไลเซนส์โมเดล
ผมดูตัวอย่าง text-to-videoแล้ว พูดตรงๆ ว่าไม่ค่อยน่าประทับใจ
มันทำให้นึกถึงวิดีโอ Will Smith กินเส้นก๋วยเตี๋ยวสมัยก่อน ผมพลาดอะไรไปหรือเปล่า?
- ดูเหมือนจะตามหลังเทคโนโลยีล่าสุดอยู่ราว 2 ปี
  ถึงอย่างนั้นการเปิดให้เหล่านักวิจัยนำไปทดลองก็ยังมีความหมาย
- ถ้ากลับไปดูวิดีโอ Will Smith กินสปาเกตตีอีกครั้ง จะเห็นว่าตัวอย่างชุดนี้ดีกว่านั้นมาก
  แม้จะยังไม่สมบูรณ์ แต่ในบรรดาโมเดลที่เปิดเผยสู่สาธารณะ มันอาจอยู่ในระดับก้าวหน้าที่สุดก็ได้
  เพียงแต่ยังสงสัยว่าไลเซนส์นั้น ‘เปิด’ มากพอหรือไม่
- ผมก็คิดเหมือนกัน มีจุดแปลกๆ เช่น ของเหลวในแก้วหยุดนิ่งแล้วแต่ระดับยังคงสูงขึ้นต่อ
โปรเจกต์นี้ในฐานะงานวิจัยได้แสดงให้เห็นถึงความพยายามใหม่และความเป็นไปได้
แต่ในมุมมองผลิตภัณฑ์ก็เห็นชัดว่ามีข้อจำกัดด้านทรัพยากรคอมพิวต์
ซึ่งสอดคล้องกับรายงานที่ว่า CFO ขัดขวางการตัดสินใจลงทุนโครงสร้างพื้นฐาน ML ของ CEO
เมื่อพิจารณาจากการลาออกของ JG การปรับโครงสร้างครั้งใหญ่ในฝ่าย AI และข่าวลือว่า Tim จะลงจากตำแหน่งในปี 2026
ดูเหมือนว่าฝ่ายที่ไม่ใช่ ML จะชนะในเกมการเมืองภายในบริษัท
ถึงอย่างนั้นแนวทางนี้ก็น่าสนใจ จึงหวังว่าคนอื่นจะนำไปต่อยอดเป็นสิ่งที่มีประโยชน์ได้
ตามบทความวิจัย โมเดลนี้เป็นโมเดลเพื่อการวิจัยที่พยายามแก้ปัญหาข้อผิดพลาดสะสมของโมเดลวิดีโอแบบ diffusion
โดยออกแบบ latent space ให้มีโครงสร้างแบบcausalเพื่อเพิ่มความสอดคล้อง
สำหรับโมเดลขนาด 7B ผลลัพธ์ถือว่าค่อนข้างดี
ถ้า Apple จะปล่อยโมเดลระดับเดียวกับ wan หรือ veo จริง ก็น่าจะผ่านการฝึกด้วยข้อมูลที่คัดสรรอย่างประณีตมาก
มีการบอกว่า STARFlow-V ฝึกด้วยวิดีโอราว 20 ล้านรายการโดยใช้GPU H100 จำนวน 96 ตัว
แต่ไม่ได้ระบุระยะเวลาฝึก
- น่าสนใจที่ Apple Intelligence ถูกฝึกด้วยNvidia GPU และ Linux
  เลยสงสัยว่าตัวอย่างใน repo จะรัน inference บน Mac ได้ไหม
ชื่อเรื่องผิด โมเดลนี้ยังไม่ถูกเผยแพร่ และในลิงก์ก็ไม่มีข้อความแบบนั้น
เลยสงสัยว่าทำไมถึงใช้ชื่อที่ถูกแก้ไขแบบนี้
โมเดลดูดีอยู่ แต่ก็สงสัยว่า Apple มีกรณีการใช้งานแบบไหนในใจ
หรืออาจเป็นแค่ความสนใจของนักวิจัยเองก็ได้ และไม่แน่ใจว่าทิศทางงานวิจัยของบริษัทใหญ่ถูกกำหนดจากบนลงล่างแค่ไหน
- Apple มีความเชื่อมโยงกับ Pixar และ Disney จึงแข็งแกร่งในด้านวิดีโอและแอนิเมชัน
  มีสายสัมพันธ์ต่อเนื่องมาตั้งแต่ยุค Jobs
- น่าจะเอาไว้เพิ่มเอฟเฟกต์เชิงสร้างสรรค์ให้กับวิดีโอที่ถ่ายด้วย iPhone
  อีกไม่นาน TikTok หรือ Instagram ก็คงใส่ฟีเจอร์แบบนี้ แต่ Apple ดูเหมือนอยากทำเอง
  ส่วนตัวคิดว่าการซื้อกิจการ Snapchatน่าจะเป็นกลยุทธ์ที่ดี
ใน repo เขียนไว้ว่า “Pretrained checkpoints will be released soon”
หมายความว่าตอนนี้ยังไม่ใช่โอเพนเวต
จะเป็นโมเดลเปิดอย่างแท้จริงได้ก็ต่อเมื่อมีการปล่อยน้ำหนักโมเดลจริง
คำว่า “Soon” จะหมายถึงเมื่อไรก็ยังไม่มีใครรู้

STARFlow-V: โมเดลสร้างวิดีโอแบบปลายทางถึงปลายทางบนพื้นฐาน Normalizing Flow

ภาพรวม STARFlow-V

โครงสร้างการออกแบบหลักและโครงสร้างการฝึก

การมีส่วนร่วมทางเทคนิคหลัก

ข้อมูลจำเพาะของโมเดล

ผลลัพธ์การสร้างและการเปรียบเทียบ

ข้อจำกัดและกรณีที่ยังล้มเหลว

นัยสำคัญเชิงการวิจัย

บทความที่เกี่ยวข้อง

1 ความคิดเห็น

ความคิดเห็นบน Hacker News