2 คะแนน โดย GN⁺ 2025-12-03 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • ใช้ Normalizing Flow เพื่อสร้างวิดีโอโดยตรงจากอินพุตข้อความ ภาพ และวิดีโอ และเป็น โมเดลสร้างวิดีโอเชิงสาเหตุแบบออโตรีเกรสซีฟตัวแรก
  • รองรับการใช้งานแบบ การฝึก End-to-End, การประมาณความน่าจะเป็นที่แม่นยำ, และ งานการสร้างหลายประเภท (T2V/I2V/V2V) ในโมเดลเดียว
  • เพิ่มความสอดคล้องเชิงอวกาศ-เวลาและประสิทธิภาพด้วย สถาปัตยกรรม Global-Local, Flow-Score Matching, และ การทำซ้ำ Jacobi แบบรับรู้วิดีโอ
  • โมเดลขนาด 7B พารามิเตอร์ สร้างวิดีโอที่ 480p และ 16fps โดยฝึกด้วยข้อมูล 70M ข้อความ-วิดีโอ และ 400M ข้อความ-ภาพ
  • แสดงให้เห็นว่า Normalizing Flow สามารถบรรลุคุณภาพใกล้เคียงกับ โมเดลแบบ diffusion และพิสูจน์ศักยภาพของ การสร้างวิดีโอแบบออโตรีเกรสซีฟคุณภาพสูง

ภาพรวม STARFlow-V

  • STARFlow-V คือ โมเดลสร้างวิดีโอเชิงสาเหตุบนพื้นฐาน Normalizing Flow ที่บรรลุคุณภาพภาพระดับเดียวกับโมเดล diffusion
    • ให้ความสามารถพร้อมกันทั้ง การฝึกแบบ End-to-End, การประมาณความน่าจะเป็นที่แม่นยำ, และ การรองรับงานสร้างหลายประเภท
  • ในขณะที่วงการสร้างวิดีโอยังคงถูกครอบงำโดยโมเดล diffusion, STARFlow-V ยืนยันความเป็นไปได้เชิงปฏิบัติของ Normalizing Flow
  • สามารถรองรับการสร้าง Text-to-Video (T2V), Image-to-Video (I2V) และ Video-to-Video (V2V) ได้ด้วย โครงสร้างเพียงแบบเดียว

โครงสร้างการออกแบบหลักและโครงสร้างการฝึก

  • โมเดลประกอบด้วย Deep Autoregressive Block (อนุมานลำดับเวลาครอบคลุมในระดับ global) และ Shallow Flow Block (การถ่ายทอดรายละเอียดภายในเฟรม)
    • ส่วนแรกจับความสัมพันธ์เชิงพึ่งพาระยะยาว (long-range dependency) ใน latent space เชิงพื้นที่-เวลา
    • ส่วนที่สองจำลองรายละเอียดเชิงพื้นที่ท้องถิ่นของแต่ละเฟรม
  • Flow-Score Matching ใช้ฝึก ตัวกำจัดสัญญาณรบกวนเชิงสาเหตุแบบน้ำหนักเบา เพื่อปรับปรุงความสอดคล้องของเอาต์พุต
  • เป้าหมายการเรียนรู้มีโครงสร้างวัตถุประสงค์แบบคู่: การประมาณ likelihood สูงสุด และ Flow-Score Matching

การมีส่วนร่วมทางเทคนิคหลัก

  • สถาปัตยกรรม Global-Local
    • บล็อก Transformer เชิงสาเหตุระดับ global จัดการความพึ่งพาเชิงพื้นที่-เวลาแบบระยะยาว
    • บล็อก flow แบบตื้นระดับเฟรมรับผิดชอบการจำลองรายละเอียดเชิงท้องถิ่น
    • ลดปัญหาความผิดพลาดสะสมในโมเดลออโตรีเกรสซีฟระดับพิกเซล
  • ตัวลดสัญญาณรบกวนด้วย Flow-Score Matching
    • ฝึก ตัวลดสัญญาณรบกวนประสาทเชิงสาเหตุ ร่วมกันเพื่อทำนายส่วนชันของการแจกแจงความน่าจะเป็น (score) ของโมเดล
    • สามารถทำ การปรับปรุงผลลัพธ์ขั้นตอนเดียว โดยไม่ต้องพึ่ง external denoiser ที่ไม่เชิงสาเหตุหรือล้มเหลว/ไม่สมบูรณ์
  • การทำซ้ำ Jacobi แบบรับรู้วิดีโอ
    • รีคอนสตรัคต์ กระบวนการสร้างเป็นการแก้ระบบสมการเชิงไม่เชิงเส้นเพื่อทำ การอัปเดต latent แบบขนาน
    • เร่งความเร็วด้วยการเริ่มต้นจากข้อมูลลำดับเวลาของเฟรมข้างเคียงและการรันแบบ pipeline

ข้อมูลจำเพาะของโมเดล

  • ข้อมูลการฝึก: 70M คู่ข้อความ-วิดีโอ, 400M คู่ข้อความ-ภาพ
  • ขนาดโมเดล: 7B พารามิเตอร์, ความละเอียดเอาต์พุต 480p, อัตราเฟรม 16fps
  • คุณสมบัติกลับคืนของ Normalizing Flow ช่วยให้สามารถทำงานสร้างหลายงานได้หลากหลาย โดยไม่ต้องเปลี่ยนโครงสร้างหรือฝึกใหม่

ผลลัพธ์การสร้างและการเปรียบเทียบ

  • Text-to-Video: สร้างฉากหลากหลายได้คุณภาพสูง เช่น แสงธรรมชาติ ลุคแบบสมจริง และมุมมองมาโคร
  • Image-to-Video: ขยายวิดีโอจากภาพอินพุตโดยยังคงความสอดคล้องทางเวลาได้
  • Video-to-Video: ปรับเปลี่ยนได้หลายรูปแบบ เช่น เพิ่มวัตถุ, เปลี่ยนสี, เปลี่ยนสไตล์, และ Inpainting
  • การสร้างวิดีโอยาว: ผลิตวิดีโอความยาว 10-30 วินาที แบบออโตรีเกรสซีฟเป็นช่วง ๆ
  • การทดลองเปรียบเทียบ: ให้ผลลัพธ์เด่นชัดกว่า NOVA และ WAN-Causal ทั้งในด้าน ความสมจริงทางภาพ และ ความสอดคล้องตามเวลา

ข้อจำกัดและกรณีที่ยังล้มเหลว

  • คุณภาพอาจลดลงเมื่อเผชิญกับการโต้ตอบทางฟิสิกส์ที่ซับซ้อนหรือการเคลื่อนไหวรวดเร็ว
  • สาเหตุระบุว่าเกิดจาก ข้อจำกัดด้านทรัพยากรการฝึก, ข้อมูลคุณภาพต่ำ, และ การขาดการปรับแต่งละเอียดต่อเนื่อง (SFT/RL)
  • ตัวอย่างเช่น การส่ายตัวของสุนัขที่ตัวเปียก หรือแกะที่กระโดด พบการเคลื่อนไหวที่ไม่ธรรมชาติ

นัยสำคัญเชิงการวิจัย

  • STARFlow-V เป็นครั้งแรกที่ยืนยันว่า Normalizing Flow เหมาะสำหรับการสร้างวิดีโอแบบออโตรีเกรสซีฟคุณภาพสูง
  • เสนอทิศทางทางเลือกใหม่ให้กับงานวิจัยการสร้างวิดีโอที่เน้นโมเดล diffusion
  • ถูกประเมินว่าเป็นแนวทางวิจัยที่มีศักยภาพสูงสำหรับการสร้าง world model

1 ความคิดเห็น

 
GN⁺ 2025-12-03
ความคิดเห็นบน Hacker News
  • Apple ก็มีโมเดลทำความเข้าใจวิดีโอเหมือนกัน
    ในฐานะคนพิการทางสายตา AI ได้เปลี่ยนชีวิตฉันไปอย่างสิ้นเชิง ฉันตื่นเต้นมากว่าจะพัฒนาฟีเจอร์ด้านการเข้าถึงได้อย่างไรด้วยโมเดลนี้

    • เรื่องแบบนี้ไม่ค่อยได้เห็นในพาดหัวข่าวเลย เป็นคอมเมนต์ที่น่ายินดีจริงๆ
    • เมื่อไม่กี่ปีก่อนก็มีการเพิ่มฟีเจอร์ตรวจจับเสียงเด็กร้องเพื่อแจ้งเตือนสำหรับพ่อแม่ที่บกพร่องทางการได้ยินด้วย
    • อาจเป็นคอมเมนต์คุณภาพไม่สูงนัก แต่ฉันรู้สึกยินดีและขอแสดงความยินดีจากใจจริง
    • อยากรู้ว่าสามารถเล่าให้ละเอียดได้ไหมว่า AI เปลี่ยนชีวิตคุณอย่างไรบ้าง
    • ดีใจที่ได้เห็นข่าวดีหายากที่AI ช่วยผู้คนได้จริง
  • ไลเซนส์ ของ Apple จำกัดไว้เพื่อการวิจัยที่ไม่ใช่เชิงพาณิชย์เท่านั้น จึงไม่สอดคล้องกับนิยามโอเพนซอร์ส
    ดังนั้นผมคิดว่าเรียกว่า ‘weights available’ จะถูกต้องกว่า ‘โอเพนซอร์ส’

    • จริงๆ แล้วตอนนี้แม้แต่น้ำหนักโมเดลก็ยังไม่ถูกเผยแพร่
      ตามกฎหมายสหรัฐฯ น้ำหนักโมเดลไม่ถือเป็นงานสร้างสรรค์แต่เป็นผลลัพธ์จากเครื่องจักร จึงมองว่าไม่มีลิขสิทธิ์
      เพราะงั้นผมน่าจะไม่สนใจไลเซนส์ไร้ความหมายแบบนี้และใช้งานอย่างอิสระ
  • แนวคิดเรื่อง “โมเดลโอเพนเวต” ให้ความรู้สึกเหมือน**‘Windows เวอร์ชัน machine code แบบโอเพนซอร์ส’** เลยทำให้รู้สึกขัดๆ
    อย่างน้อยก็ยังดีที่ไลเซนส์ของ Apple เป็นแนว Clickwrap MIT ที่ให้สิทธิ์แก้ไขและแจกจ่ายต่อได้

    • เปรียบเทียบได้ดีมาก ถ้าจะต่อยอด “machine code แบบปิด” ก็คงเหมือนโมเดล SaaS ทั่วไป
      ถึงอย่างนั้นการใช้งานไบนารีได้โดยตรงก็ยังดีกว่ามีแค่ SaaS ให้ใช้
    • การรันได้บนเครื่องโลคัลเป็นประเด็นสำคัญ
      โอเพนเวตต่างจากไฟล์รันอย่างเดียวตรงที่สามารถรีเทรนหรือทำdistillationได้
    • น่าจะสับสนระหว่างไลเซนส์โค้ดกับไลเซนส์โมเดล
  • ผมดูตัวอย่าง text-to-videoแล้ว พูดตรงๆ ว่าไม่ค่อยน่าประทับใจ
    มันทำให้นึกถึงวิดีโอ Will Smith กินเส้นก๋วยเตี๋ยวสมัยก่อน ผมพลาดอะไรไปหรือเปล่า?

    • ดูเหมือนจะตามหลังเทคโนโลยีล่าสุดอยู่ราว 2 ปี
      ถึงอย่างนั้นการเปิดให้เหล่านักวิจัยนำไปทดลองก็ยังมีความหมาย
    • ถ้ากลับไปดูวิดีโอ Will Smith กินสปาเกตตีอีกครั้ง จะเห็นว่าตัวอย่างชุดนี้ดีกว่านั้นมาก
      แม้จะยังไม่สมบูรณ์ แต่ในบรรดาโมเดลที่เปิดเผยสู่สาธารณะ มันอาจอยู่ในระดับก้าวหน้าที่สุดก็ได้
      เพียงแต่ยังสงสัยว่าไลเซนส์นั้น ‘เปิด’ มากพอหรือไม่
    • ผมก็คิดเหมือนกัน มีจุดแปลกๆ เช่น ของเหลวในแก้วหยุดนิ่งแล้วแต่ระดับยังคงสูงขึ้นต่อ
  • โปรเจกต์นี้ในฐานะงานวิจัยได้แสดงให้เห็นถึงความพยายามใหม่และความเป็นไปได้
    แต่ในมุมมองผลิตภัณฑ์ก็เห็นชัดว่ามีข้อจำกัดด้านทรัพยากรคอมพิวต์
    ซึ่งสอดคล้องกับรายงานที่ว่า CFO ขัดขวางการตัดสินใจลงทุนโครงสร้างพื้นฐาน ML ของ CEO
    เมื่อพิจารณาจากการลาออกของ JG การปรับโครงสร้างครั้งใหญ่ในฝ่าย AI และข่าวลือว่า Tim จะลงจากตำแหน่งในปี 2026
    ดูเหมือนว่าฝ่ายที่ไม่ใช่ ML จะชนะในเกมการเมืองภายในบริษัท
    ถึงอย่างนั้นแนวทางนี้ก็น่าสนใจ จึงหวังว่าคนอื่นจะนำไปต่อยอดเป็นสิ่งที่มีประโยชน์ได้

  • ตามบทความวิจัย โมเดลนี้เป็นโมเดลเพื่อการวิจัยที่พยายามแก้ปัญหาข้อผิดพลาดสะสมของโมเดลวิดีโอแบบ diffusion
    โดยออกแบบ latent space ให้มีโครงสร้างแบบcausalเพื่อเพิ่มความสอดคล้อง
    สำหรับโมเดลขนาด 7B ผลลัพธ์ถือว่าค่อนข้างดี
    ถ้า Apple จะปล่อยโมเดลระดับเดียวกับ wan หรือ veo จริง ก็น่าจะผ่านการฝึกด้วยข้อมูลที่คัดสรรอย่างประณีตมาก

  • มีการบอกว่า STARFlow-V ฝึกด้วยวิดีโอราว 20 ล้านรายการโดยใช้GPU H100 จำนวน 96 ตัว
    แต่ไม่ได้ระบุระยะเวลาฝึก

    • น่าสนใจที่ Apple Intelligence ถูกฝึกด้วยNvidia GPU และ Linux
      เลยสงสัยว่าตัวอย่างใน repo จะรัน inference บน Mac ได้ไหม
  • ชื่อเรื่องผิด โมเดลนี้ยังไม่ถูกเผยแพร่ และในลิงก์ก็ไม่มีข้อความแบบนั้น
    เลยสงสัยว่าทำไมถึงใช้ชื่อที่ถูกแก้ไขแบบนี้

  • โมเดลดูดีอยู่ แต่ก็สงสัยว่า Apple มีกรณีการใช้งานแบบไหนในใจ
    หรืออาจเป็นแค่ความสนใจของนักวิจัยเองก็ได้ และไม่แน่ใจว่าทิศทางงานวิจัยของบริษัทใหญ่ถูกกำหนดจากบนลงล่างแค่ไหน

    • Apple มีความเชื่อมโยงกับ Pixar และ Disney จึงแข็งแกร่งในด้านวิดีโอและแอนิเมชัน
      มีสายสัมพันธ์ต่อเนื่องมาตั้งแต่ยุค Jobs
    • น่าจะเอาไว้เพิ่มเอฟเฟกต์เชิงสร้างสรรค์ให้กับวิดีโอที่ถ่ายด้วย iPhone
      อีกไม่นาน TikTok หรือ Instagram ก็คงใส่ฟีเจอร์แบบนี้ แต่ Apple ดูเหมือนอยากทำเอง
      ส่วนตัวคิดว่าการซื้อกิจการ Snapchatน่าจะเป็นกลยุทธ์ที่ดี
  • ใน repo เขียนไว้ว่า “Pretrained checkpoints will be released soon
    หมายความว่าตอนนี้ยังไม่ใช่โอเพนเวต
    จะเป็นโมเดลเปิดอย่างแท้จริงได้ก็ต่อเมื่อมีการปล่อยน้ำหนักโมเดลจริง
    คำว่า “Soon” จะหมายถึงเมื่อไรก็ยังไม่มีใครรู้