9 คะแนน โดย xguru 2024-02-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp
  • Meta ได้เปิดตัวโมเดล Video Joint Embedding Predictive Architecture (V-JEPA) ซึ่งเป็นก้าวสำคัญต่อการพัฒนาเครื่องจักรอัจฉริยะบนฐานความเข้าใจโลกที่เป็นจริงมากขึ้น
  • ตัวอย่างเบื้องต้นของ world model ทางกายภาพนี้โดดเด่นในการตรวจจับและทำความเข้าใจการโต้ตอบที่ละเอียดระหว่างวัตถุ
  • ภายใต้จิตวิญญาณของ open science ที่รับผิดชอบ Meta ได้เผยแพร่โมเดลนี้ด้วยสัญญาอนุญาต Creative Commons NonCommercial เพื่อให้นักวิจัยคนอื่นสามารถขยายผลต่อไปได้

Video JEPA

  • V-JEPA เป็นโมเดลแบบไม่ก่อกำเนิด (non-generative) ที่เรียนรู้โดยการทำนายส่วนที่หายไปหรือถูกบังของวิดีโอในปริภูมิการแทนค่าเชิงนามธรรม
  • โมเดลนี้มีความยืดหยุ่นในการตัดข้อมูลที่ไม่สามารถคาดเดาได้ออกได้ จึงยกระดับประสิทธิภาพการฝึกและความคุ้มค่าสุ่มตัวอย่างได้มากขึ้น 1.5 ถึง 6 เท่า
  • V-JEPA ได้รับการ pretrain เฉพาะจากข้อมูลที่ไม่มีป้ายกำกับเท่านั้น และป้ายกำกับจะถูกใช้เมื่อปรับโมเดลกับงานจำเพาะหลังขั้นตอน pretraining

วิธีการมาสก์

  • V-JEPA ไม่ได้ถูกฝึกมาเพื่อเข้าใจการกระทำประเภทใดประเภทหนึ่ง แต่เรียนรู้ผ่านการ self-supervised จากวิดีโอหลากหลาย เพื่อให้ได้ความเข้าใจเกี่ยวกับวิธีที่โลกทำงานในภาพรวม
  • กลยุทธ์การมาสก์ไม่ได้ปิดบังพื้นที่ขนาดใหญ่ของวิดีโอแบบเป็นก้อน แต่เลือกแพตช์แบบสุ่มทั้งตามมิติพื้นที่และเวลา เพื่อให้โมเดลเรียนรู้การเข้าใจฉาก

การทำนายอย่างมีประสิทธิภาพ

  • การคาดการณ์ในปริภูมิการแทนค่าเชิงนามธรรมช่วยให้โมเดลมุ่งเน้นข้อมูลเชิงแนวคิดระดับสูง และไม่ต้องกังวลกับรายละเอียดที่ไม่น่าเป็นประโยชน์ต่องาน downstream ส่วนใหญ่
  • V-JEPA เป็นโมเดลวิดีโอตัวแรกที่ทำผลงานได้ดีในโหมด "frozen evaluation" โดยฝึกเฉพาะเลเยอร์เฉพาะทางหรือเครือข่ายขนาดเล็กได้อย่างมีประสิทธิภาพและรวดเร็วเมื่อเรียนรู้ความสามารถใหม่ โดยไม่ต้องแก้ encoder และ predictor ที่ได้รับการฝึกแบบ self-supervised มาแล้ว

เส้นทางสู่การวิจัยในอนาคต

  • ตัวอักษร "V" หมายถึง video แต่ในปัจจุบันโมเดล V-JEPA มุ่งพิจารณาเฉพาะเนื้อหาทางภาพ
  • ในขั้นต่อไป Meta กำลังพิจารณาวิธีการแบบมัลติโมดัลที่รวมเสียงเข้ากับข้อมูลทางสายตาควบคู่กัน
  • V-JEPA มีความสามารถสูงในการแยกความแตกต่างของปฏิสัมพันธ์วัตถุแบบละเอียด และรับรู้การปฏิสัมพันธ์ระหว่างวัตถุที่เกิดขึ้นทีละช่วงเวลาได้อย่างแม่นยำ

ก้าวต่อไปสู่ AMI

  • จนถึงตอนนี้ งานที่เกี่ยวข้องกับ V-JEPA ส่วนใหญ่เน้นด้านการรับรู้ คือการเข้าใจเนื้อหาในสตรีมวิดีโอที่หลากหลายเพื่อให้ได้บริบทบางส่วนเกี่ยวกับโลกภายนอก
  • ขั้นต่อไปคือการแสดงให้เห็นการใช้ตัวทำนายหรือ world model นี้เพื่อการวางแผนหรือการตัดสินใจแบบต่อเนื่อง
  • V-JEPA เป็นโมเดลเชิงวิจัย และกำลังสำรวจการใช้งานในอนาคต ตัวอย่างเช่น บริบทที่ V-JEPA ให้มาอาจมีประโยชน์ต่อการสร้างผู้ช่วย AI เชิงบริบทสำหรับงาน AI ในโลกจริงและแว่นตา AR ในอนาคต
  • เชื่อมั่นในคุณค่าของ open science ที่รับผิดชอบ Meta จึงเผยแพร่โมเดล V-JEPA ภายใต้สัญญาอนุญาต CC BY-NC เพื่อให้ผลงานนี้ถูกพัฒนาต่อโดยนักวิจัยรายอื่น

1 ความคิดเห็น

 
kuroneko 2024-02-20

OpenAI Sora ก็เช่นกัน... AI วิดีโอกำลังพัฒนาอย่างก้าวกระโดดขึ้นมาอย่างรวดเร็วมาก

เช่นเดียวกับโมเดลภาษา ที่ค่อย ๆ พัฒนาต่อไป จนถึงจังหวะหนึ่งที่ ChatGPT ก็เกิดขึ้นมาได้ อยากเห็นเหมือนกันว่าใน AI วิดีโอก็จะมีจังหวะแบบนั้นมาเกิดขึ้นสักวันแน่ ๆ