- Meta ได้เปิดตัวโมเดล Video Joint Embedding Predictive Architecture (V-JEPA) ซึ่งเป็นก้าวสำคัญต่อการพัฒนาเครื่องจักรอัจฉริยะบนฐานความเข้าใจโลกที่เป็นจริงมากขึ้น
- ตัวอย่างเบื้องต้นของ world model ทางกายภาพนี้โดดเด่นในการตรวจจับและทำความเข้าใจการโต้ตอบที่ละเอียดระหว่างวัตถุ
- ภายใต้จิตวิญญาณของ open science ที่รับผิดชอบ Meta ได้เผยแพร่โมเดลนี้ด้วยสัญญาอนุญาต Creative Commons NonCommercial เพื่อให้นักวิจัยคนอื่นสามารถขยายผลต่อไปได้
Video JEPA
- V-JEPA เป็นโมเดลแบบไม่ก่อกำเนิด (non-generative) ที่เรียนรู้โดยการทำนายส่วนที่หายไปหรือถูกบังของวิดีโอในปริภูมิการแทนค่าเชิงนามธรรม
- โมเดลนี้มีความยืดหยุ่นในการตัดข้อมูลที่ไม่สามารถคาดเดาได้ออกได้ จึงยกระดับประสิทธิภาพการฝึกและความคุ้มค่าสุ่มตัวอย่างได้มากขึ้น 1.5 ถึง 6 เท่า
- V-JEPA ได้รับการ pretrain เฉพาะจากข้อมูลที่ไม่มีป้ายกำกับเท่านั้น และป้ายกำกับจะถูกใช้เมื่อปรับโมเดลกับงานจำเพาะหลังขั้นตอน pretraining
วิธีการมาสก์
- V-JEPA ไม่ได้ถูกฝึกมาเพื่อเข้าใจการกระทำประเภทใดประเภทหนึ่ง แต่เรียนรู้ผ่านการ self-supervised จากวิดีโอหลากหลาย เพื่อให้ได้ความเข้าใจเกี่ยวกับวิธีที่โลกทำงานในภาพรวม
- กลยุทธ์การมาสก์ไม่ได้ปิดบังพื้นที่ขนาดใหญ่ของวิดีโอแบบเป็นก้อน แต่เลือกแพตช์แบบสุ่มทั้งตามมิติพื้นที่และเวลา เพื่อให้โมเดลเรียนรู้การเข้าใจฉาก
การทำนายอย่างมีประสิทธิภาพ
- การคาดการณ์ในปริภูมิการแทนค่าเชิงนามธรรมช่วยให้โมเดลมุ่งเน้นข้อมูลเชิงแนวคิดระดับสูง และไม่ต้องกังวลกับรายละเอียดที่ไม่น่าเป็นประโยชน์ต่องาน downstream ส่วนใหญ่
- V-JEPA เป็นโมเดลวิดีโอตัวแรกที่ทำผลงานได้ดีในโหมด "frozen evaluation" โดยฝึกเฉพาะเลเยอร์เฉพาะทางหรือเครือข่ายขนาดเล็กได้อย่างมีประสิทธิภาพและรวดเร็วเมื่อเรียนรู้ความสามารถใหม่ โดยไม่ต้องแก้ encoder และ predictor ที่ได้รับการฝึกแบบ self-supervised มาแล้ว
เส้นทางสู่การวิจัยในอนาคต
- ตัวอักษร "V" หมายถึง video แต่ในปัจจุบันโมเดล V-JEPA มุ่งพิจารณาเฉพาะเนื้อหาทางภาพ
- ในขั้นต่อไป Meta กำลังพิจารณาวิธีการแบบมัลติโมดัลที่รวมเสียงเข้ากับข้อมูลทางสายตาควบคู่กัน
- V-JEPA มีความสามารถสูงในการแยกความแตกต่างของปฏิสัมพันธ์วัตถุแบบละเอียด และรับรู้การปฏิสัมพันธ์ระหว่างวัตถุที่เกิดขึ้นทีละช่วงเวลาได้อย่างแม่นยำ
ก้าวต่อไปสู่ AMI
- จนถึงตอนนี้ งานที่เกี่ยวข้องกับ V-JEPA ส่วนใหญ่เน้นด้านการรับรู้ คือการเข้าใจเนื้อหาในสตรีมวิดีโอที่หลากหลายเพื่อให้ได้บริบทบางส่วนเกี่ยวกับโลกภายนอก
- ขั้นต่อไปคือการแสดงให้เห็นการใช้ตัวทำนายหรือ world model นี้เพื่อการวางแผนหรือการตัดสินใจแบบต่อเนื่อง
- V-JEPA เป็นโมเดลเชิงวิจัย และกำลังสำรวจการใช้งานในอนาคต ตัวอย่างเช่น บริบทที่ V-JEPA ให้มาอาจมีประโยชน์ต่อการสร้างผู้ช่วย AI เชิงบริบทสำหรับงาน AI ในโลกจริงและแว่นตา AR ในอนาคต
- เชื่อมั่นในคุณค่าของ open science ที่รับผิดชอบ Meta จึงเผยแพร่โมเดล V-JEPA ภายใต้สัญญาอนุญาต CC BY-NC เพื่อให้ผลงานนี้ถูกพัฒนาต่อโดยนักวิจัยรายอื่น
1 ความคิดเห็น
OpenAI Sora ก็เช่นกัน... AI วิดีโอกำลังพัฒนาอย่างก้าวกระโดดขึ้นมาอย่างรวดเร็วมาก
เช่นเดียวกับโมเดลภาษา ที่ค่อย ๆ พัฒนาต่อไป จนถึงจังหวะหนึ่งที่ ChatGPT ก็เกิดขึ้นมาได้ อยากเห็นเหมือนกันว่าใน AI วิดีโอก็จะมีจังหวะแบบนั้นมาเกิดขึ้นสักวันแน่ ๆ