Meta V-JEPA: ก้าวถัดไปสู่ Advanced Machine Intelligence (AMI) ของ Yann LeCun

xguru · 2024-02-20T11:36:01+09:00

Meta ได้เปิดตัวโมเดล Video Joint Embedding Predictive Architecture (V-JEPA) ซึ่งเป็นก้าวสำคัญต่อการพัฒนาเครื่องจักรอัจฉริยะบนฐานความเข้าใจโลกที่เป็นจริงมากขึ้น ตัวอย่างเบื้องต้นของ world model ทางกายภาพนี้โดดเด่นในการตรวจจับและทำความเข้าใจการโต้ตอบที่ละเอียดระหว่างวัตถุ ภายใต้จิตวิญญาณของ open science ที่รับผิดชอบ Meta ได้เผยแพร่โมเดลนี้ด้วยสัญญาอนุญาต Creative Commons NonCommercial เพื่อให้นักวิจัยคนอื่นสามารถขยายผลต่อไปได้ Video JEPA V-JEPA เป็นโมเดลแบบไม่ก่อกำเนิด (non-generative) ที่เรียนรู้โดยการทำนายส่วนที่หายไปหรือถูกบังของวิดีโอในปริภูมิการแทนค่าเชิงนามธรรม โมเดลนี้มีความยืดหยุ่นในการตัดข้อมูลที่ไม่สามารถคาดเดาได้ออกได้ จึงยกระดับประสิทธิภาพการฝึกและความคุ้มค่าสุ่มตัวอย่างได้มากขึ้น 1.5 ถึง 6 เท่า V-JEPA ได้รับการ pretrain เฉพาะจากข้อมูลที่ไม่มีป้ายกำกับเท่านั้น และป้ายกำกับจะถูกใช้เมื่อปรับโมเดลกับงานจำเพาะหลังขั้นตอน pretraining วิธีการมาสก์ V-JEPA ไม่ได้ถูกฝึกมาเพื่อเข้าใจการกระทำประเภทใดประเภทหนึ่ง แต่เรียนรู้ผ่านการ self-supervised จากวิดีโอหลากหลาย เพื่อให้ได้ความเข้าใจเกี่ยวกับวิธีที่โลกทำงานในภาพรวม กลยุทธ์การมาสก์ไม่ได้ปิดบังพื้นที่ขนาดใหญ่ของวิดีโอแบบเป็นก้อน แต่เลือกแพตช์แบบสุ่มทั้งตามมิติพื้นที่และเวลา เพื่อให้โมเดลเรียนรู้การเข้าใจฉาก การทำนายอย่างมีประสิทธิภาพ การคาดการณ์ในปริภูมิการแทนค่าเชิงนามธรรมช่วยให้โมเดลมุ่งเน้นข้อมูลเชิงแนวคิดระดับสูง และไม่ต้องกังวลกับรายละเอียดที่ไม่น่าเป็นประโยชน์ต่องาน downstream ส่วนใหญ่ V-JEPA เป็นโมเดลวิดีโอตัวแรกที่ทำผลงานได้ดีในโหมด "frozen evaluation" โดยฝึกเฉพาะเลเยอร์เฉพาะทางหรือเครือข่ายขนาดเล็กได้อย่างมีประสิทธิภาพและรวดเร็วเมื่อเรียนรู้ความสามารถใหม่ โดยไม่ต้องแก้ encoder และ predictor ที่ได้รับการฝึกแบบ self-supervised มาแล้ว เส้นทางสู่การวิจัยในอนาคต ตัวอักษร "V" หมายถึง video แต่ในปัจจุบันโมเดล V-JEPA มุ่งพิจารณาเฉพาะเนื้อหาทางภาพ ในขั้นต่อไป Meta กำลังพิจารณาวิธีการแบบมัลติโมดัลที่รวมเสียงเข้ากับข้อมูลทางสายตาควบคู่กัน V-JEPA มีความสามารถสูงในการแยกความแตกต่างของปฏิสัมพันธ์วัตถุแบบละเอียด และรับรู้การปฏิสัมพันธ์ระหว่างวัตถุที่เกิดขึ้นทีละช่วงเวลาได้อย่างแม่นยำ ก้าวต่อไปสู่ AMI จนถึงตอนนี้ งานที่เกี่ยวข้องกับ V-JEPA ส่วนใหญ่เน้นด้านการรับรู้ คือการเข้าใจเนื้อหาในสตรีมวิดีโอที่หลากหลายเพื่อให้ได้บริบทบางส่วนเกี่ยวกับโลกภายนอก ขั้นต่อไปคือการแสดงให้เห็นการใช้ตัวทำนายหรือ world model นี้เพื่อการวางแผนหรือการตัดสินใจแบบต่อเนื่อง V-JEPA เป็นโมเดลเชิงวิจัย และกำลังสำรวจการใช้งานในอนาคต ตัวอย่างเช่น บริบทที่ V-JEPA ให้มาอาจมีประโยชน์ต่อการสร้างผู้ช่วย AI เชิงบริบทสำหรับงาน AI ในโลกจริงและแว่นตา AR ในอนาคต เชื่อมั่นในคุณค่าของ open science ที่รับผิดชอบ Meta จึงเผยแพร่โมเดล V-JEPA ภายใต้สัญญาอนุญาต CC BY-NC เพื่อให้ผลงานนี้ถูกพัฒนาต่อโดยนักวิจัยรายอื่น

(ai.meta.com)

9 คะแนน โดย xguru 2024-02-20 | 1 ความคิดเห็น | แชร์ทาง WhatsApp

Meta ได้เปิดตัวโมเดล Video Joint Embedding Predictive Architecture (V-JEPA) ซึ่งเป็นก้าวสำคัญต่อการพัฒนาเครื่องจักรอัจฉริยะบนฐานความเข้าใจโลกที่เป็นจริงมากขึ้น
ตัวอย่างเบื้องต้นของ world model ทางกายภาพนี้โดดเด่นในการตรวจจับและทำความเข้าใจการโต้ตอบที่ละเอียดระหว่างวัตถุ
ภายใต้จิตวิญญาณของ open science ที่รับผิดชอบ Meta ได้เผยแพร่โมเดลนี้ด้วยสัญญาอนุญาต Creative Commons NonCommercial เพื่อให้นักวิจัยคนอื่นสามารถขยายผลต่อไปได้

Video JEPA

V-JEPA เป็นโมเดลแบบไม่ก่อกำเนิด (non-generative) ที่เรียนรู้โดยการทำนายส่วนที่หายไปหรือถูกบังของวิดีโอในปริภูมิการแทนค่าเชิงนามธรรม
โมเดลนี้มีความยืดหยุ่นในการตัดข้อมูลที่ไม่สามารถคาดเดาได้ออกได้ จึงยกระดับประสิทธิภาพการฝึกและความคุ้มค่าสุ่มตัวอย่างได้มากขึ้น 1.5 ถึง 6 เท่า
V-JEPA ได้รับการ pretrain เฉพาะจากข้อมูลที่ไม่มีป้ายกำกับเท่านั้น และป้ายกำกับจะถูกใช้เมื่อปรับโมเดลกับงานจำเพาะหลังขั้นตอน pretraining

วิธีการมาสก์

V-JEPA ไม่ได้ถูกฝึกมาเพื่อเข้าใจการกระทำประเภทใดประเภทหนึ่ง แต่เรียนรู้ผ่านการ self-supervised จากวิดีโอหลากหลาย เพื่อให้ได้ความเข้าใจเกี่ยวกับวิธีที่โลกทำงานในภาพรวม
กลยุทธ์การมาสก์ไม่ได้ปิดบังพื้นที่ขนาดใหญ่ของวิดีโอแบบเป็นก้อน แต่เลือกแพตช์แบบสุ่มทั้งตามมิติพื้นที่และเวลา เพื่อให้โมเดลเรียนรู้การเข้าใจฉาก

การทำนายอย่างมีประสิทธิภาพ

การคาดการณ์ในปริภูมิการแทนค่าเชิงนามธรรมช่วยให้โมเดลมุ่งเน้นข้อมูลเชิงแนวคิดระดับสูง และไม่ต้องกังวลกับรายละเอียดที่ไม่น่าเป็นประโยชน์ต่องาน downstream ส่วนใหญ่
V-JEPA เป็นโมเดลวิดีโอตัวแรกที่ทำผลงานได้ดีในโหมด "frozen evaluation" โดยฝึกเฉพาะเลเยอร์เฉพาะทางหรือเครือข่ายขนาดเล็กได้อย่างมีประสิทธิภาพและรวดเร็วเมื่อเรียนรู้ความสามารถใหม่ โดยไม่ต้องแก้ encoder และ predictor ที่ได้รับการฝึกแบบ self-supervised มาแล้ว

เส้นทางสู่การวิจัยในอนาคต

ตัวอักษร "V" หมายถึง video แต่ในปัจจุบันโมเดล V-JEPA มุ่งพิจารณาเฉพาะเนื้อหาทางภาพ
ในขั้นต่อไป Meta กำลังพิจารณาวิธีการแบบมัลติโมดัลที่รวมเสียงเข้ากับข้อมูลทางสายตาควบคู่กัน
V-JEPA มีความสามารถสูงในการแยกความแตกต่างของปฏิสัมพันธ์วัตถุแบบละเอียด และรับรู้การปฏิสัมพันธ์ระหว่างวัตถุที่เกิดขึ้นทีละช่วงเวลาได้อย่างแม่นยำ

ก้าวต่อไปสู่ AMI

จนถึงตอนนี้ งานที่เกี่ยวข้องกับ V-JEPA ส่วนใหญ่เน้นด้านการรับรู้ คือการเข้าใจเนื้อหาในสตรีมวิดีโอที่หลากหลายเพื่อให้ได้บริบทบางส่วนเกี่ยวกับโลกภายนอก
ขั้นต่อไปคือการแสดงให้เห็นการใช้ตัวทำนายหรือ world model นี้เพื่อการวางแผนหรือการตัดสินใจแบบต่อเนื่อง
V-JEPA เป็นโมเดลเชิงวิจัย และกำลังสำรวจการใช้งานในอนาคต ตัวอย่างเช่น บริบทที่ V-JEPA ให้มาอาจมีประโยชน์ต่อการสร้างผู้ช่วย AI เชิงบริบทสำหรับงาน AI ในโลกจริงและแว่นตา AR ในอนาคต
เชื่อมั่นในคุณค่าของ open science ที่รับผิดชอบ Meta จึงเผยแพร่โมเดล V-JEPA ภายใต้สัญญาอนุญาต CC BY-NC เพื่อให้ผลงานนี้ถูกพัฒนาต่อโดยนักวิจัยรายอื่น

1 ความคิดเห็น

kuroneko 2024-02-20

OpenAI Sora ก็เช่นกัน... AI วิดีโอกำลังพัฒนาอย่างก้าวกระโดดขึ้นมาอย่างรวดเร็วมาก

เช่นเดียวกับโมเดลภาษา ที่ค่อย ๆ พัฒนาต่อไป จนถึงจังหวะหนึ่งที่ ChatGPT ก็เกิดขึ้นมาได้ อยากเห็นเหมือนกันว่าใน AI วิดีโอก็จะมีจังหวะแบบนั้นมาเกิดขึ้นสักวันแน่ ๆ