- ชุดข้อมูลพื้นฐานและเบนช์มาร์กเพื่อสนับสนุนงานวิจัยด้านการเรียนรู้จากวิดีโอและการรับรู้แบบมัลติโหมด
- บันทึกพร้อมกันทั้งมุมมองบุคคลที่หนึ่งแบบ "Egocentric(ยึดมุมมองของผู้สวมใส่)" ผ่านกล้องสวมใส่ของผู้เข้าร่วม และมุมมองหลายตำแหน่งแบบ "Exocentric(มุมมองจากภายนอก)" จากกล้องที่ล้อมรอบผู้เข้าร่วม
- มุมมองทั้งสองเสริมกัน โดย Ego แสดงสิ่งที่ผู้เข้าร่วมมองเห็นและได้ยิน ส่วน Exo เผยให้เห็นฉากรอบตัวและบริบท
- การใช้สองมุมมองนี้ร่วมกันสามารถมอบมุมมองใหม่ให้โมเดล AI ต่อทักษะมนุษย์ที่ซับซ้อนได้
- เป็นความพยายามตลอด 2 ปีของ FAIR (Fundamental Artificial Intelligence Research) และ Project Aria ของ Meta ร่วมกับพันธมิตรมหาวิทยาลัย 15 แห่ง
- บันทึกข้อมูลด้วยความช่วยเหลือจากผู้เข้าร่วมที่มีทักษะมากกว่า 800 คนในสหรัฐอเมริกา ญี่ปุ่น โคลอมเบีย สิงคโปร์ อินเดีย และแคนาดา
- เปิดซอร์สข้อมูลที่มีวิดีโอมากกว่า 1,400 ชั่วโมง พร้อมคำอธิบายประกอบสำหรับงานเบนช์มาร์กใหม่
- Ego-Exo4D มุ่งเน้นกิจกรรมมนุษย์ที่ต้องใช้ทักษะ เช่น กีฬา ดนตรี การทำอาหาร การเต้น และการซ่อมจักรยาน
- ความก้าวหน้าในความสามารถของ AI ที่จะเข้าใจความชำนาญของมนุษย์จากวิดีโอ อาจเปิดทางสู่การประยุกต์ใช้งานมากมาย
- ตัวอย่างเช่น ในระบบ AR ผู้สวมแว่นอัจฉริยะอาจเรียนรู้ทักษะใหม่ได้รวดเร็วขึ้นด้วยคำแนะนำจากโค้ช AI เสมือน
- Ego-Exo4D เป็นชุดข้อมูลสาธารณะที่ใหญ่ที่สุดของวิดีโอบุคคลที่หนึ่งและบุคคลที่สามที่ซิงก์เวลากัน
- เพื่อสร้างชุดข้อมูลนี้ ได้คัดเลือกผู้เชี่ยวชาญจากหลากหลายสาขา และให้ผู้เชี่ยวชาญในโลกจริงเข้าร่วม
- นอกจากจะเป็นชุดข้อมูลหลายมุมมองแล้ว Ego-Exo4D ยังเป็นชุดข้อมูลหลายโมดัลด้วย โดยวิดีโอ ego ทั้งหมดที่บันทึกด้วยแว่น Aria ของ Meta มีทั้งเสียง 7 ช่องสัญญาณที่จัดแนวตามเวลา หน่วยวัดความเฉื่อย (IMU) กล้องมุมกว้างขาวดำ 2 ตัว และอื่น ๆ
ยังไม่มีความคิดเห็น