• ชุดข้อมูลพื้นฐานและเบนช์มาร์กเพื่อสนับสนุนงานวิจัยด้านการเรียนรู้จากวิดีโอและการรับรู้แบบมัลติโหมด
  • บันทึกพร้อมกันทั้งมุมมองบุคคลที่หนึ่งแบบ "Egocentric(ยึดมุมมองของผู้สวมใส่)" ผ่านกล้องสวมใส่ของผู้เข้าร่วม และมุมมองหลายตำแหน่งแบบ "Exocentric(มุมมองจากภายนอก)" จากกล้องที่ล้อมรอบผู้เข้าร่วม
  • มุมมองทั้งสองเสริมกัน โดย Ego แสดงสิ่งที่ผู้เข้าร่วมมองเห็นและได้ยิน ส่วน Exo เผยให้เห็นฉากรอบตัวและบริบท
    • การใช้สองมุมมองนี้ร่วมกันสามารถมอบมุมมองใหม่ให้โมเดล AI ต่อทักษะมนุษย์ที่ซับซ้อนได้
  • เป็นความพยายามตลอด 2 ปีของ FAIR (Fundamental Artificial Intelligence Research) และ Project Aria ของ Meta ร่วมกับพันธมิตรมหาวิทยาลัย 15 แห่ง
    • บันทึกข้อมูลด้วยความช่วยเหลือจากผู้เข้าร่วมที่มีทักษะมากกว่า 800 คนในสหรัฐอเมริกา ญี่ปุ่น โคลอมเบีย สิงคโปร์ อินเดีย และแคนาดา
  • เปิดซอร์สข้อมูลที่มีวิดีโอมากกว่า 1,400 ชั่วโมง พร้อมคำอธิบายประกอบสำหรับงานเบนช์มาร์กใหม่
  • Ego-Exo4D มุ่งเน้นกิจกรรมมนุษย์ที่ต้องใช้ทักษะ เช่น กีฬา ดนตรี การทำอาหาร การเต้น และการซ่อมจักรยาน
    • ความก้าวหน้าในความสามารถของ AI ที่จะเข้าใจความชำนาญของมนุษย์จากวิดีโอ อาจเปิดทางสู่การประยุกต์ใช้งานมากมาย
    • ตัวอย่างเช่น ในระบบ AR ผู้สวมแว่นอัจฉริยะอาจเรียนรู้ทักษะใหม่ได้รวดเร็วขึ้นด้วยคำแนะนำจากโค้ช AI เสมือน
  • Ego-Exo4D เป็นชุดข้อมูลสาธารณะที่ใหญ่ที่สุดของวิดีโอบุคคลที่หนึ่งและบุคคลที่สามที่ซิงก์เวลากัน
    • เพื่อสร้างชุดข้อมูลนี้ ได้คัดเลือกผู้เชี่ยวชาญจากหลากหลายสาขา และให้ผู้เชี่ยวชาญในโลกจริงเข้าร่วม
    • นอกจากจะเป็นชุดข้อมูลหลายมุมมองแล้ว Ego-Exo4D ยังเป็นชุดข้อมูลหลายโมดัลด้วย โดยวิดีโอ ego ทั้งหมดที่บันทึกด้วยแว่น Aria ของ Meta มีทั้งเสียง 7 ช่องสัญญาณที่จัดแนวตามเวลา หน่วยวัดความเฉื่อย (IMU) กล้องมุมกว้างขาวดำ 2 ตัว และอื่น ๆ

ยังไม่มีความคิดเห็น

ยังไม่มีความคิดเห็น