Meta เปิดตัว Ego-Exo4D ชุดข้อมูลวิดีโอมุมมองบุคคลที่หนึ่งขนาดใหญ่

xguru · 2023-12-19T10:56:02+09:00

ชุดข้อมูลพื้นฐานและเบนช์มาร์กเพื่อสนับสนุนงานวิจัยด้านการเรียนรู้จากวิดีโอและการรับรู้แบบมัลติโหมด บันทึกพร้อมกันทั้งมุมมองบุคคลที่หนึ่งแบบ "Egocentric(ยึดมุมมองของผู้สวมใส่)" ผ่านกล้องสวมใส่ของผู้เข้าร่วม และมุมมองหลายตำแหน่งแบบ "Exocentric(มุมมองจากภายนอก)" จากกล้องที่ล้อมรอบผู้เข้าร่วม มุมมองทั้งสองเสริมกัน โดย Ego แสดงสิ่งที่ผู้เข้าร่วมมองเห็นและได้ยิน ส่วน Exo เผยให้เห็นฉากรอบตัวและบริบท การใช้สองมุมมองนี้ร่วมกันสามารถมอบมุมมองใหม่ให้โมเดล AI ต่อทักษะมนุษย์ที่ซับซ้อนได้ เป็นความพยายามตลอด 2 ปีของ FAIR (Fundamental Artificial Intelligence Research) และ Project Aria ของ Meta ร่วมกับพันธมิตรมหาวิทยาลัย 15 แห่ง บันทึกข้อมูลด้วยความช่วยเหลือจากผู้เข้าร่วมที่มีทักษะมากกว่า 800 คนในสหรัฐอเมริกา ญี่ปุ่น โคลอมเบีย สิงคโปร์ อินเดีย และแคนาดา เปิดซอร์สข้อมูลที่มีวิดีโอมากกว่า 1,400 ชั่วโมง พร้อมคำอธิบายประกอบสำหรับงานเบนช์มาร์กใหม่ Ego-Exo4D มุ่งเน้นกิจกรรมมนุษย์ที่ต้องใช้ทักษะ เช่น กีฬา ดนตรี การทำอาหาร การเต้น และการซ่อมจักรยาน ความก้าวหน้าในความสามารถของ AI ที่จะเข้าใจความชำนาญของมนุษย์จากวิดีโอ อาจเปิดทางสู่การประยุกต์ใช้งานมากมาย ตัวอย่างเช่น ในระบบ AR ผู้สวมแว่นอัจฉริยะอาจเรียนรู้ทักษะใหม่ได้รวดเร็วขึ้นด้วยคำแนะนำจากโค้ช AI เสมือน Ego-Exo4D เป็นชุดข้อมูลสาธารณะที่ใหญ่ที่สุดของวิดีโอบุคคลที่หนึ่งและบุคคลที่สามที่ซิงก์เวลากัน เพื่อสร้างชุดข้อมูลนี้ ได้คัดเลือกผู้เชี่ยวชาญจากหลากหลายสาขา และให้ผู้เชี่ยวชาญในโลกจริงเข้าร่วม นอกจากจะเป็นชุดข้อมูลหลายมุมมองแล้ว Ego-Exo4D ยังเป็นชุดข้อมูลหลายโมดัลด้วย โดยวิดีโอ ego ทั้งหมดที่บันทึกด้วยแว่น Aria ของ Meta มีทั้งเสียง 7 ช่องสัญญาณที่จัดแนวตามเวลา หน่วยวัดความเฉื่อย (IMU) กล้องมุมกว้างขาวดำ 2 ตัว และอื่น ๆ

(ai.meta.com)

7 คะแนน โดย xguru 2023-12-19 | ยังไม่มีความคิดเห็น | แชร์ทาง WhatsApp

ชุดข้อมูลพื้นฐานและเบนช์มาร์กเพื่อสนับสนุนงานวิจัยด้านการเรียนรู้จากวิดีโอและการรับรู้แบบมัลติโหมด
บันทึกพร้อมกันทั้งมุมมองบุคคลที่หนึ่งแบบ "Egocentric(ยึดมุมมองของผู้สวมใส่)" ผ่านกล้องสวมใส่ของผู้เข้าร่วม และมุมมองหลายตำแหน่งแบบ "Exocentric(มุมมองจากภายนอก)" จากกล้องที่ล้อมรอบผู้เข้าร่วม
มุมมองทั้งสองเสริมกัน โดย Ego แสดงสิ่งที่ผู้เข้าร่วมมองเห็นและได้ยิน ส่วน Exo เผยให้เห็นฉากรอบตัวและบริบท
- การใช้สองมุมมองนี้ร่วมกันสามารถมอบมุมมองใหม่ให้โมเดล AI ต่อทักษะมนุษย์ที่ซับซ้อนได้
เป็นความพยายามตลอด 2 ปีของ FAIR (Fundamental Artificial Intelligence Research) และ Project Aria ของ Meta ร่วมกับพันธมิตรมหาวิทยาลัย 15 แห่ง
- บันทึกข้อมูลด้วยความช่วยเหลือจากผู้เข้าร่วมที่มีทักษะมากกว่า 800 คนในสหรัฐอเมริกา ญี่ปุ่น โคลอมเบีย สิงคโปร์ อินเดีย และแคนาดา
เปิดซอร์สข้อมูลที่มีวิดีโอมากกว่า 1,400 ชั่วโมง พร้อมคำอธิบายประกอบสำหรับงานเบนช์มาร์กใหม่
Ego-Exo4D มุ่งเน้นกิจกรรมมนุษย์ที่ต้องใช้ทักษะ เช่น กีฬา ดนตรี การทำอาหาร การเต้น และการซ่อมจักรยาน
- ความก้าวหน้าในความสามารถของ AI ที่จะเข้าใจความชำนาญของมนุษย์จากวิดีโอ อาจเปิดทางสู่การประยุกต์ใช้งานมากมาย
- ตัวอย่างเช่น ในระบบ AR ผู้สวมแว่นอัจฉริยะอาจเรียนรู้ทักษะใหม่ได้รวดเร็วขึ้นด้วยคำแนะนำจากโค้ช AI เสมือน
Ego-Exo4D เป็นชุดข้อมูลสาธารณะที่ใหญ่ที่สุดของวิดีโอบุคคลที่หนึ่งและบุคคลที่สามที่ซิงก์เวลากัน
- เพื่อสร้างชุดข้อมูลนี้ ได้คัดเลือกผู้เชี่ยวชาญจากหลากหลายสาขา และให้ผู้เชี่ยวชาญในโลกจริงเข้าร่วม
- นอกจากจะเป็นชุดข้อมูลหลายมุมมองแล้ว Ego-Exo4D ยังเป็นชุดข้อมูลหลายโมดัลด้วย โดยวิดีโอ ego ทั้งหมดที่บันทึกด้วยแว่น Aria ของ Meta มีทั้งเสียง 7 ช่องสัญญาณที่จัดแนวตามเวลา หน่วยวัดความเฉื่อย (IMU) กล้องมุมกว้างขาวดำ 2 ตัว และอื่น ๆ

Meta เปิดตัว Ego-Exo4D ชุดข้อมูลวิดีโอมุมมองบุคคลที่หนึ่งขนาดใหญ่

บทความที่เกี่ยวข้อง

ยังไม่มีความคิดเห็น