Facebook和NUS、MIT等高校推出3000小时的第一视角视频数据集：Ego4D - 专知

会员服务 ·

0

Facebook和NUS、MIT等高校推出3000小时的第一视角视频数据集：Ego4D

2021 年 11 月 2 日 极市平台

↑ 点击蓝字关注极市平台

来源丨CVer

编辑丨极市平台

本文摘要翻译自NUS新闻：

https://news.nus.edu.sg/nus-facebook-world-class-universities-teach-ai-to-understand-the-world-through-our-eyes/

论文：https://arxiv.org/abs/2110.07058

从第三视角看世界，和从第一视角和世界互动，有显著差异。比如说，看别人坐过山车和自己坐过山车，体验完全不同。

图1. 左：同一场景在第一视角和第三视角下；右：第一视角视频采集设备

为了开启下一波AI技术浪潮，为增强现实 (AR) 和智能机器人赋能，AI需要从现在的第三视角转换成第一视角的全新范式。这是因为在第一视角的世界中，常有实时的运动变化，手与物体的交互，多种感官的信息融合。

为此，Facebook联合新加坡国立大学 (NUS) 、MIT等世界各地的13所大学组成了一个学术联盟，致力于开展一个长期项目—— Ego4D （第一视角的 4D 实时感知 )。

https://ego4d-data.org/

来自NUS研究团队的Principal Investigator（主要负责人），助理教授Mike寿政说：“在过去十年里，我们见证了AI在理解图像方面的变革，这是建立在 ImageNet 等数据集所奠定的基础上的。类似的，我相信我们的 Ego4D 数据集，将为第一视角的视频研究打好基础，从而推动智能感知在 AR 和机器人方面的快速发展。”

一、目前最大的第一视角视频数据集

图 2. Ego4D 是目前最大的第一视角的日常活动视频数据集

大多数AI系统需要大量数据进行训练，现有的大规模视频数据集通常以第三视角为主；而现有的第一视角数据集在规模、多样性和复杂性上都很有限。因此，该学术联盟推出了 Ego4D 数据集：

● 大规模：研究人员分发头戴式相机或者AR眼镜给数据采集者，从而收集了累计3,000 小时的、日常活动中的第一视角视频；

● In-the-wild：包含了人们的日常生活的数百种不同活动，记录了相机佩戴者在关注什么，用手和面前的物体做什么，以及他们是如何与其他人互动的；

● 多样性：涵盖全球 73 个地点、9个国家，700 多名不同背景、种族、职业、年龄的数据采集者，囊括不同的文化和地理差异；

● 抽好的特征：所有视频，均有预先抽好的SlowFast特征，方便大家进行实验；

● 授权公开：这些数据将于 2021 年 11 月公开，视频中的所有可见人脸和可听懂的语音均已获得参与者的授权。

二、新任务，新技术

图3. 通过采集的第一视角视频数据，Ego4D团队可以开发AI模型来解决新的任务

与数据收集同样重要的是，定义正确的任务，进行严格的人工标注，来引导新技术的研发。

为此，Ego4D 学术联盟联合构建了五个全新的、具有挑战性的任务：

(1) 情景记忆：什么时候发生了什么？如图3A, 告诉我钱包最近一次出现的位置。

(2) 预测未来：我接下来要做什么？如图3B, 他即将跳起来抓住单杠。

(3) 手与物体交互：我在做什么以及如何做？如图3C, 告诉我下一步的操作。

(4) 视觉+听觉：多人场景下，谁在什么时候说了什么？如图3D, 生成会议内容的总结。

(5) 社交交互：人与人如何交互？如图3D, 我注视着他，而他正在对我说话。

“我们NUS研究团队主要为其中两个关键任务开发模型：

一是，利用声音和视觉线索帮助AI识别“谁在什么时候说了什么”；

二是，开发具有社交智能的 AI，检测当下谁在对谁说话，谁在关注谁，”同样来自NUS团队的Co-PI李海洲教授如是说。

有第一视角感知能力的AI，将赋能AR眼镜、智能机器人等等同样是第一视角的设备，将在我们的日常生活和工作中发挥更大作用。想象一下：在对着新菜谱做菜时，不必再来来回回地看菜谱，你的AR 眼镜就可以实时地同步指导你执行每个步骤；对于有阿尔茨海默症等健康问题的人，AR眼镜可以帮助他们回忆钱包放在哪里了。

Ego4D数据集只是起点，研发第一视角AI技术，进而赋能智能机器人、AR眼镜，将在不远的将来，改变我们的生活、工作、娱乐方式，带给我们前所未有的、虚拟与现实交融的体验。

https://ego4d-data.org/

如果觉得有用，就请分享到朋友圈吧！

△点击卡片关注极市平台，获取最新CV干货

公众号后台回复“CVPR21检测”获取CVPR2021目标检测论文下载～

极市干货

神经网络：视觉神经网络模型优秀开源工作：timm库使用方法和最新代码解读

技术综述：综述：神经网络中 Normalization 的发展历程｜ CNN轻量化模型及其设计原则综述

算法技巧（trick）： 8点PyTorch提速技巧汇总｜图像分类算法优化技巧

# CV技术社群邀请函 #

△长按添加极市小助手

添加极市小助手微信（ID : cvmart4）

备注：姓名-学校/公司-研究方向-城市（如：小极-北大-目标检测-深圳）

即可申请加入极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR/视频理解等技术交流群

每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、干货资讯汇总、与 10000+来自港科大、北大、清华、中科院、CMU、腾讯、百度等名校名企视觉开发者互动交流~

觉得有用麻烦给个在看啦~

登录查看更多

0

相关内容

新加坡国立大学

新加坡国立大学

新加坡国立大学（简称国大），是新加坡首屈一指的世界级顶尖大学。国大在工程、生命科学及生物医学、社会科学及自然科学等领域的研究享有世界盛名。在2015QS世界大学排名中，国大名列第12位。

元宇宙如何用区块链？韩国学者发布最新《元宇宙中的区块链》综述论文，涵盖108篇文献阐述区块链在元宇宙的五大技术方面

元宇宙如何用区块链？韩国学者发布最新《元宇宙中的区块链》综述论文，涵盖108篇文献阐述区块链在元宇宙的五大技术方面

专知会员服务

79+阅读 · 2022年3月24日

118页PPT，《2022元宇宙研究报告：多元视角》，中国传媒大学媒体融合与传播国家重点实验室新媒体研究院、新浪新闻、央视网智媒学院

118页PPT，《2022元宇宙研究报告：多元视角》，中国传媒大学媒体融合与传播国家重点实验室新媒体研究院、新浪新闻、央视网智媒学院

专知会员服务

51+阅读 · 2022年2月20日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【CVPR 2019 | tutorial】用于计算机视觉的胶囊网络 Capsule Networks for Computer Vision，中佛罗里达大学|Mubarak Shah，Rawat

【CVPR 2019 | tutorial】用于计算机视觉的胶囊网络 Capsule Networks for Computer Vision，中佛罗里达大学|Mubarak Shah，Rawat

专知会员服务

25+阅读 · 2019年6月16日

沈腾自比元宇宙DogKing，小扎变身「光头强」！Meta推出3D化身

沈腾自比元宇宙DogKing，小扎变身「光头强」！Meta推出3D化身

新智元

0+阅读 · 2022年2月1日

元宇宙第一课！斯坦福全程VR第一课，3333小时沉浸体验

元宇宙第一课！斯坦福全程VR第一课，3333小时沉浸体验

新智元

0+阅读 · 2021年12月15日

Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D

Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D

AI科技评论

0+阅读 · 2021年10月15日

AI即将拥有自我意识？Facebook推「Ego4D 」开启元宇宙大门

AI即将拥有自我意识？Facebook推「Ego4D 」开启元宇宙大门

新智元

0+阅读 · 2021年10月15日

深度思考：RealVSR-业界首个移动端真实场景视频超分数据集（ICCV2021 ）

深度思考：RealVSR-业界首个移动端真实场景视频超分数据集（ICCV2021 ）

极市平台

0+阅读 · 2021年9月7日

多维技术空间机遇下的新兴经济企业成长路径：商业模式的视角

国家自然科学基金

1+阅读 · 2013年12月31日

人脸图像的身份和表情同步识别方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

视频中交互行为的表示与理解方法

国家自然科学基金

1+阅读 · 2012年12月31日

基于视频的行人检测和行为识别研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于视频分析的儿童行为研究

国家自然科学基金

1+阅读 · 2011年12月31日

Self-supervised Learning for Sonar Image Classification

Arxiv

0+阅读 · 2022年4月20日

Learning to Fill the Seam by Vision: Sub-millimeter Peg-in-hole on Unseen Shapes in Real World

Learning to Fill the Seam by Vision: Sub-millimeter Peg-in-hole on Unseen Shapes in Real World

Arxiv

0+阅读 · 2022年4月20日

Panoptic segmentation with highly imbalanced semantic labels

Arxiv

0+阅读 · 2022年4月19日

On The Cross-Modal Transfer from Natural Language to Code through Adapter Modules

Arxiv

0+阅读 · 2022年4月19日

ExCon: Explanation-driven Supervised Contrastive Learning for Image Classification

Arxiv

0+阅读 · 2022年4月18日

VIP会员

相关主题

新加坡国立大学

麻省理工学院

增强现实（AR）

相关VIP内容

元宇宙如何用区块链？韩国学者发布最新《元宇宙中的区块链》综述论文，涵盖108篇文献阐述区块链在元宇宙的五大技术方面

元宇宙如何用区块链？韩国学者发布最新《元宇宙中的区块链》综述论文，涵盖108篇文献阐述区块链在元宇宙的五大技术方面

专知会员服务

79+阅读 · 2022年3月24日

118页PPT，《2022元宇宙研究报告：多元视角》，中国传媒大学媒体融合与传播国家重点实验室新媒体研究院、新浪新闻、央视网智媒学院

118页PPT，《2022元宇宙研究报告：多元视角》，中国传媒大学媒体融合与传播国家重点实验室新媒体研究院、新浪新闻、央视网智媒学院

专知会员服务

51+阅读 · 2022年2月20日

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

【MIT】自监督几何感知，22页ppt，Self-supervised Geometric Perception

专知会员服务

23+阅读 · 2021年6月3日

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

FB大牛撰文推介，PySlowFast！Facebook开源视频理解前沿算法代码库，视频SOTA技术全在这了！

专知会员服务

65+阅读 · 2020年1月6日

【CVPR 2019 | tutorial】用于计算机视觉的胶囊网络 Capsule Networks for Computer Vision，中佛罗里达大学|Mubarak Shah，Rawat

【CVPR 2019 | tutorial】用于计算机视觉的胶囊网络 Capsule Networks for Computer Vision，中佛罗里达大学|Mubarak Shah，Rawat

专知会员服务

25+阅读 · 2019年6月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《将空中力量带向海洋：美国海军航空发展的四条竞争路径及其教训》报告

【MIT博士论文】以语言为中心的医学影像理解

《无人机系统 - 反无人机系统：测试方法》364页

《无人机蜂群攻击防御的预测建模：面向美军战备的人工智能轨迹预测与最优拦截策略设计》最新报告

相关资讯

沈腾自比元宇宙DogKing，小扎变身「光头强」！Meta推出3D化身

沈腾自比元宇宙DogKing，小扎变身「光头强」！Meta推出3D化身

新智元

0+阅读 · 2022年2月1日

元宇宙第一课！斯坦福全程VR第一课，3333小时沉浸体验

元宇宙第一课！斯坦福全程VR第一课，3333小时沉浸体验

新智元

0+阅读 · 2021年12月15日

Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D

Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D

AI科技评论

0+阅读 · 2021年10月15日

AI即将拥有自我意识？Facebook推「Ego4D 」开启元宇宙大门

AI即将拥有自我意识？Facebook推「Ego4D 」开启元宇宙大门

新智元

0+阅读 · 2021年10月15日

深度思考：RealVSR-业界首个移动端真实场景视频超分数据集（ICCV2021 ）

深度思考：RealVSR-业界首个移动端真实场景视频超分数据集（ICCV2021 ）

极市平台

0+阅读 · 2021年9月7日

相关基金

多维技术空间机遇下的新兴经济企业成长路径：商业模式的视角

国家自然科学基金

1+阅读 · 2013年12月31日

人脸图像的身份和表情同步识别方法研究

国家自然科学基金

2+阅读 · 2012年12月31日

视频中交互行为的表示与理解方法

国家自然科学基金

1+阅读 · 2012年12月31日

基于视频的行人检测和行为识别研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于视频分析的儿童行为研究

国家自然科学基金

1+阅读 · 2011年12月31日

相关论文

Self-supervised Learning for Sonar Image Classification

Arxiv

0+阅读 · 2022年4月20日

Learning to Fill the Seam by Vision: Sub-millimeter Peg-in-hole on Unseen Shapes in Real World

Learning to Fill the Seam by Vision: Sub-millimeter Peg-in-hole on Unseen Shapes in Real World

Arxiv

0+阅读 · 2022年4月20日

Panoptic segmentation with highly imbalanced semantic labels

Arxiv

0+阅读 · 2022年4月19日

On The Cross-Modal Transfer from Natural Language to Code through Adapter Modules

Arxiv

0+阅读 · 2022年4月19日

ExCon: Explanation-driven Supervised Contrastive Learning for Image Classification

Arxiv

0+阅读 · 2022年4月18日

大家都在搜

大型语言模型

蓝牙安全攻防

朱克爱德华兹家族

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员