成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
AI即将拥有自我意识?Facebook推「Ego4D 」开启元宇宙大门
2021 年 10 月 15 日
新智元
新智元报道
来源:Facebook AI
编辑:小咸鱼 好困
【新智元导读】
今年11月,Facebook将开源让AI拥有以第一人称视角与世界进行交互的能力的Ego4D(Egocentric 4D Perception)计划。其中包含超过3025小时的第一人称视频,包括来自73个城市的700多名参与者的日常生活。
你有想象过,有一天,戴上头盔,眼前立刻悬浮出科幻场景般的炫丽世界吗?
在钢铁侠电影中,每当托尼斯塔克穿上机械盔甲,头盔合上的那一刻,超级人工智能管家贾维斯就会在他眼前出现,帮助他分析眼前的情况。
钢铁侠头盔里的贾维斯,其实是以第一人称视角来理解世界的,所以会带来电影里那样的沉浸式体验。
在未来,增强现实(AR)眼镜和虚拟现实(VR)耳机等设备在日常生活中,将会变得像智能手机一样普遍。
想象一下,你的增强现实设备准确地显示了如何在鼓课上握住木棒,指导你完成一个食谱,帮助你找到丢失的钥匙,或者像全息图一样浮现出你的记忆。
为了实现这些新技术,人工智能需要像我们一样,从第一人称的角度理解世界并与它互动,这在研究界,通常被称为以第一人称为中心的视觉感知。
然而,今天的计算机视觉(CV)系统从数以百万计的照片和视频中学习,尽管发展飞速,有了喜人的研究进展,可这些照片和视频都是以第三人称视角拍摄的,相机的视角只是一个行动的旁观者视角。
嗯。。。钢铁侠系列的电影都结束了,现实生活中什么时候才能见到像贾维斯那样,以第一视角理解世界的AI,出现在增强现实设备里呢?
别着急,有眉目了!
「Ego4D」计划
2021年,Facebook AI正在宣布开展「Ego4D」(Egocentric 4D Perception)计划, 这是一个雄心勃勃的长期项目,为的就是解决以第一人称视觉为中心的感知领域的研究挑战。
「Ego4D」(Egocentric 4D Perception)是一个大规模的以第一人称视觉为中心的数据集,具有前所未有的多样性。它由来自全球9个不同国家74个地点的855名独特参与者收集的3025小时视频组成。
该项目汇集了88名研究人员,将这一数据集的规模大幅增加了一个数量级,比任何其他项目都大20多倍,并且即将在11月底开放下载。
让AI也体验「第一人称视角」
就拿过山车来说吧,你在上面体验着肾上腺素飙升的快感。而下面的人则是看得一脸懵比。
人工智能,就更懵了……如果把CV系统绑在过山车上,它估计完全不知道自己该看些什么。即便在地面上从旁观者的角度看了几十万张过山车的图片或视频,也是如此。
AI在第一人称视角把自行车上的部件识别为「红绿灯」
Facebook首席研究科学家Kristen Grauman表示:「为了使人工智能系统能够像我们一样与世界互动,人工智能领域需要发展到一种全新的第一人称感知范式。这意味着教人工智能在实时运动、互动和多感官观察的背景下,通过人类的眼睛理解日常生活活动。」
于是,Facebook AI在「Ego4D」中开放了五个以第一人称视觉体验为中心的基准挑战。
哎,你看到我的手机了吗?我又找不着我的手机了!
很熟悉,对吧?
Ego4D希望解决的第一个问题是情景记忆(Episodic memory)。
以第一人称视觉为中心的视频记录了相机佩戴者的日常生活,如果用这些视频去训练AI,AI就能学会通过检索过去以第一人称视觉为中心的视频中的关键时刻来扩展你的个人记忆。
你可能会问人工智能各种自由形式的问题,比如:视觉查询「我把我孩子最喜欢的泰迪熊放在哪里了?」、文本查询「我加了多少杯糖」,以及事件查询「我什么时候和狗玩的」。
为此,模型必须能响应你的提问,并在过去的视频帧中定位,进一步提供记忆中的三维空间方向,时间,事件细节等信息。
坏了,接下来我要做什么来着?
Ego4D要解决的第二个问题便是预测(Forecasting):下一步我要做什么?
人工智能可以理解佩戴者的行为会如何影响这个人未来的状态,比如这个人可能会移动到哪里,他们可能会触摸什么物体,或者他们接下来可能会从事什么活动。
预测行动不仅需要认识到已经发生的事情,还需要展望未来,预测下一步行动。这样AI系统就可以在当下提供有用的指导。
比方说,就在你准备端着锅里的汤就走的时候,你的人工智能助手会赶紧通知你,「等等,你没加盐咋吃啊?」
我在做什么,该怎么做?
手-物之间的互动(Hand and object manipulation)也是难点之一,因为AI需要理解我在做什么,该怎么做?
学习手如何与物体互动对于AI指导我们的日常生活至关重要。AI必须检测第一人称的人-物交互,识别抓取,并检测物体状态变化。这时,AI机器人可以总结视频中观察到的人类经验,获得自己的经验。
因此,当你在烹饪一份食谱时,人工智能助手可以指导你需要哪些配料,需要先做什么,了解你已经做了什么,指导你度过每一个「大脑宕机」的时刻。
刚刚他说了什么,他什么时候说的?
人类可以用声音来理解世界,未来的人工智能也要学会这种视听记录(Audio-visual diarization)。
如果你正在上一堂重要的课,但因为爸妈给你发短信而分了心,你可以问AI:「教授把我们的试卷收上去之后,说明天要讲什么」?
我正在与谁互动,如何互动?
社会互动(Social interaction)是Ego4D所盼望的最后一个方向。
除了识别视觉和声音提示,理解社交互动是智能人工智能助手的核心。一个社交智能人工智能会理解谁在和谁说话,谁在关注谁。
所以,下次你参加晚宴时,即使再嘈杂,AI助手可以帮助你专注于桌子对面和你说话的人在说什么。
以上这些基准挑战都是以第一人称视觉为中心的人工智能的基本构建模块,这将让AI不仅可以在现实世界中理解和互动,还可以在元宇宙中进行理解和互动,构成更有用的人工智能助手和其他未来创新的基础。
一个又大又干净的数据集
基准和数据集在历史上被证明是人工智能行业创新的关键催化剂。毕竟,今天的CV系统可以识别图像中的几乎任何物体,是建立在数据集和基准之上的,例如MNIST、COCO和ImageNet,它们为研究人员提供了研究真实世界图像的测试平台。
但是以自我为中心的感知是一个全新的领域。我们不可能用昨天的工具来构建明天的创新。Ego4D的空前规模和多样性对于迎来下一代智能人工智能系统至关重要。
Ego4D数据集的地理覆盖面、场景、参与者和捕获模式都各不相同。数据也是使用多种不同的现成头戴式摄像机捕获的,如GoPro、Vuzix Blade等等。
除了视频之外,Ego4D的部分功能还提供其他数据形式:3D扫描立体图、音频、多个同步可穿戴摄像头等等。
Ego4D数据集的贡献者也来自很多所大学,包括大家熟知的卡内基梅隆大学,佐治亚理工学院,东京大学和新加坡国立大学等。
参与者录制需要录制大约8分钟的日常场景片段,如买菜、做饭、玩游戏时的交谈以及与家人和朋友进行的集体活动。
Ego4D捕捉到了佩戴摄像机的人在特定环境中选择注视的地方,他们用手(和他们面前的物体)做了什么,以及他们如何从第一人称视角与其他人互动。它们当中的一些镜头还可以与3D扫描、惯性测量单元的运动数据和眼球追踪相搭配。
下一步是什么?
Facebook AI试图通过Ego4D项目打造一条全新的道路,以构建更智能、更具交互性和灵活性的计算机视觉系统。
随着人工智能对人们正常生活方式有了更深入的理解,它可以开始以前所未有的方式对交互体验进行情境化和个性化。
Grauman表示:「Ego4D使人工智能有可能获得根植于物理和社会世界的知识,这些知识是通过生活在其中的人的第一人称视角收集的。」
「由此开始,人工智能不仅会更好地了解周围的世界,有一天它可能还会实现个性化——它能知道你最喜欢的咖啡杯,或者为你的下一次家庭旅行指引路线。」
有了Ego4D的基准支持,配合上在全新数据集中的训练,AI助手有可能以非常独特和有意义的方式提供很多的价值,比如,帮助回忆起最近与同事交谈中的关键信息,或者指导制作新的晚餐食谱。
Facebook表示,从这一系列工作中获得的价值将推动我们走向未来的「现实」。
对此,玛丽皇后大学的人工智能研究员Mike Cook认为,「从积极的角度来说,至少就目前而言,这是一个非常棒的大型数据集。」
「不过,这实际上并没有解决人工智能中的一个紧迫挑战或问题......除非你是一家想要销售可穿戴相机的科技公司。它确实告诉你更多关于Facebook的未来计划,但是......他们向它注入资金并不意味着它一定会变得重要。」
参考资料:
https://ai.facebook.com/blog/teaching-ai-to-perceive-the-world-through-your-eyes/
https://ego4d-data.org/#challenges
https://scontent-man2-1.xx.fbcdn.net/v/t39.8562-6/10000000_847983305881306_7509059106343724260_n.pdf?_nc_cat=104&ccb=1-5&_nc_sid=ae5e01&_nc_ohc=oG22Dq6JhsIAX_7Cb51&_nc_ht=scontent-man2-1.xx&oh=b70a03b9a5d8a58c26586729c08d3a54&oe=616D0510
https://venturebeat.com/2021/10/14/facebook-introduces-dataset-and-benchmarks-to-make-ai-more-egocentric/
登录查看更多
点赞并收藏
0
暂时没有读者
0
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
Facebook
关注
29
Facebook 是一个社交网络服务网站,于 2004 年 2 月 4 日上线。从 2006 年 9 月到 2007 年 9 月间,该网站在全美网站中的排名由第 60 名上升至第 7 名。同时 Facebook 是美国排名第一的照片分享站点。 2012年 2 月 1 日,Facebook向美国证券交易委员会提交集资规模为 50 亿美元的上市申请。
5400亿!谷歌「Pathways语言模型」发布,能理解做推理生成代码
专知会员服务
38+阅读 · 2022年4月5日
元宇宙如何用区块链?韩国学者发布最新《元宇宙中的区块链》综述论文,涵盖108篇文献阐述区块链在元宇宙的五大技术方面
专知会员服务
78+阅读 · 2022年3月24日
重磅!斯坦福HAI《2022人工智能指数报告》出炉,230页pdf了解AI八大态势进展
专知会员服务
116+阅读 · 2022年3月16日
【斯坦福HAI白皮书】关于更新国家人工智能研发战略规划的建议,Recommendations on Updating the National Artificial Intelligence Research and Development Strategic Plan
专知会员服务
41+阅读 · 2022年3月15日
元宇宙如何用AI?韩国学者发布最新《人工智能元宇宙》综述论文,涵盖170篇文献阐述人工智能在元宇宙的六大技术与四类重点应用
专知会员服务
142+阅读 · 2022年2月28日
复旦大学联合发布《元宇宙报告(2021-2022)》(附下载)
专知会员服务
116+阅读 · 2022年1月26日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
60+阅读 · 2021年8月27日
【斯坦福-NLP-seminar】知识密集强化学习,72页ppt,Facebook TIM
专知会员服务
28+阅读 · 2021年4月27日
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
40+阅读 · 2020年12月19日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
亏了100亿后,小扎再提元宇宙「开发时间表」
新智元
0+阅读 · 2022年3月16日
沈腾自比元宇宙DogKing,小扎变身「光头强」!Meta推出3D化身
新智元
0+阅读 · 2022年2月1日
2202年了,AI还是不如猫!图灵奖得主Yann LeCun:3大挑战依然无解
新智元
1+阅读 · 2022年1月30日
全球首部元宇宙言情片问世!22岁男孩执导「我们在虚拟现实中相遇」
新智元
0+阅读 · 2022年1月24日
元宇宙第一课!斯坦福全程VR第一课,3333小时沉浸体验
新智元
0+阅读 · 2021年12月15日
人类未来将毁于元宇宙?刘慈欣向往星辰大海,小扎却要深耕Meta
极市平台
0+阅读 · 2021年11月8日
Facebook和NUS、MIT等高校推出3000小时的第一视角视频数据集:Ego4D
极市平台
0+阅读 · 2021年11月2日
Facebook,改头换脸!5年All in元宇宙,铁了心干
新智元
0+阅读 · 2021年10月21日
Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D
AI科技评论
0+阅读 · 2021年10月15日
当人类与「熵」对抗时,意识出现了!那AI呢?
新智元
0+阅读 · 2021年10月2日
基于运动与深度感知的立体视觉舒适度研究
国家自然科学基金
1+阅读 · 2014年12月31日
脉冲型太阳高能粒子事件中的粒子加速和传播研究
国家自然科学基金
0+阅读 · 2014年12月31日
介观兴奋/抑制神经元网络的放电动力学行为特性研究
国家自然科学基金
0+阅读 · 2014年12月31日
特征自学习机制下的密集群体内多人交互行为异常感知
国家自然科学基金
1+阅读 · 2013年12月31日
基于稀疏学习和中继样本的婴幼儿脑部磁共振图像配准研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于视频的行人检测和行为识别研究
国家自然科学基金
2+阅读 · 2012年12月31日
基于EEG和fNIRS的多模态脑机接口运动想象参数研究
国家自然科学基金
1+阅读 · 2012年12月31日
基于空间感知的混合现实徒手自然交互技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
具有自我感知特性的主动视觉系统在复杂未知物体三维重建中的研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于视频分析的儿童行为研究
国家自然科学基金
1+阅读 · 2011年12月31日
Hephaestus: A large scale multitask dataset towards InSAR understanding
Arxiv
0+阅读 · 2022年4月20日
Self-supervised Learning for Sonar Image Classification
Arxiv
0+阅读 · 2022年4月20日
Learning to Fill the Seam by Vision: Sub-millimeter Peg-in-hole on Unseen Shapes in Real World
Arxiv
0+阅读 · 2022年4月20日
Towards General Purpose Vision Systems
Arxiv
0+阅读 · 2022年4月19日
SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation
Arxiv
0+阅读 · 2022年4月19日
Exploiting Multiple EEG Data Domains with Adversarial Learning
Arxiv
0+阅读 · 2022年4月16日
Subset Sum in $O(n^{16}\log(n))$
Arxiv
0+阅读 · 2022年4月15日
Artificial Intelligence for the Metaverse: A Survey
Arxiv
30+阅读 · 2022年2月15日
Attention Mechanisms in Computer Vision: A Survey
Arxiv
58+阅读 · 2021年11月15日
Domain Generalization in Vision: A Survey
Arxiv
16+阅读 · 2021年7月18日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
Facebook
增强现实(AR)
AI
人工智能
数据集
电影
相关VIP内容
5400亿!谷歌「Pathways语言模型」发布,能理解做推理生成代码
专知会员服务
38+阅读 · 2022年4月5日
元宇宙如何用区块链?韩国学者发布最新《元宇宙中的区块链》综述论文,涵盖108篇文献阐述区块链在元宇宙的五大技术方面
专知会员服务
78+阅读 · 2022年3月24日
重磅!斯坦福HAI《2022人工智能指数报告》出炉,230页pdf了解AI八大态势进展
专知会员服务
116+阅读 · 2022年3月16日
【斯坦福HAI白皮书】关于更新国家人工智能研发战略规划的建议,Recommendations on Updating the National Artificial Intelligence Research and Development Strategic Plan
专知会员服务
41+阅读 · 2022年3月15日
元宇宙如何用AI?韩国学者发布最新《人工智能元宇宙》综述论文,涵盖170篇文献阐述人工智能在元宇宙的六大技术与四类重点应用
专知会员服务
142+阅读 · 2022年2月28日
复旦大学联合发布《元宇宙报告(2021-2022)》(附下载)
专知会员服务
116+阅读 · 2022年1月26日
国防科大《视觉-语言导航》综述论文,24页pdf154篇文献
专知会员服务
60+阅读 · 2021年8月27日
【斯坦福-NLP-seminar】知识密集强化学习,72页ppt,Facebook TIM
专知会员服务
28+阅读 · 2021年4月27日
【AAAI2021】元学习器的冷启动序列推荐
专知会员服务
40+阅读 · 2020年12月19日
【强化学习】深度强化学习初学者指南
专知会员服务
179+阅读 · 2019年12月14日
热门VIP内容
开通专知VIP会员 享更多权益服务
机器战争:将自主系统纳入军事框架
《作战战略和决策规划的数学模型》
美空军条令《反陆作战》最新84页
《军事高价值资产自主防御与护航的深度强化学习方法》最新148页
相关资讯
亏了100亿后,小扎再提元宇宙「开发时间表」
新智元
0+阅读 · 2022年3月16日
沈腾自比元宇宙DogKing,小扎变身「光头强」!Meta推出3D化身
新智元
0+阅读 · 2022年2月1日
2202年了,AI还是不如猫!图灵奖得主Yann LeCun:3大挑战依然无解
新智元
1+阅读 · 2022年1月30日
全球首部元宇宙言情片问世!22岁男孩执导「我们在虚拟现实中相遇」
新智元
0+阅读 · 2022年1月24日
元宇宙第一课!斯坦福全程VR第一课,3333小时沉浸体验
新智元
0+阅读 · 2021年12月15日
人类未来将毁于元宇宙?刘慈欣向往星辰大海,小扎却要深耕Meta
极市平台
0+阅读 · 2021年11月8日
Facebook和NUS、MIT等高校推出3000小时的第一视角视频数据集:Ego4D
极市平台
0+阅读 · 2021年11月2日
Facebook,改头换脸!5年All in元宇宙,铁了心干
新智元
0+阅读 · 2021年10月21日
Facebook和NUS、MIT等高校联合推出3000小时的第一视角视频数据集Ego4D
AI科技评论
0+阅读 · 2021年10月15日
当人类与「熵」对抗时,意识出现了!那AI呢?
新智元
0+阅读 · 2021年10月2日
相关基金
基于运动与深度感知的立体视觉舒适度研究
国家自然科学基金
1+阅读 · 2014年12月31日
脉冲型太阳高能粒子事件中的粒子加速和传播研究
国家自然科学基金
0+阅读 · 2014年12月31日
介观兴奋/抑制神经元网络的放电动力学行为特性研究
国家自然科学基金
0+阅读 · 2014年12月31日
特征自学习机制下的密集群体内多人交互行为异常感知
国家自然科学基金
1+阅读 · 2013年12月31日
基于稀疏学习和中继样本的婴幼儿脑部磁共振图像配准研究
国家自然科学基金
0+阅读 · 2013年12月31日
基于视频的行人检测和行为识别研究
国家自然科学基金
2+阅读 · 2012年12月31日
基于EEG和fNIRS的多模态脑机接口运动想象参数研究
国家自然科学基金
1+阅读 · 2012年12月31日
基于空间感知的混合现实徒手自然交互技术研究
国家自然科学基金
1+阅读 · 2012年12月31日
具有自我感知特性的主动视觉系统在复杂未知物体三维重建中的研究
国家自然科学基金
0+阅读 · 2011年12月31日
基于视频分析的儿童行为研究
国家自然科学基金
1+阅读 · 2011年12月31日
相关论文
Hephaestus: A large scale multitask dataset towards InSAR understanding
Arxiv
0+阅读 · 2022年4月20日
Self-supervised Learning for Sonar Image Classification
Arxiv
0+阅读 · 2022年4月20日
Learning to Fill the Seam by Vision: Sub-millimeter Peg-in-hole on Unseen Shapes in Real World
Arxiv
0+阅读 · 2022年4月20日
Towards General Purpose Vision Systems
Arxiv
0+阅读 · 2022年4月19日
SePiCo: Semantic-Guided Pixel Contrast for Domain Adaptive Semantic Segmentation
Arxiv
0+阅读 · 2022年4月19日
Exploiting Multiple EEG Data Domains with Adversarial Learning
Arxiv
0+阅读 · 2022年4月16日
Subset Sum in $O(n^{16}\log(n))$
Arxiv
0+阅读 · 2022年4月15日
Artificial Intelligence for the Metaverse: A Survey
Arxiv
30+阅读 · 2022年2月15日
Attention Mechanisms in Computer Vision: A Survey
Arxiv
58+阅读 · 2021年11月15日
Domain Generalization in Vision: A Survey
Arxiv
16+阅读 · 2021年7月18日
大家都在搜
palantir
RE-NET
武器目标分配
兵棋推演
知识图谱
大模型
智能推荐
笛卡尔
PRML
EBSD晶体学织构基础及数据处理
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top