谷歌推出AVA数据库：让机器识别视频中人类行为 | 研究 - 专知

会员服务 ·

0

谷歌推出AVA数据库：让机器识别视频中人类行为 | 研究

2017 年 10 月 22 日 网易智能菌 聚焦AI的

本文系网易新闻-智能工作室出品

聚焦AI，读懂下一个大时代！

网易年度AI人物评选——2017网易AI英雄风云榜，自荐提名进行中！

奖项设置：技术创新人物TOP 10，商业创新人物TOP 10

表彰人物：华人科学家、学者、企业家、创业者

评委阵容：资深媒体人、AI投资人、AI专业机构等

颁奖：2017年12月，中国乌镇

关注网易智能公众号（ID：smartman163），输入关键词“评奖”，随时获取评奖动态！

【网易智能讯 10月23日消息】计算机视觉正在成为科技公司的一大福音，能够让机器加速运转，并完成迄今为止只能由人类完成的任务。

几个月前，eBay公布将要添加新的搜索功能，可以让用户使用现有照片来寻找类似商品，同时线上服装零售商ASOS则在时尚领域涉足此项。Shutterstock上周公布了一项全新的测试功能，用户可以根据自己的布局来搜索股票照片。过了几天，谷歌照片应用发布了新的宠物图像识别功能。

简而言之，在计算机视觉领域，发展越来越激动人心，同时也可以看到人们对人工智能领域的大量投资卓有成效。

目前，大多数计算机视觉技术的进步主要发生在静态图像领域，但我们也开始在视频中看到计算机视觉技术的成果。例如，俄罗斯当局在全国的实时监控网络中应用了面部识别技术。Pornhub也在做类似的事情，自动对“成人娱乐”视频进行分类，包括训练系统识别特定的性姿势。此外，还有蓬勃发展的自动驾驶汽车行业，在很大程度上依赖于机器对现实世界行为理解的能力。

在这样的背景下，谷歌推出了一个新的视频数据库，希望能够推动计算机视觉识别影像中行为的研究。“原子视觉行为”的英文缩写“AVA”是一个由多个标签组成的数据库，用户可以在视频序列中进行操作。

视频中动作识别的困难主要在于视频中各种复杂的场景交织在一起，多个动作也在同一时间由不同的人发出。

谷歌软件工程师顾春晖和大卫罗斯在一篇博客文章中解释道：“教会机器去识别影像中的人类行为是发展计算机视觉的一大基本难题，但是对于个人视频搜索和发现、体育分析和手势界面等应用至关重要。”“尽管过去几年在图像分类和寻找物体方面取得了激动人心的突破，但识别人类行为仍然是一个巨大的挑战。”

本质上，AVA就是一堆被80个原子动作标注的YouTube网址，并延伸到了近5.8万个视频片段，涉及到很多日常活动，比如握手、踢腿、拥抱、接吻、喝酒、玩乐器、散步等等。

通过对外开放数据库，谷歌希望可以改进机器的“社交视觉智能”，这样他们就能理解人类在做什么，并预测他们下一步会做什么。

该公司表示：“我们希望，AVA的发布将有助于改进人类行为识别系统的开发，并有机会基于时空间隔标签对复杂的活动进行建模。”

编译：网易见外编译机器人

选自：VentureBeat

审校：秦昕

点击阅读原文，观看更多精彩内容

登录查看更多

3

相关内容

中国领先的在线游戏与互联网服务公司，主营以网易门户、163邮箱、《梦幻西游》、《魔兽世界》为代表的互联网产品与网络游戏。主要依靠在线游戏、在线广告服务创收。目前，网易门户流量位居全球互联网站第30，《梦幻西游》等三大游戏的用户数超过4.6亿，旗下8个邮箱品牌总用户数超过5亿。

2012年9月以来，公司先后发布《斩魂》、《武魂》以及《熊猫人之谜》等新游戏，进一步巩固其在网游行业的优势地位。作为中国第一批创立并上市的互联网公司，网易享有「中国暴雪」的称号。此外，网易离职员工创业成功者较其他互联网大公司更多，示范效应影响很大。

2000年6月，公司以「NTES」为代码正式登陆纳斯达克交易所。

【WWW2020-微软】理解用户行为用于文档推荐

【WWW2020-微软】理解用户行为用于文档推荐

专知会员服务

36+阅读 · 2020年4月5日

【CVPR 2019 | tutorial】野外家庭的视觉识别： Visual Recognition of Families In the Wild

【CVPR 2019 | tutorial】野外家庭的视觉识别： Visual Recognition of Families In the Wild

专知会员服务

10+阅读 · 2019年11月28日

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

专知会员服务

101+阅读 · 2019年11月23日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

大数据文摘

4+阅读 · 2019年4月29日

继 Google、IBM 之后，Facebook公布行为识别数据集！人工智能的下一个关键将是理解视频，并读懂你的行为

继 Google、IBM 之后，Facebook公布行为识别数据集！人工智能的下一个关键将是理解视频，并读懂你的行为

PingWest品玩

4+阅读 · 2018年1月5日

分析 | 盘点人工神经网络超过人类的6个领域

分析 | 盘点人工神经网络超过人类的6个领域

网易智能菌

5+阅读 · 2017年12月12日

ICCV 2017获奖论文公布何恺明成为最大赢家！ | 聚焦

ICCV 2017获奖论文公布何恺明成为最大赢家！ | 聚焦

网易智能菌

13+阅读 · 2017年10月25日

资源 | 谷歌发布人类动作识别数据集AVA，精确标注多人动作

资源 | 谷歌发布人类动作识别数据集AVA，精确标注多人动作

机器之心

6+阅读 · 2017年10月19日

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

q-Space Novelty Detection with Variational Autoencoders

q-Space Novelty Detection with Variational Autoencoders

Arxiv

3+阅读 · 2018年10月25日

Discovering Discrete Latent Topics with Neural Variational Inference

Arxiv

9+阅读 · 2018年5月21日

Semi-parametric Image Synthesis

Arxiv

4+阅读 · 2018年4月29日

VIP会员

相关主题

计算机视觉

相关VIP内容

【WWW2020-微软】理解用户行为用于文档推荐

【WWW2020-微软】理解用户行为用于文档推荐

专知会员服务

36+阅读 · 2020年4月5日

【CVPR 2019 | tutorial】野外家庭的视觉识别： Visual Recognition of Families In the Wild

【CVPR 2019 | tutorial】野外家庭的视觉识别： Visual Recognition of Families In the Wild

专知会员服务

10+阅读 · 2019年11月28日

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

专知会员服务

101+阅读 · 2019年11月23日

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

【视频中的零样本动作识别：综述】Zero-Shot Action Recognition in Videos: A Survey

专知会员服务

39+阅读 · 2019年10月12日

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

斯坦福&谷歌Jeff Dean最新Nature论文：医疗深度学习技术指南（29页综述）

专知会员服务

63+阅读 · 2019年1月7日

热门VIP内容

开通专知VIP会员享更多权益服务

【斯坦福博士论文】数据、决策与过度依赖：构建可信人工智能的核心挑战

《多域时代中维持弹性军事训练：挑战与机遇》

【AAAI2026】专家数量何为最优？面向混合专家模型的语义专业化优化研究

自进化人工智能体的全面综述：连接基础模型与终身自主智能系统的新范式

相关资讯

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

Google Brain推出语音识别新技术、面部表情识别助力商业再发展|AI一周学术

大数据文摘

4+阅读 · 2019年4月29日

继 Google、IBM 之后，Facebook公布行为识别数据集！人工智能的下一个关键将是理解视频，并读懂你的行为

继 Google、IBM 之后，Facebook公布行为识别数据集！人工智能的下一个关键将是理解视频，并读懂你的行为

PingWest品玩

4+阅读 · 2018年1月5日

分析 | 盘点人工神经网络超过人类的6个领域

分析 | 盘点人工神经网络超过人类的6个领域

网易智能菌

5+阅读 · 2017年12月12日

ICCV 2017获奖论文公布何恺明成为最大赢家！ | 聚焦

ICCV 2017获奖论文公布何恺明成为最大赢家！ | 聚焦

网易智能菌

13+阅读 · 2017年10月25日

资源 | 谷歌发布人类动作识别数据集AVA，精确标注多人动作

资源 | 谷歌发布人类动作识别数据集AVA，精确标注多人动作

机器之心

6+阅读 · 2017年10月19日

相关论文

End-to-End Open-Domain Question Answering with BERTserini

End-to-End Open-Domain Question Answering with BERTserini

Arxiv

3+阅读 · 2019年9月18日

SlowFast Networks for Video Recognition

SlowFast Networks for Video Recognition

Arxiv

4+阅读 · 2019年4月18日

q-Space Novelty Detection with Variational Autoencoders

q-Space Novelty Detection with Variational Autoencoders

Arxiv

3+阅读 · 2018年10月25日

Discovering Discrete Latent Topics with Neural Variational Inference

Arxiv

9+阅读 · 2018年5月21日

Semi-parametric Image Synthesis

Arxiv

4+阅读 · 2018年4月29日

大家都在搜

蓝牙安全攻防

大型语言模型

从传统方法到深度学习—— bilateral filter 到 HDRNet的演进

微信扫码咨询专知VIP会员