斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型 - 专知VIP

会员服务 ·

0

计算机视觉 · 李飞飞 · 斯坦福大学 (Stanford University) ·

2020 年 1 月 12 日

斯坦福大学李飞飞组发布Action Genome:一种新的表达形式，新的数据集，以及将动作分解成时空场景图的新模型

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

简介： 动作识别通常将动作和活动视为视频中发生的整体事件。但是，认知科学和神经科学的证据表明，人们积极地将活动编码为一致的层次结构。但是，在计算机视觉中，很少有关于编码事件单语的表示的探索。论文引入了动作基因组，该基因组将动作分解为时空场景图。动作发生时，基因组捕获对象之间的变化及其成对关系。它包含10K视频，其中有40万个对象和170万个可视关系。使用动作基因组，我们通过合并场景图的时空特征库来扩展现有的动作识别模型，以在Charades数据集上实现更好的性能。接下来，通过分解和学习导致动作的视觉关系的时间变化，我们通过启用少拍动作识别来演示分层事件分解的效用，仅使用10个示例就可以实现42.7％的mAP。最后，我们以时空场景图预测的新任务为基准对现有场景图模型进行基准测试。

成为VIP会员查看完整内容

40

相关内容

计算机视觉

计算机视觉

计算机视觉是一门研究如何使机器“看”的科学，更进一步的说，就是是指用摄影机和电脑代替人眼对目标进行识别、跟踪和测量等机器视觉，并进一步做图形处理，使电脑处理成为更适合人眼观察或传送给仪器检测的图像。作为一个科学学科，计算机视觉研究相关的理论和技术，试图建立能够从图像或者多维数据中获取‘信息’的人工智能系统。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

专知会员服务

25+阅读 · 2020年4月15日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

104+阅读 · 2020年2月20日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

专知会员服务

100+阅读 · 2019年11月23日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

【斯坦福大学NeuralPS2019】GNN解释器，GNNExplainer: Generating Explanations for Graph Neural Networks，斯坦福大学|Jure Leskovec

【斯坦福大学NeuralPS2019】GNN解释器，GNNExplainer: Generating Explanations for Graph Neural Networks，斯坦福大学|Jure Leskovec

专知会员服务

89+阅读 · 2019年10月13日

论文浅尝 | 时序与因果关系联合推理

论文浅尝 | 时序与因果关系联合推理

开放知识图谱

35+阅读 · 2019年6月23日

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

PaperWeekly

10+阅读 · 2019年6月11日

论文浅尝 | 使用循环神经网络的联合事件抽取

论文浅尝 | 使用循环神经网络的联合事件抽取

开放知识图谱

25+阅读 · 2019年4月28日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

【CVPR2018】物体检测中的结构推理网络

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

Moments in Time：IBM-MIT联合提出最新百万规模视频动作理解数据集

Moments in Time：IBM-MIT联合提出最新百万规模视频动作理解数据集

极市平台

5+阅读 · 2017年12月26日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

资源 | 谷歌发布人类动作识别数据集AVA，精确标注多人动作

资源 | 谷歌发布人类动作识别数据集AVA，精确标注多人动作

机器之心

6+阅读 · 2017年10月19日

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

Learning by Abstraction: The Neural State Machine

Learning by Abstraction: The Neural State Machine

Arxiv

6+阅读 · 2019年7月11日

Attend More Times for Image Captioning

Attend More Times for Image Captioning

Arxiv

6+阅读 · 2018年12月8日

Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

Arxiv

5+阅读 · 2018年9月24日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence

Arxiv

7+阅读 · 2018年2月15日

Virtual-to-Real: Learning to Control in Visual Semantic Segmentation

Arxiv

4+阅读 · 2018年2月1日

Multiple Object Detection, Tracking and Long-Term Dynamics Learning in Large 3D Maps

Arxiv

6+阅读 · 2018年1月28日

VIP会员

相关主题

计算机视觉

斯坦福大学 (Stanford University)

相关VIP内容

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

【斯坦福大学博士论文】自监督场景表示学习， 97页pdf

专知会员服务

95+阅读 · 2020年6月19日

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

【CVPR2020高分接受论文-3个strong accept-商汤港中文】FineGym:用于细粒度动作理解的分层视频数据集

专知会员服务

25+阅读 · 2020年4月15日

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

【CVPR2020-中科院计算所】多模态GNN：在视觉信息和场景文字上联合推理

专知会员服务

61+阅读 · 2020年4月7日

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

【CVPR2020-斯坦福】知识蒸馏时空图的视频描述，Spatio-Temporal Graph

专知会员服务

34+阅读 · 2020年4月2日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

104+阅读 · 2020年2月20日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

【行为识别| 2019最新综述】时空动作识别综述（Spatio-temporal Action Recognition: A Survey），附15页PDF

专知会员服务

100+阅读 · 2019年11月23日

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

斯坦福李飞飞高徒Johnson博士论文: 组成式计算机视觉智能,195页PDF

专知会员服务

71+阅读 · 2019年10月27日

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

【斯坦福大学李飞飞高徒朱玉可博士毕业论文和PPT，158页pdf与96页slides】闭合感知-动作循环:实现通用机器人的自治，能够理解并与现实世界交互的通用机器人构建智能

专知会员服务

104+阅读 · 2019年10月22日

【斯坦福大学NeuralPS2019】GNN解释器，GNNExplainer: Generating Explanations for Graph Neural Networks，斯坦福大学|Jure Leskovec

【斯坦福大学NeuralPS2019】GNN解释器，GNNExplainer: Generating Explanations for Graph Neural Networks，斯坦福大学|Jure Leskovec

专知会员服务

89+阅读 · 2019年10月13日

热门VIP内容

开通专知VIP会员享更多权益服务

大语言模型基准综述

《自适应训练辅助系统概念导论及其在空战指挥官加速培训中的应用》125页

【剑桥博士论文】多智能体学习中的神经多样性

以色列-伊朗空战：短暂而激烈冲突的启示

相关资讯

论文浅尝 | 时序与因果关系联合推理

论文浅尝 | 时序与因果关系联合推理

开放知识图谱

35+阅读 · 2019年6月23日

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

CVPR 2019 | 旷视研究院提出TACNet，刷新时空动作检测技术新高度

PaperWeekly

10+阅读 · 2019年6月11日

论文浅尝 | 使用循环神经网络的联合事件抽取

论文浅尝 | 使用循环神经网络的联合事件抽取

开放知识图谱

25+阅读 · 2019年4月28日

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

【泡泡一分钟】扫描环境：用于3D点云地图中场景识别的自我中心空间描述符

泡泡机器人SLAM

22+阅读 · 2019年1月17日

【CVPR2018】物体检测中的结构推理网络

【CVPR2018】物体检测中的结构推理网络

深度学习大讲堂

6+阅读 · 2018年7月30日

【学界】李飞飞学生最新论文：利用场景图生成图像

【学界】李飞飞学生最新论文：利用场景图生成图像

GAN生成式对抗网络

15+阅读 · 2018年4月9日

Moments in Time：IBM-MIT联合提出最新百万规模视频动作理解数据集

Moments in Time：IBM-MIT联合提出最新百万规模视频动作理解数据集

极市平台

5+阅读 · 2017年12月26日

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

【干货】首次使用分层强化学习框架进行视频描述生成，王威廉组最新工作

专知

14+阅读 · 2017年12月9日

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

李飞飞力赞论文：描述视频密集事件新模型 !（附论文）

数据派THU

10+阅读 · 2017年11月11日

资源 | 谷歌发布人类动作识别数据集AVA，精确标注多人动作

资源 | 谷歌发布人类动作识别数据集AVA，精确标注多人动作

机器之心

6+阅读 · 2017年10月19日

相关论文

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Total3DUnderstanding: Joint Layout, Object Pose and Mesh Reconstruction for Indoor Scenes from a Single Image

Arxiv

12+阅读 · 2020年2月27日

Learning by Abstraction: The Neural State Machine

Learning by Abstraction: The Neural State Machine

Arxiv

6+阅读 · 2019年7月11日

Attend More Times for Image Captioning

Attend More Times for Image Captioning

Arxiv

6+阅读 · 2018年12月8日

Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

Jointly Multiple Events Extraction via Attention-based Graph Information Aggregation

Arxiv

5+阅读 · 2018年9月24日

End-to-end Active Object Tracking via Reinforcement Learning

Arxiv

3+阅读 · 2018年6月1日

Reconstruction Network for Video Captioning

Arxiv

5+阅读 · 2018年3月30日

Video Captioning via Hierarchical Reinforcement Learning

Arxiv

20+阅读 · 2018年3月29日

Multimodal Explanations: Justifying Decisions and Pointing to the Evidence

Arxiv

7+阅读 · 2018年2月15日

Virtual-to-Real: Learning to Control in Visual Semantic Segmentation

Arxiv

4+阅读 · 2018年2月1日

Multiple Object Detection, Tracking and Long-Term Dynamics Learning in Large 3D Maps

Arxiv

6+阅读 · 2018年1月28日

微信扫码咨询专知VIP会员