【泡泡一分钟】基于图神经网络的情景识别 - 专知

会员服务 ·

0

【泡泡一分钟】基于图神经网络的情景识别

2018 年 11 月 21 日 泡泡机器人SLAM

每天一分钟，带你读遍机器人顶级会议文章

标题：Situation Recognition with Graph Neural Networks

作者：Ruiyu Li, Makarand Tapaswi, Renjie Liao, Jiaya Jia, Raquel Urtasun, Sanja Fidler

来源：International Conference on Computer Vision (ICCV 2017)

编译：张鲁

审核：颜青松陈世浪

欢迎个人转发朋友圈；其他机构或自媒体如需转载，后台留言申请授权

摘要

我们解决了识别图片中的情景的问题。给定一个图像，我们的任务是预测最显著的动词（动作），并为其填充其语义角色，例如谁在执行动作，动作的来源和目标是什么等。不同的动词具有不同的角色（例如：“攻击”具有“武器”这一角色），并且每个角色可以采用许多可能的值（名词）。我们提出了一个基于图结构神经网络的模型，它允许我们使用在图上定义的神经网络来高效地捕捉角色之间的相互依赖关系。具有不同图形连接性的实验表明，我们在角色之间传播信息的方法明显优于现有的工作，以及多个基线方法。在预测完整情景的方面，本文方法相对于先前的工作大致获得了3~5个百分点的提升。我们还对我们的模型进行了全面的定性分析，并对动词中不同角色的影响进行了分析。

图1. 理解图像不仅仅是预测最显著的动作。我们需要知道是谁在进行这个动作，他/她在使用什么工具，等等。情景识别是一个结构化的预测任务，它旨在预测由多个角色-名词对组成的动词及其框架。该图大致展示了我们的模型，该模型使用图来模拟动词及其角色之间的依赖关系。

图2. 对应于相同动词的图像在涉及动词角色的内容上可能完全不同。这使得情景识别变得困难。

Abstract

We address the problem of recognizing situations in images. Given an image, the task is to predict the most salient verb (action), and fill its semantic roles such as who is performing the action, what is the source and target of the action, etc. Different verbs have different roles (e.g. attacking has weapon), and each role can take on many possible values (nouns). We propose a model based on Graph Neural Networks that allows us to efficiently capture joint dependencies between roles using neural networks defined on a graph. Experiments with different graph connectivities show that our approach that propagates information between roles significantly outperforms existing work, as well as multiple baselines. We obtain roughly 3- 5% improvement over previous work in predicting the full situation. We also provide a thorough qualitative analysis of our model and influence of different roles in the verbs.

如果你对本文感兴趣，想要下载完整文章进行阅读，可以关注【泡泡机器人SLAM】公众号（paopaorobot_slam）。

欢迎来到泡泡论坛，这里有大牛为你解答关于SLAM的任何疑惑。

有想问的问题，或者想刷帖回答问题，泡泡论坛欢迎你！

泡泡网站：www.paopaorobot.org

泡泡论坛：http://paopaorobot.org/forums/

泡泡机器人SLAM的原创内容均由泡泡机器人的成员花费大量心血制作而成，希望大家珍惜我们的劳动成果，转载请务必注明出自【泡泡机器人SLAM】微信公众号，否则侵权必究！同时，我们也欢迎各位转载到自己的朋友圈，让更多的人能进入到SLAM这个领域中，让我们共同为推进中国的SLAM事业而努力！

商业合作及转载请联系liufuqiang_robot@hotmail.com

登录查看更多

11

相关内容

图神经网络

图神经网络

图神经网络 (GNN) 是一种连接模型，它通过图的节点之间的消息传递来捕捉图的依赖关系。与标准神经网络不同的是，图神经网络保留了一种状态，可以表示来自其邻域的具有任意深度的信息。近年来，图神经网络(GNN)在社交网络、知识图、推荐系统、问答系统甚至生命科学等各个领域得到了越来越广泛的应用。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知会员服务

134+阅读 · 2020年6月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

【图神经网络(GNN)结构化数据分析】

【图神经网络(GNN)结构化数据分析】

专知会员服务

117+阅读 · 2020年3月22日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

104+阅读 · 2020年2月20日

WSDM2020教程《基于图学习和推理的推荐系统》，附130页PPT下载

WSDM2020教程《基于图学习和推理的推荐系统》，附130页PPT下载

专知会员服务

217+阅读 · 2020年2月15日

【WWW2020-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知会员服务

112+阅读 · 2020年2月13日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

泡泡机器人SLAM

12+阅读 · 2019年5月20日

【泡泡一分钟】RoomNet：端到端房屋布局估计

【泡泡一分钟】RoomNet：端到端房屋布局估计

泡泡机器人SLAM

18+阅读 · 2018年12月4日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡一分钟】语义直线检测与应用

【泡泡一分钟】语义直线检测与应用

泡泡机器人SLAM

7+阅读 · 2018年10月21日

【泡泡一分钟】基于姿态不变的特征嵌入及时空正则化的车辆重识别(ICCV2017-38)

【泡泡一分钟】基于姿态不变的特征嵌入及时空正则化的车辆重识别(ICCV2017-38)

泡泡机器人SLAM

4+阅读 · 2018年6月19日

【泡泡一分钟】基于注意力机制的深度网络HydraPlus-Net(ICCV2017-34)

【泡泡一分钟】基于注意力机制的深度网络HydraPlus-Net(ICCV2017-34)

泡泡机器人SLAM

8+阅读 · 2018年6月9日

【泡泡一分钟】端到端的弱监督语义对齐

【泡泡一分钟】端到端的弱监督语义对齐

泡泡机器人SLAM

53+阅读 · 2018年4月5日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【泡泡一分钟】基于生成对抗网络的交互式三维建模方法（3dv-33）

【泡泡一分钟】基于生成对抗网络的交互式三维建模方法（3dv-33）

泡泡机器人SLAM

8+阅读 · 2018年1月18日

【泡泡一分钟】基于视觉传感器的三维空间几何重建（3dv-16）

【泡泡一分钟】基于视觉传感器的三维空间几何重建（3dv-16）

泡泡机器人SLAM

4+阅读 · 2017年12月18日

DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation

DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation

Arxiv

8+阅读 · 2019年8月30日

Learning by Abstraction: The Neural State Machine

Learning by Abstraction: The Neural State Machine

Arxiv

6+阅读 · 2019年7月11日

Challenges in Building Intelligent Open-domain Dialog Systems

Arxiv

21+阅读 · 2019年5月13日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

Dynamic Graph Neural Networks

Arxiv

24+阅读 · 2018年10月24日

From direct tagging to Tagging with sentences compression

From direct tagging to Tagging with sentences compression

Arxiv

6+阅读 · 2018年10月5日

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Arxiv

4+阅读 · 2018年7月12日

Conditional Image-to-Image Translation

Arxiv

8+阅读 · 2018年5月1日

Multi-Channel Pyramid Person Matching Network for Person Re-Identification

Arxiv

7+阅读 · 2018年3月7日

Enhancing Network Embedding with Auxiliary Information: An Explicit Matrix Factorization Perspective

Arxiv

3+阅读 · 2018年3月5日

VIP会员

相关主题

图神经网络

Neural Networks

相关VIP内容

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

【KDD2020】XGNN-可解释图神经网络，从模型级解释构建可信赖GNN

专知会员服务

134+阅读 · 2020年6月7日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

【图神经网络(GNN)结构化数据分析】

【图神经网络(GNN)结构化数据分析】

专知会员服务

117+阅读 · 2020年3月22日

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

【CVPR2020】用于细粒度动作识别的多模式域自适应，Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

专知会员服务

78+阅读 · 2020年2月25日

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

【斯坦福大学-论文】实体上下文关系路径的知识图谱补全

专知会员服务

104+阅读 · 2020年2月20日

WSDM2020教程《基于图学习和推理的推荐系统》，附130页PPT下载

WSDM2020教程《基于图学习和推理的推荐系统》，附130页PPT下载

专知会员服务

217+阅读 · 2020年2月15日

【WWW2020-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知会员服务

112+阅读 · 2020年2月13日

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文

专知会员服务

72+阅读 · 2019年11月3日

热门VIP内容

开通专知VIP会员享更多权益服务

操作系统智能体：基于多模态大模型（MLLM）的通用计算设备智能体综述

《美国太空军系统全生命周期建模、仿真与分析效能提升方案》最新84页报告

【博士论文】推进数据高效的深度学习：非参数 Transformer、主动测试与上下文学习

自主人工智能：未来战争是否将是自主化的？

相关资讯

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

【泡泡一分钟】三维卷积神经网络实现实时非模态三维目标检测

泡泡机器人SLAM

12+阅读 · 2019年5月20日

【泡泡一分钟】RoomNet：端到端房屋布局估计

【泡泡一分钟】RoomNet：端到端房屋布局估计

泡泡机器人SLAM

18+阅读 · 2018年12月4日

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

【泡泡一分钟】用于RGBD语义分割的三维图神经网络(ICCV2017-546)

泡泡机器人SLAM

22+阅读 · 2018年12月4日

【泡泡一分钟】语义直线检测与应用

【泡泡一分钟】语义直线检测与应用

泡泡机器人SLAM

7+阅读 · 2018年10月21日

【泡泡一分钟】基于姿态不变的特征嵌入及时空正则化的车辆重识别(ICCV2017-38)

【泡泡一分钟】基于姿态不变的特征嵌入及时空正则化的车辆重识别(ICCV2017-38)

泡泡机器人SLAM

4+阅读 · 2018年6月19日

【泡泡一分钟】基于注意力机制的深度网络HydraPlus-Net(ICCV2017-34)

【泡泡一分钟】基于注意力机制的深度网络HydraPlus-Net(ICCV2017-34)

泡泡机器人SLAM

8+阅读 · 2018年6月9日

【泡泡一分钟】端到端的弱监督语义对齐

【泡泡一分钟】端到端的弱监督语义对齐

泡泡机器人SLAM

53+阅读 · 2018年4月5日

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

【泡泡一分钟】基于多视图卷积网络的草图三维重建技术(3dv-66)

泡泡机器人SLAM

11+阅读 · 2018年3月31日

【泡泡一分钟】基于生成对抗网络的交互式三维建模方法（3dv-33）

【泡泡一分钟】基于生成对抗网络的交互式三维建模方法（3dv-33）

泡泡机器人SLAM

8+阅读 · 2018年1月18日

【泡泡一分钟】基于视觉传感器的三维空间几何重建（3dv-16）

【泡泡一分钟】基于视觉传感器的三维空间几何重建（3dv-16）

泡泡机器人SLAM

4+阅读 · 2017年12月18日

相关论文

DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation

DialogueGCN: A Graph Convolutional Neural Network for Emotion Recognition in Conversation

Arxiv

8+阅读 · 2019年8月30日

Learning by Abstraction: The Neural State Machine

Learning by Abstraction: The Neural State Machine

Arxiv

6+阅读 · 2019年7月11日

Challenges in Building Intelligent Open-domain Dialog Systems

Arxiv

21+阅读 · 2019年5月13日

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Sparse2Dense: From direct sparse odometry to dense 3D reconstruction

Arxiv

9+阅读 · 2019年3月21日

Dynamic Graph Neural Networks

Arxiv

24+阅读 · 2018年10月24日

From direct tagging to Tagging with sentences compression

From direct tagging to Tagging with sentences compression

Arxiv

6+阅读 · 2018年10月5日

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Sem-GAN: Semantically-Consistent Image-to-Image Translation

Arxiv

4+阅读 · 2018年7月12日

Conditional Image-to-Image Translation

Arxiv

8+阅读 · 2018年5月1日

Multi-Channel Pyramid Person Matching Network for Person Re-Identification

Arxiv

7+阅读 · 2018年3月7日

Enhancing Network Embedding with Auxiliary Information: An Explicit Matrix Factorization Perspective

Arxiv

3+阅读 · 2018年3月5日

大家都在搜

国防科技创新

大型语言模型

CMU博士论文

软件无线电

再见，TD-SCDMA！

微信扫码咨询专知VIP会员