Grounded Situation Recognition (GSR) is the task that not only classifies a salient action (verb), but also predicts entities (nouns) associated with semantic roles and their locations in the given image. Inspired by the remarkable success of Transformers in vision tasks, we propose a GSR model based on a Transformer encoder-decoder architecture. The attention mechanism of our model enables accurate verb classification by capturing high-level semantic feature of an image effectively, and allows the model to flexibly deal with the complicated and image-dependent relations between entities for improved noun classification and localization. Our model is the first Transformer architecture for GSR, and achieves the state of the art in every evaluation metric on the SWiG benchmark. Our code is available at https://github.com/jhcho99/gsrtr .


翻译:地面状况识别(GSR)的任务不仅将一个突出的行动(动词)分类,而且还预测与语义作用有关的实体(名词)及其在给定图像中的位置。受变异者在愿景任务中的显著成功启发,我们提议了一个基于变异器编码器-脱coder结构的GSR模型。我们模型的注意机制通过有效捕捉图像的高层次语义特征,使动词分类准确,并使模型能够灵活处理实体之间复杂和依赖图像的关系,以改进名词分类和本地化。我们的模型是GSR的第一个变异器结构,在SWiG基准的每一项评价指标中都达到了最新水平。我们的代码可在https://github.com/jhcho99/gstrtr上查阅。

0
下载
关闭预览

相关内容

100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
抢鲜看!13篇CVPR2020论文链接/开源代码/解读
专知会员服务
49+阅读 · 2020年2月26日
[综述]深度学习下的场景文本检测与识别
专知会员服务
77+阅读 · 2019年10月10日
机器学习相关资源(框架、库、软件)大列表
专知会员服务
39+阅读 · 2019年10月9日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
BERT/Transformer/迁移学习NLP资源大列表
专知
19+阅读 · 2019年6月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
逆强化学习-学习人先验的动机
CreateAMind
15+阅读 · 2019年1月18日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Arxiv
3+阅读 · 2021年10月14日
Arxiv
7+阅读 · 2021年6月21日
Arxiv
4+阅读 · 2019年8月7日
VIP会员
Top
微信扫码咨询专知VIP会员