Top-down visual attention mechanisms have been used extensively in image captioning and visual question answering (VQA) to enable deeper image understanding through fine-grained analysis and even multiple steps of reasoning. In this work, we propose a combined bottom-up and top-down attention mechanism that enables attention to be calculated at the level of objects and other salient image regions. This is the natural basis for attention to be considered. Within our approach, the bottom-up mechanism (based on Faster R-CNN) proposes image regions, each with an associated feature vector, while the top-down mechanism determines feature weightings. Applying this approach to image captioning, our results on the MSCOCO test server establish a new state-of-the-art for the task, achieving CIDEr / SPICE / BLEU-4 scores of 117.9, 21.5 and 36.9, respectively. Demonstrating the broad applicability of the method, applying the same approach to VQA we obtain first place in the 2017 VQA Challenge.


翻译:在图像字幕和视觉问题解答(VQA)中广泛使用了自下而上视觉关注机制,以便通过精细分析甚至多个推理步骤更深入地理解图像。在这项工作中,我们提议了一个自下而上和自上而下的综合关注机制,能够将注意力计算在物体和其他突出图像区域的水平上。这是需要考虑关注的自然基础。在我们的方法中,自下而上机制(基于快速R-CNN)提出了图像区域,每个区域都有相关的特性矢量,而自上而下机制则确定了特征加权。在图像字幕解析中应用这一方法,我们在 MSCO 测试服务器上的结果为任务确立了一个新的状态, 分别达到CIDER/SPICE/BLEU-4分数117.9、21.5和36.9。 展示了该方法的广泛适用性,在2017 VQA挑战中我们首先获得的VQA方法。

14
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
110+阅读 · 2020年3月12日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
计算机视觉领域顶会CVPR 2018 接受论文列表
自适应注意力机制在Image Caption中的应用
PaperWeekly
10+阅读 · 2018年5月10日
论文 | CVPR2017有哪些值得读的Image Caption论文?
黑龙江大学自然语言处理实验室
16+阅读 · 2017年12月1日
CVPR2017有哪些值得读的Image Caption论文?
PaperWeekly
10+阅读 · 2017年11月29日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
Hierarchy Parsing for Image Captioning
Arxiv
6+阅读 · 2019年9月10日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
Arxiv
6+阅读 · 2018年5月22日
VIP会员
相关VIP内容
专知会员服务
110+阅读 · 2020年3月12日
FlowQA: Grasping Flow in History for Conversational Machine Comprehension
专知会员服务
30+阅读 · 2019年10月18日
TensorFlow 2.0 学习资源汇总
专知会员服务
67+阅读 · 2019年10月9日
Top
微信扫码咨询专知VIP会员