Human-like attention as a supervisory signal to guide neural attention has shown significant promise but is currently limited to uni-modal integration - even for inherently multimodal tasks such as visual question answering (VQA). We present the Multimodal Human-like Attention Network (MULAN) - the first method for multimodal integration of human-like attention on image and text during training of VQA models. MULAN integrates attention predictions from two state-of-the-art text and image saliency models into neural self-attention layers of a recent transformer-based VQA model. Through evaluations on the challenging VQAv2 dataset, we show that MULAN achieves a new state-of-the-art performance of 73.98% accuracy on test-std and 73.72% on test-dev and, at the same time, has approximately 80% fewer trainable parameters than prior work. Overall, our work underlines the potential of integrating multimodal human-like and neural attention for VQA


翻译:作为引导神经关注的监督信号,人类关注作为引导神经关注的监督信号,已经显示出巨大的希望,但目前仅限于单式一体化,甚至连像视觉问答(VQA)等固有的多式联运任务也是如此。 我们介绍了多式人类似关注网络(MURAN),这是在VQA模型培训中将人类关注的图像和文字的多式联运整合的第一种方法。 MURAN将两种最先进的文本和图像突出模型的注意力预测纳入最近以变压器为基础的VQA模型的神经自留层。 通过对具有挑战性的VQAv2数据集的评估,我们显示MURAN在测试阶段实现了73.98%的精度和73.72%的测试阶段实现了新的先进性能,同时,与以前的工作相比,培训参数大约减少了80%。总体而言,我们的工作强调了将多式人类和神经关注纳入VQA的潜力。

0
下载
关闭预览

相关内容

【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
82+阅读 · 2020年6月21日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
27+阅读 · 2019年5月18日
Attention!注意力机制模型最新综述(附下载)
数据派THU
36+阅读 · 2019年4月14日
Attention!注意力机制模型最新综述
专知
65+阅读 · 2019年4月8日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
论文浅尝 | Question Answering over Freebase
开放知识图谱
18+阅读 · 2018年1月9日
IQ-VQA: Intelligent Visual Question Answering
Arxiv
5+阅读 · 2020年7月8日
Arxiv
3+阅读 · 2018年11月29日
VIP会员
相关VIP内容
【ICLR 2019】双曲注意力网络,Hyperbolic  Attention Network
专知会员服务
82+阅读 · 2020年6月21日
零样本文本分类,Zero-Shot Learning for Text Classification
专知会员服务
95+阅读 · 2020年5月31日
【Manning新书】现代Java实战,592页pdf
专知会员服务
99+阅读 · 2020年5月22日
Top
微信扫码咨询专知VIP会员