Integrating outside knowledge for reasoning in visio-linguistic tasks such as visual question answering (VQA) is an open problem. Given that pretrained language models have been shown to include world knowledge, we propose to use a unimodal (text-only) train and inference procedure based on automatic off-the-shelf captioning of images and pretrained language models. Our results on a visual question answering task which requires external knowledge (OK-VQA) show that our text-only model outperforms pretrained multimodal (image-text) models of comparable number of parameters. In contrast, our model is less effective in a standard VQA task (VQA 2.0) confirming that our text-only method is specially effective for tasks requiring external knowledge. In addition, we show that our unimodal model is complementary to multimodal models in both OK-VQA and VQA 2.0, and yield the best result to date in OK-VQA among systems not using external knowledge graphs, and comparable to systems that do use them. Our qualitative analysis on OK-VQA reveals that automatic captions often fail to capture relevant information in the images, which seems to be balanced by the better inference ability of the text-only language models. Our work opens up possibilities to further improve inference in visio-linguistic tasks.


翻译:在视觉问答(VQA)等视觉语言任务中,整合外部知识以进行推理是一个尚未解决的问题。鉴于经过预先训练的语言模型已经显示包括世界知识,我们提议使用基于图像自动脱落字幕和经过训练的语言模型的单式(文本专用)培训和推论程序。我们在视觉回答任务中得出的需要外部知识的视觉回答任务(OK-VQA)结果显示,我们仅有文本的模型比以前受过训练的多式(图像文本)模型的参数数量要多得多。相比之下,在标准VQA任务(VQA 2.0)中,我们的模型并不那么有效,确认我们只使用文本的方法对于需要外部知识的任务特别有效。此外,我们表明我们的单式模型是对在 OK-VQA 和 VQA 2.0 中多式模型的补充,在使用外部知识图表的系统(OK-VQA ) 中产生最佳的结果,而没有使用外部知识图形的系统则可以比较。我们关于OK-VA 质量分析显示,在标准VQA 任务中,自动解释往往无法比我们图像更加平衡地掌握相关的可能性。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
124+阅读 · 2020年9月8日
论文小综 | Using External Knowledge on VQA
开放知识图谱
10+阅读 · 2020年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
Arxiv
3+阅读 · 2018年11月29日
Arxiv
6+阅读 · 2018年5月22日
Arxiv
5+阅读 · 2018年3月16日
VIP会员
Top
微信扫码咨询专知VIP会员