除了视觉信息外,自然语言对对象和关系的高级抽象还提供了高层的语义信息。这种抽象对于将图像中的视觉对象与问题和事实中提到的概念相关联是必不可少的,它将图像中的视觉对象与问题和事实中提到的概念联系起来。首先使用DenseCap来生成D个图像细粒度地描述Z={z_i}。DenseCap[Johnson et al., 2016]是李飞飞组提出的一个生成图像的densecaptions的工具,它会对每张图片生成很多细粒度描述,每个描述z_i对应着图像中的一小部分区域。没有用全局的image caption模型是因为可能会损失掉一些细粒度地信息。得到了关于图像的文本描述之后,就是如何将这些文本建成图,这里使用的是SPICE。SPICE[Anderson et al., 2016]是在image caption任务中用于验证生成的caption的准确率。它会对生成的caption转化成一个graph(图3左边),然后对原来的caption也转化成graph(图3右边),然后计算图的匹配程度来对caption进行打分。最近有一些工作只用了其中建图的模块将文本建模成图,因此我们也用这种方法来生成语义图G^S=(V^S,E^S),。与图3不同的是,它将关系也表示成了节点,我们将关系表示成边。节点和边的特征都使用GloVe词向量来表示。
图3
3)事实图构造
为了找到最佳的支撑事实,我们首先按照[Narasimhan et al,2018]中提出的基于评分的方法,从知识库中检索相关的候选事实。对于每一个事实<e1,r,e2>,图像的视觉概念o1,o2,...o36,我们首先计算e1,e2和o1,o2,...o36之间的余弦相似度,其中e1,e2和o1,o2,...o36都用GloVe来表示。把所有的值求平均就得到当前事实的分数,然后把所有的事实按照分数从高到底排序,取前100个事实,记做f_100。下面还需要对f_100进一步的过滤。我们训练了一个问题的类别分类器,输入问题,就会预测对应事实的关系,然后取前三个预测到的关系进一步过滤候选事实,得到f_rel。在f_rel的基础上构建事实图G^F=(V^F,E^F)。其中e1,e2是图中的节点,r是图中的边。节点和边的特征都使用GloVe词向量来表示。这样通过联合考虑事实图中的所有实体,可以有效地利用事实之间的拓扑结构。
我们在FVQA数据集上做了四个部分的消融实验。在模型1中,我们去掉了模态内知识选择过程,结果降低了2.56%,证明了在模态内收集问题导向的信息的必要性。在模型2-4中,我们分别去掉了语义图、视觉图、语义+视觉图,结果依次降低,说明视觉图和语义图对FVQA都有很大的影响,但是视觉内容会更重要一些。模型5-7是在模型3,2,full model的基础上分别将跨模态卷积过程替换成用视觉图和语义图的特征求平均再拼接,结果都有所降低,可以看出跨模态卷积对于收集互补信息重要性。模型8去掉了多模态图中边的信息,结果有所降低,但依然比out of box高出3%,证明了关系信息的重要性以及模型结构的有效性。
3、可视化
我们模型的另一大优势在于可以很好地可视化推理的过程。节点中的值对应模态内知识选择的α,边上的值对应β,虚线上的值对应跨模态卷积的γ,热力条是通过最后融合时的gate值得到的。通过可视化的结果我们可以发现,在大多数的情况下,事实信息会更重要,因为FVQA中97.3%的问题都是需要额外知识才能回答的。其次视觉信息比语义信息更重要,这也验证了上一部分消融实验的结果。但是如果问题涉及复杂语义关系的话,如第二个例子,hold by这个关系并不能在视觉图中体现,所以语义信息的占比会更大一些。第三个例子是与out of box的对比,out of box把keyboard 和laptop弄混淆了,主要是因为不同模态的特征是直接拼接的,没有特征选择的过程,而我们的模型可以更好的收集互补的信息得到正确答案。第四个是一个错误的例子,当一个问题有多个合理的答案时,模型也会出错,例如cake既可以用于party和可以用于wedding。4 总结为了解决基于外部知识的视觉问答任务,我们提出了一个多层次跨模态知识推理模型。我们将图像用三个不同模态的图来表示。提出了模态内的知识选择和模态间的知识推理模块,可以动态地收集模态内的问题导向的信息和模态间的互补信息。最后我们的结果相比较最近工作都有提升,而且有很好的可视化效果。参考文献:[Wang et al., 2018] Peng Wang, Qi Wu, Chunhua Shen, An- thony Dick, and Anton van den Hengel. Fvqa: Fact-based visual question answering. TPAMI, 40(10):2413–2427, 2018.[Narasimhan et al., 2018] Medhini Narasimhan, Svetlana Lazebnik, and Alexander Schwing. Out of the box: Rea- soning with graph convolution nets for factual visual ques- tion answering. In NeurIPS, pages 2654–2665, 2018.[Johnson et al., 2016] Justin Johnson, Andrej Karpathy, and Li Fei-Fei. Densecap: Fully convolutional localization networks for dense captioning. In CVPR, pages 4565– 4574, 2016.[Anderson et al., 2016] Peter Anderson, Basura Fernando, Mark Johnson, and Stephen Gould. Spice: Semantic propositional image caption evaluation. In ECCV, pages 382–398, 2016.作者简介:朱梓豪:中科院信工所在读硕士研究生,在中科院信工所于静老师组开展研究,研究方向:视觉问答、视觉对话。 ACL 2020原定于2020年7月5日至10日在美国华盛顿西雅图举行,因新冠肺炎疫情改为线上会议。为促进学术交流,方便国内师生提早了解自然语言处理(NLP)前沿研究,AI 科技评论将推出「ACL 实验室系列论文解读」内容,同时欢迎更多实验室参与分享,敬请期待!点击"阅读原文",直达“ACL 交流小组”了解更多会议信息。
视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。