Medical Visual Question Answering (VQA) systems play a supporting role to understand clinic-relevant information carried by medical images. The questions to a medical image include two categories: close-end (such as Yes/No question) and open-end. To obtain answers, the majority of the existing medical VQA methods relies on classification approaches, while a few works attempt to use generation approaches or a mixture of the two. The classification approaches are relatively simple but perform poorly on long open-end questions. To bridge this gap, in this paper, we propose a new Transformer based framework for medical VQA (named as Q2ATransformer), which integrates the advantages of both the classification and the generation approaches and provides a unified treatment for the close-end and open-end questions. Specifically, we introduce an additional Transformer decoder with a set of learnable candidate answer embeddings to query the existence of each answer class to a given image-question pair. Through the Transformer attention, the candidate answer embeddings interact with the fused features of the image-question pair to make the decision. In this way, despite being a classification-based approach, our method provides a mechanism to interact with the answer information for prediction like the generation-based approaches. On the other hand, by classification, we mitigate the task difficulty by reducing the search space of answers. Our method achieves new state-of-the-art performance on two medical VQA benchmarks. Especially, for the open-end questions, we achieve 79.19% on VQA-RAD and 54.85% on PathVQA, with 16.09% and 41.45% absolute improvements, respectively.


翻译:医学视觉问答(VQA)系统在理解医学图像所包含的临床相关信息方面扮演了支持性角色。针对医学图像的问题包括两类:闭合问题(如是/否问题)和开放性问题。现有的大多数医学VQA方法依赖于分类方法来获得答案,而有些方法则试图使用生成方法或两者的混合方法。分类方法相对简单,但在长开放问题上表现不佳。为了弥补这一差距,在本文中,我们提出了一种新的基于Transformer框架的医学VQA方法(称为Q2ATransformer),它集成了分类和生成方法的优点,并为闭合问题和开放问题提供了统一的处理方法。具体而言,我们引入了额外的Transformer解码器和一组可学习的候选答案嵌入,以查询是否存在给定图像-问题对的每个答案类别。通过Transformer注意力机制,候选答案嵌入与图像-问题对的融合特征交互以做出决策。通过这种方式,尽管属于基于分类的方法,我们的方法提供了一种与答案信息进行交互以进行预测的机制,类似于基于生成的方法。另一方面,通过分类,我们通过减少答案搜索空间来减轻任务难度。我们的方法在两个医学VQA基准测试中取得了新的最佳性能。特别是对于开放性问题,我们在VQA-RAD上取得了79.19%,在PathVQA上取得了54.85%,分别提高了16.09%和41.45%的绝对值。

1
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
由浅及深,细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia
GAN生成式对抗网络
50+阅读 · 2019年3月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
15+阅读 · 2021年11月19日
Arxiv
39+阅读 · 2021年11月11日
VIP会员
相关VIP内容
【CVPR2021】用Transformers无监督预训练进行目标检测
专知会员服务
56+阅读 · 2021年3月3日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
由浅及深,细致解读图像问答 VQA 2018 Challenge 冠军模型 Pythia
GAN生成式对抗网络
50+阅读 · 2019年3月13日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员