Medical Visual Question Answering (VQA) is a multi-modal challenging task widely considered by research communities of the computer vision and natural language processing. Since most current medical VQA models focus on visual content, ignoring the importance of text, this paper proposes a multi-view attention-based model(MuVAM) for medical visual question answering which integrates the high-level semantics of medical images on the basis of text description. Firstly, different methods are utilized to extract the features of the image and the question for the two modalities of vision and text. Secondly, this paper proposes a multi-view attention mechanism that include Image-to-Question (I2Q) attention and Word-to-Text (W2T) attention. Multi-view attention can correlate the question with image and word in order to better analyze the question and get an accurate answer. Thirdly, a composite loss is presented to predict the answer accurately after multi-modal feature fusion and improve the similarity between visual and textual cross-modal features. It consists of classification loss and image-question complementary (IQC) loss. Finally, for data errors and missing labels in the VQA-RAD dataset, we collaborate with medical experts to correct and complete this dataset and then construct an enhanced dataset, VQA-RADPh. The experiments on these two datasets show that the effectiveness of MuVAM surpasses the state-of-the-art method.


翻译:医学视觉问题解答(VQA)是一项由计算机视觉和自然语言处理研究界广泛考虑的多模式挑战性任务。由于大多数目前的医学VQA模型侧重于视觉内容,忽视了文本的重要性,本文件建议了医学视觉解答的多视角关注模型(MuVAM),该模型根据文字描述整合了医学图像的高层次语义。首先,使用了不同的方法来提取图像的特征,以及两种视觉和文字跨模式特征之间的相似性。第二,本文件建议了一个多视角关注机制,包括图像到问题(I2Q)的注意和Word-to-Text(W2T)的注意。多视角关注可以将问题与图像和文字联系起来,以便更好地分析问题并获得准确的答案。第三,综合损失将用来准确预测多模式特征融合后的答案,并改进视觉和文字跨模式特征特征特征之间的相似性。本文提出了多视角关注机制,包括图像到问题(IQC)的注意机制,包括图像到问题(I2QD)的注意和W-T-T-T(W-T-T)的注意。多视角关注将问题与图像结果与图像分析方法联系起来,用于数据错误和数据构建数据,然后显示我们-RA-A的完整数据设置的数据和错误和错误的完整数据标签,从而显示我们的数据的完整的数据的完整数据。Q-错误和错误和错误和缺失。

0
下载
关闭预览

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
124+阅读 · 2020年9月8日
注意力机制介绍,Attention Mechanism
专知会员服务
169+阅读 · 2019年10月13日
【ACL2020放榜!】事件抽取、关系抽取、NER、Few-Shot 相关论文整理
深度学习自然语言处理
18+阅读 · 2020年5月22日
Transferring Knowledge across Learning Processes
CreateAMind
28+阅读 · 2019年5月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
17+阅读 · 2018年12月24日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
【推荐】自然语言处理(NLP)指南
机器学习研究会
35+阅读 · 2017年11月17日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
Arxiv
9+阅读 · 2016年10月27日
VIP会员
Top
微信扫码咨询专知VIP会员