莫纳什大学最新「医学视觉问答」综述论文,带你全面了解MVQA数据集和方法

2021 年 11 月 29 日 专知

【导读】医学问答是一个交叉性的研究问题。来自莫纳什大学等学者对医学视觉问答做了调研综述,包含数据集和方法的全面综述。




医学视觉问答(VQA)是医学人工智能和流行的VQA挑战的结合。用自然语言给出医学图像和临床相关问题,期望医学VQA系统能够给出一个可信的、令人信服的答案。虽然一般领域的VQA已经得到了广泛的研究,但医学VQA由于其任务特点,还需要具体的研究和探索。在本综述的第一部分,我们涵盖和讨论了公开可用的医学VQA数据集的最新数据来源,数据量和任务特征。在第二部分,我们回顾了在医学VQA任务中使用的方法。在最后一部分,我们分析了一些医学领域的具体挑战,并讨论了未来的研究方向。


https://www.zhuanzhi.ai/paper/1b9eebdf59618931e8d2f527312b0a2c


引言


视觉问答(VQA)[7]是一个融合了计算机视觉(CV)和自然语言处理(NLP)的多学科问题。VQA系统将根据图像内容回答与图像相关的问题。受一般领域VQA研究的启发,近年来医学VQA的探索引起了人们的极大兴趣。医学VQA系统有望协助临床决策并提高患者参与度[19,31]。与其他通常仅限于预先定义的疾病或器官类型的医学AI应用不同,医学VQA可以理解自然语言中的自由形式的问题,并提供可靠和用户友好的答案。


在最近的研究中,医学VQA可以发挥几方面作用。第一个是诊断放射科医生,作为咨询医生的专家顾问。一项工作量研究[42]显示,放射科医生平均需要在3到4秒内解读一张CT或MRI图像。除了成像研究的长队外,放射科医生还必须平均每天接听27个来自医生和患者[14]的电话,导致工作流程进一步的低效和中断。医学VQA系统可以潜在地回答医生的问题,帮助减轻医学系统的负担,提高医学专业人员的效率。另一个与VQA优势相匹配的应用是充当病理学家,检查身体组织并帮助其他医学保健提供者进行诊断。除了卫生专业人员的角色,医学VQA系统也可以作为一个知识助理。例如,VQA系统的“第二意见”可以支持临床医生解释医学图像的意见,同时降低误诊的风险[58]。最终,一个成熟和完整的医学VQA系统可以直接审查患者的图像并回答任何类型的问题。在某些情况下,例如完全自动化的健康检查,在没有医学专业人员的情况下,VQA系统可以提供等效的咨询。在医院就诊后,患者在网上搜索进一步的信息。来自搜索引擎的不规则和误导性的信息可能会导致不恰当的答案。另外,医学VQA可以集成到在线咨询系统中,随时随地提供可靠的答案。


由于以下因素,医学VQA在技术上比一般领域的VQA更具挑战性。首先,大规模医学VQA数据集的创建具有挑战性,因为专家标注对专业知识的要求很高,成本较高,且无法直接从图像中综合生成QA对。其次,根据医学图像回答问题也需要VQA模型的具体设计。该任务还需要关注细粒度的规模,因为病变是微观的。因此,可能需要分割技术来精确定位感兴趣的区域。最后,一个问题可以是非常专业的,这需要用医学知识库而不是通用语言数据库来训练模型。


自2018年[19]举办第一次医疗VQA挑战以来,越来越多的组织和研究人员加入进来,扩大任务,提出新的数据集和方法,这使医疗VQA任务成为一个积极和鼓舞人心的领域。为了全面回顾这些努力,我们对医疗VQA进行了第一次综述(据我们所知)。我们总结了本次调研的三个主要贡献: 我们回顾了公开可用的医疗VQA数据集的最新数据来源、数据数量、数据生成和任务特征。我们回顾了在医疗VQA挑战中使用的方法和在医疗VQA数据集上的最先进的方法。我们讨论了该领域的一些医学挑战,并对未来可能的研究方向提出了一些意见。



据我们所知,目前有7个公共可用的VQA数据集:VQA- 2018[19]、VQA- rad[32]、VQA- med -2019[10]、RadVisDial[31]、PathVQA[21]、VQA- med -2020[9]和SLAKE[37](按时间顺序)。表1总结了数据集的详细信息。在下面的段落中,我们将提供QA对集合的概述。


图像样本和问题-答案对从上述数据集。Q =问题,A =回答。这些数据集是按时间顺序排列的。



在一般领域的VQA中,一个通用的框架是LSTM Q+I[7],它被提出作为VQA v1数据集的基线方法。它也被称为联合嵌入法。如图1所示,该框架包括四个组件:图像编码器、问题编码器、特征融合算法和根据任务要求的应答组件。图像特征提取器可以是VGG Net[54]、ResNet[20]等成熟的卷积神经网络(CNN)骨干,问题编码器可以是LSTM[23]、BERT[16]等流行的语言编码模型。特征编码模型通常使用预先训练的权重进行初始化,在VQA任务的训练过程中,可以冻结或以端到端方式对其进行微调。应答组件通常是一个神经网络分类器或循环神经网络语言生成器。在原始LSTM Q+I中,问题特征和图像特征通过元素相乘融合在一起。然后,研究人员开发了创新的融合算法,并将流行的注意力机制引入系统,进一步提高性能。为了调查在医学VQA任务中使用的方法的特点,我们回顾了在2.1节提到的数据集上发表的论文(包括25篇VQA- med挑战的工作笔记和5篇会议/期刊论文)。性能和特点如表3所示。以下小节通过LSTM Q+I框架中的四个组成部分讨论医疗VQA方法。





结论


本文对医学VQA的数据集和方法进行了综述。除了描述性的回顾,我们确定了一些挑战,值得在未来的研究中探索。医学VQA系统主要面临以下四个挑战:第一,如何让系统回答一系列更全面的问题类别;二是如何将医学特点与任务相结合;第三,如何验证一个答案的证据,使其更有说服力;如何使系统不偏向任何模态;最后,如何在工作流程中实现医疗VQA的效益最大化。对于今后的工作,我们提出以下几点建议。在真实场景中研究潜在的实现是必要的。此外,我们应该注意医疗专业人员与非专业人员之间的对话。VQA的优势在于理解自然语言问题,帮助非专业人士。我们还应该在一般领域引入有意义的思想,如证据验证、偏差分析、外部知识库等,这些将有助于我们朝着医疗AI的最终目标构建一个切实可行、令人信服的医疗VQA系统。


专知便捷查看

便捷下载,请关注专知公众号(点击上方蓝色专知关注)

  • 后台回复“MVQA” 就可以获取莫纳什大学最新「医学视觉问答」综述论文,带你全面了解MVQA数据集和方法》专知下载链接

专知,专业可信的人工智能知识分发 ,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!


欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

视觉问答(Visual Question Answering,VQA),是一种涉及计算机视觉和自然语言处理的学习任务。这一任务的定义如下: A VQA system takes as input an image and a free-form, open-ended, natural-language question about the image and produces a natural-language answer as the output[1]。 翻译为中文:一个VQA系统以一张图片和一个关于这张图片形式自由、开放式的自然语言问题作为输入,以生成一条自然语言答案作为输出。简单来说,VQA就是给定的图片进行问答。

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
24+阅读 · 2022年1月29日
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
94+阅读 · 2021年11月4日
首篇「多模态摘要」综述论文
专知会员服务
105+阅读 · 2021年9月14日
专知会员服务
65+阅读 · 2021年8月1日
专知会员服务
77+阅读 · 2021年5月30日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
38+阅读 · 2020年9月9日
【综述】医疗可解释人工智能综述论文
专知
33+阅读 · 2019年7月18日
自然语言处理常识推理综述论文,60页pdf
专知
73+阅读 · 2019年4月4日
新任务&数据集:视觉常识推理(VCR)
专知
50+阅读 · 2018年12月1日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2022年4月18日
Arxiv
15+阅读 · 2021年11月19日
VIP会员
相关VIP内容
南洋理工最新《视频自然语言定位》2022综述
专知会员服务
24+阅读 · 2022年1月29日
基于大型预训练语言模型的自然语言处理研究进展综述
专知会员服务
94+阅读 · 2021年11月4日
首篇「多模态摘要」综述论文
专知会员服务
105+阅读 · 2021年9月14日
专知会员服务
65+阅读 · 2021年8月1日
专知会员服务
77+阅读 · 2021年5月30日
知识驱动的视觉知识学习,以VQA视觉问答为例,31页ppt
专知会员服务
35+阅读 · 2020年9月25日
【ACMMM2020】条件推理的医学视觉问答
专知会员服务
38+阅读 · 2020年9月9日
相关基金
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
6+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员