莫纳什大学最新「医学视觉问答」综述论文，带你全面了解MVQA数据集和方法

2021 年 11 月 29 日 专知

【导读】医学问答是一个交叉性的研究问题。来自莫纳什大学等学者对医学视觉问答做了调研综述，包含数据集和方法的全面综述。

医学视觉问答(VQA)是医学人工智能和流行的VQA挑战的结合。用自然语言给出医学图像和临床相关问题，期望医学VQA系统能够给出一个可信的、令人信服的答案。虽然一般领域的VQA已经得到了广泛的研究，但医学VQA由于其任务特点，还需要具体的研究和探索。在本综述的第一部分，我们涵盖和讨论了公开可用的医学VQA数据集的最新数据来源，数据量和任务特征。在第二部分，我们回顾了在医学VQA任务中使用的方法。在最后一部分，我们分析了一些医学领域的具体挑战，并讨论了未来的研究方向。

https://www.zhuanzhi.ai/paper/1b9eebdf59618931e8d2f527312b0a2c

引言

视觉问答(VQA)[7]是一个融合了计算机视觉(CV)和自然语言处理(NLP)的多学科问题。VQA系统将根据图像内容回答与图像相关的问题。受一般领域VQA研究的启发，近年来医学VQA的探索引起了人们的极大兴趣。医学VQA系统有望协助临床决策并提高患者参与度[19,31]。与其他通常仅限于预先定义的疾病或器官类型的医学AI应用不同，医学VQA可以理解自然语言中的自由形式的问题，并提供可靠和用户友好的答案。

在最近的研究中，医学VQA可以发挥几方面作用。第一个是诊断放射科医生，作为咨询医生的专家顾问。一项工作量研究[42]显示，放射科医生平均需要在3到4秒内解读一张CT或MRI图像。除了成像研究的长队外，放射科医生还必须平均每天接听27个来自医生和患者[14]的电话，导致工作流程进一步的低效和中断。医学VQA系统可以潜在地回答医生的问题，帮助减轻医学系统的负担，提高医学专业人员的效率。另一个与VQA优势相匹配的应用是充当病理学家，检查身体组织并帮助其他医学保健提供者进行诊断。除了卫生专业人员的角色，医学VQA系统也可以作为一个知识助理。例如，VQA系统的“第二意见”可以支持临床医生解释医学图像的意见，同时降低误诊的风险[58]。最终，一个成熟和完整的医学VQA系统可以直接审查患者的图像并回答任何类型的问题。在某些情况下，例如完全自动化的健康检查，在没有医学专业人员的情况下，VQA系统可以提供等效的咨询。在医院就诊后，患者在网上搜索进一步的信息。来自搜索引擎的不规则和误导性的信息可能会导致不恰当的答案。另外，医学VQA可以集成到在线咨询系统中，随时随地提供可靠的答案。

由于以下因素，医学VQA在技术上比一般领域的VQA更具挑战性。首先，大规模医学VQA数据集的创建具有挑战性，因为专家标注对专业知识的要求很高，成本较高，且无法直接从图像中综合生成QA对。其次，根据医学图像回答问题也需要VQA模型的具体设计。该任务还需要关注细粒度的规模，因为病变是微观的。因此，可能需要分割技术来精确定位感兴趣的区域。最后，一个问题可以是非常专业的，这需要用医学知识库而不是通用语言数据库来训练模型。

自2018年[19]举办第一次医疗VQA挑战以来，越来越多的组织和研究人员加入进来，扩大任务，提出新的数据集和方法，这使医疗VQA任务成为一个积极和鼓舞人心的领域。为了全面回顾这些努力，我们对医疗VQA进行了第一次综述(据我们所知)。我们总结了本次调研的三个主要贡献: 我们回顾了公开可用的医疗VQA数据集的最新数据来源、数据数量、数据生成和任务特征。我们回顾了在医疗VQA挑战中使用的方法和在医疗VQA数据集上的最先进的方法。我们讨论了该领域的一些医学挑战，并对未来可能的研究方向提出了一些意见。

据我们所知，目前有7个公共可用的VQA数据集:VQA- 2018[19]、VQA- rad[32]、VQA- med -2019[10]、RadVisDial[31]、PathVQA[21]、VQA- med -2020[9]和SLAKE[37](按时间顺序)。表1总结了数据集的详细信息。在下面的段落中，我们将提供QA对集合的概述。

图像样本和问题-答案对从上述数据集。Q =问题，A =回答。这些数据集是按时间顺序排列的。

在一般领域的VQA中，一个通用的框架是LSTM Q+I[7]，它被提出作为VQA v1数据集的基线方法。它也被称为联合嵌入法。如图1所示，该框架包括四个组件:图像编码器、问题编码器、特征融合算法和根据任务要求的应答组件。图像特征提取器可以是VGG Net[54]、ResNet[20]等成熟的卷积神经网络(CNN)骨干，问题编码器可以是LSTM[23]、BERT[16]等流行的语言编码模型。特征编码模型通常使用预先训练的权重进行初始化，在VQA任务的训练过程中，可以冻结或以端到端方式对其进行微调。应答组件通常是一个神经网络分类器或循环神经网络语言生成器。在原始LSTM Q+I中，问题特征和图像特征通过元素相乘融合在一起。然后，研究人员开发了创新的融合算法，并将流行的注意力机制引入系统，进一步提高性能。为了调查在医学VQA任务中使用的方法的特点，我们回顾了在2.1节提到的数据集上发表的论文(包括25篇VQA- med挑战的工作笔记和5篇会议/期刊论文)。性能和特点如表3所示。以下小节通过LSTM Q+I框架中的四个组成部分讨论医疗VQA方法。

结论

本文对医学VQA的数据集和方法进行了综述。除了描述性的回顾，我们确定了一些挑战，值得在未来的研究中探索。医学VQA系统主要面临以下四个挑战:第一，如何让系统回答一系列更全面的问题类别;二是如何将医学特点与任务相结合;第三，如何验证一个答案的证据，使其更有说服力;如何使系统不偏向任何模态;最后，如何在工作流程中实现医疗VQA的效益最大化。对于今后的工作，我们提出以下几点建议。在真实场景中研究潜在的实现是必要的。此外，我们应该注意医疗专业人员与非专业人员之间的对话。VQA的优势在于理解自然语言问题，帮助非专业人士。我们还应该在一般领域引入有意义的思想，如证据验证、偏差分析、外部知识库等，这些将有助于我们朝着医疗AI的最终目标构建一个切实可行、令人信服的医疗VQA系统。

专知便捷查看