【导读】医学问答是一个交叉性的研究问题。来自莫纳什大学等学者对医学视觉问答做了调研综述,包含数据集和方法的全面综述。
医学视觉问答(VQA)是医学人工智能和流行的VQA挑战的结合。用自然语言给出医学图像和临床相关问题,期望医学VQA系统能够给出一个可信的、令人信服的答案。虽然一般领域的VQA已经得到了广泛的研究,但医学VQA由于其任务特点,还需要具体的研究和探索。在本综述的第一部分,我们涵盖和讨论了公开可用的医学VQA数据集的最新数据来源,数据量和任务特征。在第二部分,我们回顾了在医学VQA任务中使用的方法。在最后一部分,我们分析了一些医学领域的具体挑战,并讨论了未来的研究方向。
https://www.zhuanzhi.ai/paper/1b9eebdf59618931e8d2f527312b0a2c
引言
视觉问答(VQA)[7]是一个融合了计算机视觉(CV)和自然语言处理(NLP)的多学科问题。VQA系统将根据图像内容回答与图像相关的问题。受一般领域VQA研究的启发,近年来医学VQA的探索引起了人们的极大兴趣。医学VQA系统有望协助临床决策并提高患者参与度[19,31]。与其他通常仅限于预先定义的疾病或器官类型的医学AI应用不同,医学VQA可以理解自然语言中的自由形式的问题,并提供可靠和用户友好的答案。
在最近的研究中,医学VQA可以发挥几方面作用。第一个是诊断放射科医生,作为咨询医生的专家顾问。一项工作量研究[42]显示,放射科医生平均需要在3到4秒内解读一张CT或MRI图像。除了成像研究的长队外,放射科医生还必须平均每天接听27个来自医生和患者[14]的电话,导致工作流程进一步的低效和中断。医学VQA系统可以潜在地回答医生的问题,帮助减轻医学系统的负担,提高医学专业人员的效率。另一个与VQA优势相匹配的应用是充当病理学家,检查身体组织并帮助其他医学保健提供者进行诊断。除了卫生专业人员的角色,医学VQA系统也可以作为一个知识助理。例如,VQA系统的“第二意见”可以支持临床医生解释医学图像的意见,同时降低误诊的风险[58]。最终,一个成熟和完整的医学VQA系统可以直接审查患者的图像并回答任何类型的问题。在某些情况下,例如完全自动化的健康检查,在没有医学专业人员的情况下,VQA系统可以提供等效的咨询。在医院就诊后,患者在网上搜索进一步的信息。来自搜索引擎的不规则和误导性的信息可能会导致不恰当的答案。另外,医学VQA可以集成到在线咨询系统中,随时随地提供可靠的答案。
由于以下因素,医学VQA在技术上比一般领域的VQA更具挑战性。首先,大规模医学VQA数据集的创建具有挑战性,因为专家标注对专业知识的要求很高,成本较高,且无法直接从图像中综合生成QA对。其次,根据医学图像回答问题也需要VQA模型的具体设计。该任务还需要关注细粒度的规模,因为病变是微观的。因此,可能需要分割技术来精确定位感兴趣的区域。最后,一个问题可以是非常专业的,这需要用医学知识库而不是通用语言数据库来训练模型。
自2018年[19]举办第一次医疗VQA挑战以来,越来越多的组织和研究人员加入进来,扩大任务,提出新的数据集和方法,这使医疗VQA任务成为一个积极和鼓舞人心的领域。为了全面回顾这些努力,我们对医疗VQA进行了第一次综述(据我们所知)。我们总结了本次调研的三个主要贡献: 我们回顾了公开可用的医疗VQA数据集的最新数据来源、数据数量、数据生成和任务特征。我们回顾了在医疗VQA挑战中使用的方法和在医疗VQA数据集上的最先进的方法。我们讨论了该领域的一些医学挑战,并对未来可能的研究方向提出了一些意见。