如果能理解医生的准确意图，深度学习会是医疗诊断的未来吗？

会员服务 ·

如果能理解医生的准确意图，深度学习会是医疗诊断的未来吗？

2019 年 7 月 30 日 大数据文摘

大数据文摘出品

来源：thegradient

编译：张大笔茹、Aileen

医疗领域常常被认为是处于AI革命边缘的领域。人工智能领域的很多知名企业，如谷歌的DeepMind，都声称他们一直在医疗领域努力耕耘，“人工智能有望改变现有医疗格局”。

但到目前为止AI到底产生了多大影响力？我们是否真的可以知晓从新技术中获益的具体医疗领域呢？

在今年5月召开的ACM CHI“计算机系统中的人为因素作用力”会议上，来自Google的Carrie J. Cai在“以人为本的工具，以解决AI在应对医疗决策过程算法不完善”的讨论中展示了她的获奖作品，并声称机器学习技术在医疗决策中的使用会越来越多。

她开发了一个新系统，使医生能够即时改进和修改病理图像的搜索方式，以不断提高其准确性。

利用深度学习的视觉模型，在对新患者做出诊断时参考已知患者的医学图像（例如来自活检的组织）是一种很有前途的方式。然而，在特定诊断期间准确获得医生当下所需的相似图像对现有系统提出了巨大挑战，因为“意图鸿沟”（intention gap）的存在，即难以捕获医生的准确意图。这个问题我们稍后会详细讨论。

Cai的研究展示了他们在医学图像检索系统上开发的细化工具能够如何提高图像的诊断准确性。更重要的是，增加了医生对机器学习算法辅助医学决策的信任度。此外，调查结果显示医生能够理解算法背后的优点和缺点，自己发现并修正系统出现的错误。总体而言，医疗专家对AI系统协助医学决策的未来持乐观态度。

在这篇文章中，我们主要讨论三个方面的问题，即：

基于内容的图像检索系统的发展状态
深度学习技术在这些系统中的作用
讨论它们的应用和对医疗领域的影响

基于内容的图像检索系统的发展状态

在过去二十年左右的时间里，由于网络上可视化数据的可访问性不断增长，基于内容的图像检索（CBIR）已经成为计算机可视化研究的热门领域。基于文本的图像搜索技术由于与视觉内容的不匹配性而饱受诟病，因此将相似的视觉内容进行排序在许多情况下都被认为是很重要的。

论文地址：

https://arxiv.org/pdf/1706.06064.pdf

Wengang Zhou等人指出了CBIR系统的两个关键挑战，他们称之为“意图鸿沟（Intention Gap）”和“语义鸿沟(Semantic Gap)”。

图1：来自Wengang Zhou等人的论文《基于内容的图像检索的最新进展：文献调查”》

所谓“意图鸿沟”，即难以通过已有的数据库理解用户的确切意图，如图示中的关键字。这是Carrie J. Cai等人提出的。回顾之前的研究，通过示例图像进行查询似乎是最广为探索的领域，原因显然是因为通过图像获得丰富的查询信息非常方便。但这需要从图像中提取准确的特征，因此需要我们进入下一个角度，即语义鸿沟。

语义鸿沟主要是指用低级视觉特征描述高级语义概念的困难。现在，经过多年来的大量研究，这个问题已经取得了一些显着突破，例如引入不变的局部视觉特征（SIFT）和引入视觉词袋（BoW）模型。

图1展示了CBIR系统的两个主要功能。匹配检索理解和图像特征之间的相似性，也是一个重要的步骤，但这完全取决于系统表达出查询和图像的匹配程度。

最近基于学习的特征提取器，例如深度卷积神经网络（CNN），爆炸式地开辟了许多新研究途径，可以直接应用于解决我们在CBIR系统中讨论的语义鸿沟。这些技术相比人工输入的特征提取器有了显着改进，并且已经在语义感知检索应用程序中显示出了潜力。

机器学习扮演的角色

Carrie J. Cai等人分析了CBIR系统的基本细节。由Narayan Hedge等人详细介绍了他们的研究——“组织病理学类似图像搜索：SMILY”。系统概述如图2所示。

图2：来自由Narayan Hedge等人的的研究论文“类似图像搜索组织病理学：SMILY”

卷积神经网络（CNN）算法用于图2所示的嵌入计算模块，作为系统中的特征提取器。系统将图像信息压缩成数字特征向量（也称为嵌入向量），通过预训练的CNN算法计算并存储图像数据库（这里是病理载片上的片段图像）及其数值向量，当对图像进行进行查询检索时，使用相同的CNN算法计算查询输入的图像，并与数据库中的向量进行比较以检索最相似的图像。

此外，Narayan Hedge等人解释说，CNN架构是基于Jiang Wang等人提出的深度排序网络，它由卷层和汇聚层以及连接操作组成。在网络训练阶段，输入3组图像：特定类的第一组参考图像，同一类的第二组图像和完全不同类的第三组图像。然后对损失函数进行建模，使得网络在嵌入相同类的图像时赋值的距离比嵌入不同类图像时更短。因此，来自不同类的图像有助于增强来自同一类的图像的嵌入之间的相似性。

他们使用大型自然图像数据集（例如狗，猫，树等）来训练网络而不只是用病理图像。在学会区分相似的自然图像与不同的自然图像之后，再将相同的训练架构直接应用于病理图像的特征提取上。这种方式被视为有限数据的应用中的神经网络加强版，通常称为转移学习。

Narayan Hedge等人表示CNN特征提取器为每个图像设置了128个大小不一的向量，并且选择L2距离作为向量之间的比较函数。使用t-SNE可视化技术将病理图像载玻片上产生的所有数据集嵌入。如图3所示：（a）器官位点着色的嵌入（b）由组织学特征着色的嵌入。

图3：来自由Narayan Hedge等人的的研究论文“类似图像搜索组织病理学：SMILY”

事实上，类似的深度排名网络架构和训练技术可以在诸如Siamese Neural Networks等深度学习文献中广泛使用，甚至已经应用于人脸识别中。

现在，回到CBIR系统，我们了解到深度学习技术可以减少语义鸿沟，这些基于深度学习的方法即使在复杂的自然图像中也可以识别重要特征。

在医疗领域中的应用与冲击

到目前为止，我们研究了CBIR系统的应用以及深度学习技术在克服语义鸿沟等方面的潜力。但CBIR在医疗方面的适用性如何？我们能否明确量化其影响呢？

仅在2002年，日内瓦大学医院的放射科每天就产生超过12,000张图像。其中，心血管科是第二大数字图像制造者。医疗信息系统的目标应该是“在适当的时间地点为正确的人提供其所需的合适信息，以提高治疗过程的质量和效率。”因此，在临床决策中，基于案例的推理或基于证据的医学决策都希望从CBIR系统中受益。

无论技术多么健全，这些系统在实际临床应用中都需要更多的完善，特别是在建立系统与医生间的信任方面。这是Carrie J. Cai等人的提出的，医生通过非常灵活地使用相关性反馈来完善系统，即对得到的系统结果进行评级。HenningMüller等人还申明了相关反馈在交互式环境中的重要性，其用来改善系统结果并提高CBIR系统的适应性。

另一个重点是量化这些系统的影响，这对于这一研究领域的适应和发展至关重要。在与12位病理学家一同进行用户研究后，Carrie J. Cai等人声称，通过他们的CBIR系统，医生能够更轻松地增加系统的诊断效用。此外，结果也显示医生对其信任度的提高了也增大了将来用于临床实践的可能性。但是在本研究中没有评估诊断准确性（尽管经验表明其保持不变），因为它超出了研究范围。

展望未来，很明显，医疗专家和AI系统开发人员需要不断协作，以确定范例并评估AI应用程序在医疗中的影响。此外，科研界也应重点关注开放测试数据集和查询标准的开发，以便为CBIR系统设置基准，这些对于推动研究向前发展非常有帮助。