深度学习（AI）在医疗领域应用、需求及未来发展概述

2017 年 9 月 14 日 深度学习与NLP lqfarmer

经历历史的发展，医疗已经变成一个纯手工艺的职业-也就是说，它高度依赖于医生的技能和经验，而不是寻求建立一个诊断和治疗患者的标准化过程。近年来，情况已经开始改变，因为像类似证据医疗（Evidence Based Medicine）和精准医疗（Precision Medicine）这样的技术已经试图往这个领域中，注入更多的严格和基于数据驱动的方法。然而，绝大多数医疗服务是通过传统的希波克拉底主义哲学（Hippocratic philosophy）来提供的。

这需要改变。地球上大部分人群拥有不到他们真实医疗需求的1/10，需要数百年才能填补这个空白。误诊，晚期诊断和过度诊断会杀死数百万人，花费数百亿美元。现在正在开发这项技术来解决这个问题 - 为医疗工作者和患者提供需要的确切信息支持。这种技术可以使偏远地区社区卫生工作者获得经过提纯的世界医疗知识。它可以使发达国家的医生大大提高效率和准确性，同时使患者和家属更好地控制和了解其医疗保健。

AI，特别是深度学习，已经表明它可以成为一个强大的诊断工具，例如，在医疗影像工作中展示出人意料的表现，如：

· Google的诊断性视网膜病变系统

· 斯坦福的皮肤病学算法

· Enlitic在肺癌检测和恶性肿瘤分类方面的工作

挑战：标注历史数据

人们普遍认为，深度学习算法需要大量的数据才能有效。这并不一定是真的。例如，Enlitic的肺癌算法可以通过一千个癌症患者的扫描图像的学习就可以达到很高的诊断效果。重要的是要了解一点，尽管数据集（来自国家肺癌筛查试验）相对较小，但它具有达到有效建模的关键特征：

· 每个病人每年持续扫描记录数据达3年以上; 随着时间的推移，跟踪疾病的变化对于创建诊断算法至关重要

· 放射科医生提供了癌细胞结点所在位置的大致注释，允许算法集中在一些重要信息上。

· 数据集包括在3年试验后每个患者的医疗结果的信息 – 证据显示，诸如患者生存的情况对于创建诊断系统是必要的。

看看这个项目无法提供一些东西也是有用的：治疗建议。由于数据集不提供包括已经为患者采取了那些干预措施、采取措施后患者反映等纵向数据，因此开发的算法仅用于诊断而非治疗时使用。

然而，即使是这样，也是非常强大的：目前诊断为肺癌的人的死亡率接近90％，癌细胞结点只有达到平均40毫米大小，才会被发现。Enlitic开发的系统可以准确发现5 mm，甚至更小的癌细胞。在早期发现，生存的概率提高10倍！

现在想想，这种数据集是多么的不寻常。我们多久才可以获得关于患者统一的医疗数据，其中包含有关患者多年期间的测试，诊断和干预的所有信息？这些信息分散在多个机构内，并且在多个部门内。

法律保守主义

即使数据在中央位置可用，或可以从多个来源拼接起来得到，但通常情况下，持有该数据的机构，一般不愿意与能够构建这些强大算法的数据科学家共享这些数据。法律工作人员知道，一条隐私的泄露可能会结束他们的职业生涯并浪费机构数百万的钱，而错失机会的理论成本则难以确定。

然而，当患者被问及是否愿意分享他们的医疗数据时，如果它可以在将来帮助别人，大多数人很乐意同意使用他们的数据 - 特别是当这种共享可以在未来给患者自己带来更好的治疗时。

患者的机会：患者控制的数据

这产生了一个明确的机会：让患者控制自己的医疗数据，访问不同的机构和部门，以及他们自己收集的信息（如可穿戴数据和自我报告的数据）。让这些患者有机会选择与特定数据科学家分享特定项目的数据，为他们提供一个安全的数据环境，并给予他们回报：

· 及早取得医疗突破

· 财务报酬

· 与他们的数据相关的工作的完整信息，以及如何帮助其他患者。

这可能是我们将深度学习技术用于医疗领域的唯一可行的途径-至少在美国是（一些被中央管理的国家可能可以通过政府法令获得所需的数据）。

还有一个非常相似的途径，就是为患有少见或不可治愈的疾病的家庭的亲人提供照顾：在同一情况下与其他病人在一起，同意汇集病人资料。可以汇集到的患者越多，获得关键信息的概率就越大。

Blockchain

并非所有数据都是同等重要的。罕见疾病患者的数据对诊断和治疗这些疾病至关重要。多年的数据比短时数据更有价值。另一方面，部分人甚至可能会伪造数据，通过欺骗性获得报酬。

通过使用block chain，我们可以创建一个清晰可读的医疗数据源记录。基于这一记录，数据提供者可以根据他们的数据在实践中的有用性来获得回报。因此，他们提供的数据越完整准确，越相关，奖励就丰厚。

同时，也为一些机构提供了非常有趣的机会，这些机构（经过患者同意）可以为研究人员提供完整的数据，并获得金钱回报和获取由数据所产生的技术带来的利益。从长远来看，患者可以通过相同的基于block chain的方法来授权他们的机构将数据提供给数据科学家。

数据科学家的机会

大多数数据科学家表示，他们想用自己的能力来做一些有意义的事情，但很少有机会。数据科学家的大多数工作都涉及广告技术，对冲基金交易和产品建议等领域。阻止他们做更有意义的工作的主要原因是无法获取数据，无法了解需要解决什么问题，没有途径让他们的技术得到关注和实施。

为了将数据转化为有用的成果，数据科学家需要能够完成以下步骤（实际上是以不同的顺序重复多次）：

1. 数据清理

2. 探索性数据分析

3. 创建验证集

4. 建立模型

5. 分析和验证模型

为了做这些步骤，数据科学家需要丰富的分析环境，在这一环境中，他们可以使用选择的工具，库和可视化解决方案。今天做这种工作的大多数数据科学家都使用R语言（通常是R Studio）或Python（通常是Jupyter Notebook）。

通过提供预先安装的数据和清楚定义需要解决的问题，数据科学家可以快速找到有意义的问题。

甚至可以多位科学家同时独立的处理相同的问题，根据他们的工作效果共享奖励。

我们需要提供什么：数据采集

我们需要让每个病人具有收集和维护个人医疗资料的能力，包括：

· 实验室测试和成像研究

· 诊断

· 药物规定

· 非处方药和补充剂

· 其他医疗干预

· 锻炼和吃饭记录

· 家庭史（理想情况下，通过连接家庭成员自动维护）

· 自我报告的进展，如能量水平，幸福水平等

· 基因组学和其他测试

这意味着能够从每个患者的医疗服务提供商哪里下载数据，既可以在设置时一次性下载，也可以在此之后定期下载数据，以及使用API进行个人健康跟踪，通过穿戴应用程序来导入数据。

数据共享

每个病人需要能够选择接收或者拒绝每个获取他们数据的请求。如果系统成功，可能会有很多请求，并且每个单独处理可能是繁重的-在这种情况下，我们可以让他们设置自动接受或拒绝请求的模式，以及一些需要手动干预的规则。每一条数据都需要以可审核的方式标注其来源。它不一定要存储在病人的装置上; 实际上某些类型的医疗数据对于设备上的存储空间而言可能太大。

一旦患者同意访问他们的一些数据，那么该数据需要提供给研究人员。每个数据科学家将需要为他们的工作提供丰富的分析环境。这将向他们展示有关他们需要解决的问题的相关信息，并显示如何获取项目需要的数据。

未来的机会

为患者提供控制他们医疗数据的能力，为数据科学家提供解决的紧迫的医疗问题的能力，是一个强大的想法。但这只是冰山一角。更大的机会是，当模型可以不断改进时将会发生什么，然后所有这些模型可以组合，又将会发生什么。每个数据科学家的特征工程步骤可以被保存，并提供给未来的研究人员（当他们的方法被重新使用时，他们将得到回报），并且他们的预先训练的模型可以被激活并自动引入新的模型，看看它们是否提升了预测的效果。

允许新数据不断改进现有模型，这要求所有数据源的含义和格式是一致的。这是一个复杂的问题，但经验丰富的数据产品项目经理应该拥有过去的经验。需要先对数据源格式或语义进行更改，并且对常量模型测试也是至关重要。

通过重新使用预先训练的模型，我们获得了在所有数据集中组合数据所带来的所有好处，没有任何后勤或隐私问题的挑战。

这也意味着可以有效地解决那些只有少量数据的罕见疾病和儿科疾病。使用预先训练的模型来分析这些数据，并且可以使用具有很少参数的非常简单的模型来组合它们。

随着技术的进步，这种用于收集和分析数据的方法将带来新的见解，并将为医务工作者和患者，在他们有需要时，提供他们需要的确切信息。

本文翻译自：https://hackernoon.com/medicine-and-the-need-for-ai-dbb3f9e2349f