中科院田捷：基于医疗大数据和AI技术的影像组学及其应用

2017 年 7 月 22 日 数据派THU

来源：AI掘金志

本文长度为6500字，建议阅读8分钟

本文主要介绍基于医疗大数据和人工智能的影像组学及其应用。

在由中国计算机学会（CCF）主办，雷锋网、香港中文大学（深圳）联合承办的CCF-GAIR 全球人工智能与机器人峰会的第三天，在未来医疗专场上，田捷博士做了“基于医疗大数据和人工智能的影像组学及其应用”的主题演讲。

田捷，是中国科学院自动化研究所研究员、Fellow of IEEE，SPIE，IAMBE，AIMBE，IAPR。其主要从事医学影像分析与生物特征识别的研究和应用的工作。田捷博士的很多学术论文、研究成果，均可见自国内外的各学术杂志和学术会议上，学术论文达上百篇。

以下是田捷博士当日的演讲全文，雷锋网AI掘金志做了不改变原意的编辑。

田捷：今天我演讲的题目是“基于医疗大数据和人工智能的影像组学及其应用”。切合主题，本次演讲的重点将围绕医疗大数据、大数据技术和人工智能、影像组学来展开。我们希望将这些技术应用在临床上，因为不是基础研究的，而是走向临床的，所以我举的都是临床的例子。

以国内外临床专家为主开发，说明影像组学和人工智能以及大数据，对风投和产业界来说都感兴趣，这不是看哪个技术和算法，关键是看产生什么样的效果。下面我会着重从应用的角度来讲它的进展，技术和方法和应用。

今天我的演讲将主要围绕以下四个大点来展开：

影像组学研究背景
影像组学研究进展
影像组学关键技术
影像组学发展方向

一、影像组学研究背景

1. 人工智能技术正突飞猛进

人工智能技术现在通过围棋得到非常直观的普及，但是计算机下围棋并不意味着计算机就可以看病，所以医疗在这一块仍旧充满挑战性问题。

2. 人工智能技术在医疗领域得到应用

不过，计算机人工智能技术在医疗上也得到一些应用，像深度学习在疾病的诊断以及预后等等，都有一些典型的应用。如：

2015年，北卡罗来纳大学提出利用深度学习分割脑MR图像的方法；
2016年，Google发布一项学术报告，称人工智能糖网病诊断精度可用于临床；
2017年，斯坦福大学在Nature上发布一项研究报告，表明人工智能皮肤癌诊断精度已达专家水平。

除此之外，国外大公司也纷纷介入AI医疗:

2014年，微软利用Intelligence Engine剖析健康数据，为患者就诊和意外急诊做准备。
2015年，IBM分析医学文献和病患诊疗记录，为患者提供高质量、循证型个体化的诊疗方案。
2016年，Google下属DeepMind Health建立健康风险警告系统，借助移动终端推送健康风险警告，并及时通知医生。

3. 医疗数据正急剧增长

无论是微软、IBM还是谷歌，他们在AI以及医疗的深度介入，都为大家打开了另一扇大门——正是因为这些大企业的介入才使得AI和医疗在临床上的应用取得突破和规模化的应用。

说到医疗大数据，大家最熟悉的可能是影像数据，因为其格式标准，容易获取和使用。但是医疗大数据不仅限于影像，还包括病理、临床治疗信息等，只有将这些信息融合在一起，我们才能建模，并解决AI医疗的真正应用问题。

4. 影像组学助力智能医疗

既然题目讲影像组学，我先给大家解释一下影像组学的概念。

影像组学的概念真正提出来是2012年。当时它刚提出来时只是针对CT数据，把它用组学的方法进行分析。后续则将数据从CT扩展到磁共振、超声等，涉及到多影像。

自2012年概念提出以后，影像组学的概念到2014年得到进一步延伸，走向临床。

从流程看，影像组学就是从医疗大数据中提取数据，利用AI方法挖掘肿瘤信息，实现临床辅助决策。这个流程和日常医生读片的过程是一致的，医生读片是先有影像数据，然后用人眼提取它的形状特征，这个过程我们称之为诊断意见。

这是一个典型的模式识别、图象处理的机器读取的过程，先由影像数据提取特征，分析建模，给出分类决策。所以整个过程由计算机做影像识别，人在做诊断相互配合来完成。如果让计算机读取高维信息，人读机构信息，毫无疑问，AI辅助医生读片，就能达到“1+1＞2”的效果。

总结而言，大数据和AI及影像组学的结合，主要有以下三个方面的应用:

辅助诊断
疗效评估
预后预测

目前，到底哪一种方法治疗癌症的效果更好，其实就可以基于大数据和AI给出预测评估。这样看病就能实现个性化、智能化，才能把过去望、闻、问、切，变成现在的智能医疗。就现阶段而言，智能医疗主要是基于大数据、影像组学和人工智能技术达到辅助诊断、疗效评估和预后预测的效果。

5. 以肿瘤为例——癌症诊疗面临重大挑战

今天以肿瘤为例，我将借此来说明AI、大数据和影像组学在肿瘤方面的三个应用。

肿瘤的应用挑战主要看如上这张图，这是美国NIH总结的。1960年-2012年，52年中有200多万的样本大数据。不同颜色的线代表不同的肿瘤，纵坐标是5年生存率。

52年来，尽管NIH每年投入的研发经费是300亿美元，美国人每年看病要花掉4万亿，但肿瘤5年生存率依然是一条直线。什么意思？就是人财两空。

作为对比，这个NIH数据特别有说服力。黑色这条线，指的是艾滋病的5年生存率，艾滋原先是号称血液中的癌症，早期死亡率很高，但有了有效措施之后，其有效生存率直线上升。

但是对肿瘤来说，还缺乏一些新技术和新方法，这个技术是有可能取得突破的。当然，目前只是期望值，下面会举一些例子。

6. 癌症精准诊疗的新机遇

现在大家都在谈AI热、AlphaGo热，其实还是要看AI大数据在影像组学的诊疗过程中到底解决了什么问题。事实上，现在的影像技术看到的都是5mm之上的肿瘤，厂商可能忽悠能看到3mm，但临床大夫知道只能看到5mm以上。而这些都是肿瘤的中晚期才会有的症状。

这也是为什么NIH花上百亿做研发，美国人花了4万亿，药厂出了那么多药，不能说无效但是效果不明显的原因。所以，现在也有在谈精准医学、基因检测等概念。10年前，就有人开始谈论基因检测，在其贡献下，虽然我们不能防止有病，但能保命。可是，从上张图片来看，五年生存率依然还很低。

在诊疗过程中我们发现，基因异常未必会形成肿瘤，这中间有5-20年的潜伏期。如果能在诊断医疗的过程中，运用到新技术和新手段，可能会对肿瘤诊疗起到关键作用。

现阶段而言，基因异常其实已经有一系列的方法来检测，但不意味着能看病。在这个空档期，如果能用AI大数据、影像组学来研究、描述和量化，就很有可能大大提高五年生存率。

所以这也恰恰是影像组学的切入点——融合临床基因影像大数据的信息，把影像往前移，基因往后移，这样就能更准确的观察、诊断疾病的发生和发展。这不仅是影像组学的切入点，也是AI在临床上的切入点。

现在的影像技术是从宏观到微观，先有结构影像再到功能影像、分子影像，它的精标准正好是基因病理。而从基础研究来说，恰恰是从微端到宏观，当在基因组、蛋白组、代谢组都搞不定的时候，又回到生物医学，使用解剖结构。所以一个是从微观到宏观，另一个则是从宏观到微观，如果将二者结合到一起，就有可能进行肿瘤的诊疗。这也是整个影像组学的切入点。

下面通过一些例子说明影像组学、大数据和人工智能，在疗效评估、辅助诊断、预后预测方面，国内外的进展。在这块我要很自豪的说，国内经过改革开放三十年，大量科研经费的投入，医生的努力，医工的结合，在技术上、方法上、效果上，跟国外是同步的，甚至某些方法比国外略有超前。从这点上说，也给VC和企业家带来机遇。

二、影像组学进展概述

下面，我将从影像组学在国内外的具体应用案例，来谈谈其在辅助诊断、疗效评估和预后预测的效果。

1. 辅助诊断案例

案例一：胶质母细胞瘤亚型诊断

一般来说，如果要做靶向治疗，医生需要通过穿刺、活检等过程来得到病人的基因类型，但是这一过程由于涉及脑袋穿刺，风险很大。所以，医疗界大家就在探讨说能不能不用穿刺，拍片来解决。可能有人会觉得天方夜谭，但是斯坦福大学做到了。

他们根据AI技术将其分类为高风险、中风险、低风险，并将其和生存期挂钩，通过美国TCCI数据库做检索，就能知道基因类型是什么，从而以此为依据决定用哪种靶向药。这在临床上非常有用，因为整个过程无需穿刺，只是根据磁共振数据推断基因类型来确定靶向治疗。

案例二：术前结直肠癌淋巴结转移诊断

刚才的案例大家可能会觉得太高大上，而国内医生能不能做到这些工作呢？

下面我想介绍广东省人民医院刘教授团队此前在权威医学杂志《Journal of Clinical Oncology》发表的文章。暂且不谈这篇文章的学术成就，我们先来看它的临床意义，非常重大。因为AI技术只有跟临床挂钩才有价值，经过企业家的转化才能变成生产力。

一般来说，医生在治疗结直肠癌的时候，会对淋巴进行盲目清扫，而清扫的结果会使70%的淋巴不会转移。为什么大夫要清扫呢？因为如果不清扫，淋巴转移的会更快。事实上，国内外的医生都会采取这种措施。

那么，这个问题该如何解决？

如果看CT片，我们只能看到机构信息，其反映的信息很小，只能得到百分之二三十的概率，切掉以后70%是阴性，被误切了。如果用人工智能的方法，根据500余例的临床病理和影像数据，提取特征，建模分析后，前端数据预测的准确率可以达到正的70%。

换句话说，医生在做手术之前可以有70%的把握告诉病人要不要选择做淋巴清扫，可以把过去的误清扫从70%降低到30%。所以这也是这篇文章能在顶级权威杂志上发表的原因。

案例三：皮肤癌类别精准诊断

再来看一个大数据的典型应用。大家应该也知道，现在皮肤癌发病率非常高。那么，怎么利用AI正确诊断皮肤癌？

在此，该案例使用了13万张皮肤癌的照片来做建模，其中2000张是有病理且含精标准的。值得注意的是，这个建模里边的大数据力量。

如上图所示，该训练模型使用了Google的迁移学习技术，其对128万张图像进行了训练，加上刚才13万张皮肤癌的照片，以及医生的经验和其他医疗信息的量化，可以解决两个临床问题：

粗分类做肿瘤的良恶性
细分类做黑色素瘤筛查

然而，人脑是不可能记住这么多张病理图像的，但是计算机可以，从而能够有效的辅助诊断。

2. 疗效评估案例

我们再来看疗效评估的案例。美国每年花4万亿美元研究新技术、新方法，但肿瘤的诊断并没有取得很好的效果，所以我们需要对不同肿瘤的疗效进行评估。

案例：直肠癌新辅助放化疗效果评估

这个案例还是结直肠癌。其实包括乳腺癌，很多人会做新辅助化疗。但有的人做得有效，有的人做得无效。对医院来说，有效无效都得交钱。但对病人来说，不光是钱，身体还要受到很大的伤害。所以，业界也在思考，能不能利用AI大数据进行分析，在病人做放化疗之前就判断，该治疗对其有没有效果。

在这个案例中，其实数据量并不大，只有48例。在这些直肠癌患者经过新辅助放化疗之后，经过多模态磁共振形成成像数据，在其基础上提取多模态影像特征，利用人工神经网络方法建立模型，最后结果表明，该方法效果很好，实现了直肠癌新辅助放化疗效果的定量化精准评估。

3. 预后预测案例

现阶段，预后预测在国内越来越受重视。每一个看病的病人也都会去问医生这个问题，然而，医生只能凭借他人脑建模的经验，在有限的存储量来给出预测。所以，如果用AI大数据、机器学习，能达到什么样的预后预测效果？

案例一：肺癌头颈癌预后预测

该案例中，如图所示，在1000余例肺癌和头颈癌患者中，我们提取了病理和影像数据，再根据强度形状纹理小波等特征建立标签，进行了定量分析。应用效果表明，影像组学标签具有显著的预后价值，并与基因显著相关。

影像组学通过融合影像、基因和病理特征建立影像组学标签，揭示了影像与患者的预后联系。

案例二：肺癌无进展生存期预测

经过临床经验，我们还发现，传统临床方法对NSCLC患者无病生存期的预测效果非常有限。于是，在此其中，利用AI大数据，我们在282例规范完整的早期非小细胞肺癌患者里边提取了CT数据，利用LASSO Cox回归方法提取关键的影像特征，以此构建预测模型。

事实上，在该案例中，运用了前文提及的广东省人民医院刘教授与中科院自动化合作的研究成果——非小细胞肺癌生存预测。经过应用后，我们发现，影像组学特征相比传统方法能够更好地预测无病生存期。

案例三：晚期鼻咽癌的预后预测

此外，对病人来说可以给出精准预测的，还有鼻烟癌生存期预测。

针对临床指标对晚期鼻咽癌的放疗后预测精度低的现状，我们对118例晚期鼻咽癌T1和DCE MR图像做了超过3年时间的随访，并结合970个影像组学特征和临床病理信息进行分析，以此预测该类患者的预后，准确度超临床指标的10%。

三、影像组学的关键技术

刚才我讲的是临床效果在辅助诊断、疗效评估和预后预测的案例工作，然而如果要谈人工智能和影像组学就必定离不开技术。所以我把技术简单梳理一下。

面对系列临床问题，影像组学采用深度机器学习等方法进行分析研究以实现临床辅助决策。而人工智能在医疗层面的技术应用，主要是图像分割、肿瘤分割，然后提取特征，特征越多越好，提取特征之后再进行筛选。用计算机的话说就是降维，用影像组学的话说就是选择关键特征。在此基础上再选择影像学的标签来达到效果。比如肿瘤分析或者预后分析或者辅助诊断。降维、特征提取、分割，都可以用时髦的人工智能新技术。但个人认为，在此过程中不是技术驱动而是问题驱动。

1. 精准肿瘤分割技术

分割，一般可能需要医生先进行勾画，然后可以用机器学习的方法进行半自动或者全自动的分工，这个分工效果也可以达到主治医生的水平，一系列方法不展开说，其他还包括肺癌等等。

对计算机处理来说，以高位特征为主，很多数量化的不适合人眼加工，但适合计算机加工，计算机加工才能产生效果，达到辅助诊断的效果。

2. 特征降维技术

对肿瘤来说，往往体现数千个特征，然后再利用机器对其进行降维。在这其中，共有四类主要特征降维方法：

稀疏选择
空间映射
神经网络
递归排除

3. 模型构建技术

与此同时，针对具体临床问题，业界还采用建立计算机定量影像特征与所研究临床研究问题标签之间的分类模型。主要运用了两类模型：

SVM模型：从影像大数据原始像素出发，提取高维手工设计特征并进行特征选择，构建影像特征与临床问题的分类模型。
CNN模型：在影像大数据的原始像素的基础上，该模型可自主挖掘与临床问题相关的影像组学特征，构建影像特征与临床问题的分类模型。

这些模型构建的选择，跟我们的问题相关。如果问题提炼到位、具体模型才能起作用。其中，像良性分类，也能取得好的效果，并且产生有商业意义的效果。

4. 模型的可视化技术

此外，还有一个重要的过程，也是临床上的需求需要的，叫模型的可视化。对医生来说，特别是外科大夫和内科大夫很忙，影像师可以给他们看片子。不能说我们算出来什么结果给他举证或者数字，要把模型变成可视化统计分析的直观图。这样对大夫来说看图识字，就知道病人到什么期，该吃什么药换什么药，更简洁直观。如图所示，这四个步骤是影像学技术发展最主要的环节。

四、影像组学的发展方向

最后来看影像组学关键技术的发展趋势，资源平台、辅助诊断系统、共享平台。真正要实现临床应用，要多病种、多模态、多中心、多参数的数据融合。

这里面有一个矛盾，数据收集和清晰都具有挑战性。我们对病理信息、治疗信息、预后信息的收集还是有挑战性的。在跟医院合作过程中，以及这四五年收集的数据，如乳腺癌、肝癌、胃癌、肺癌超过美国TCGA数据库，我们也积累了很多的经验。

总的来说，有了数据还不行，得有算法平台，像刚才讲的分割部分，在后面还有介绍算法平台和集成平台。目前我们正在跟广东省人民医院刘教授建立影像组学共享平台，希望大家把用过的影像和模型、软件上传，建立大家开发共享的平台，可以获取数据、模型，可以使用免费的软件，然后开展这方面的研究。当然，只是为研究服务。我建议公司也可以放上去，先让他们用起来。这四个环节融合在一起才有意义，包括数据上传、模型上传、软件测试。

现在我们需要更多人工智能和大数据在医疗问题上的典型应用，来拉动产业，拉动人工智能进一步深度应用。这是相辅相成的，空喊方法，不形成规模化、典型应用，是解决不了问题的。只有得到外科、内科大夫承认的技术和临床应用，才能更加有意义。

编辑：黄继彦

校对：杨学俊

为保证发文质量、树立口碑，数据派现设立“错别字基金”，鼓励读者积极纠错。

若您在阅读文章过程中发现任何错误，请在文末留言，或到后台反馈，经小编确认后，数据派将向检举读者发8.8元红包。

同一位读者指出同一篇文章多处错误，奖金不变。不同读者指出同一处错误，奖励第一位读者。

感谢一直以来您的关注和支持，希望您能够监督数据派产出更加高质的内容。

公众号底部菜单有惊喜哦！

企业，个人加入组织请查看“联合会”

往期精彩内容请查看“号内搜”

加入志愿者或联系我们请查看“关于我们”

登录查看更多

相关内容

大数据

关注 270

从各种各样类型的数据中，快速获得有价值信息的能力，就是大数据技术。明白这一点至关重要，也正是这一点促使该技术具备走向众多企业的潜力。大数据的4个“V”，或者说特点有四个层面：第一，数据体量巨大。从TB级别，跃升到PB级别；第二，数据类型繁多。前文提到的网络日志、视频、图片、地理位置信息等等。第三，价值密度低。以视频为例，连续不间断监控过程中，可能有用的数据仅仅有一两秒。第四，处理速度快。

基于深度学习的多标签生成研究进展

专知会员服务

147+阅读 · 2020年4月25日

【干货书】深度学习生命科学：基因组学、药物发现，238页pdf

专知会员服务

200+阅读 · 2020年3月18日

电力人工智能发展报告，33页ppt

专知会员服务

132+阅读 · 2019年12月25日

【BAAI|2019】类脑神经网络技术及其应用，鲁华祥（附pdf）

专知会员服务

31+阅读 · 2019年11月21日