大数据文摘作品
大数据文摘记者 刘涵 魏子敏
作为AI领域落地的重要赛道,医疗行业近两年正在迎来新的风口。而相比其他领域,政策等因素在这个领域的影响更大更重,研发的困难也相应更高。“医疗的蛋糕看上去很大,但是不好切。”
在清华x-lab主办的人工智能研习社12月份的最后一讲上,犀牛科技创始人、CEO陈一昕与大家探讨了在医疗领域,人工智能、大数据是如何被应用的,以及如何为现在的产业提供一些服务. 他认为,医疗行业是一个特殊的应用领域,大趋势在其中是最重要的因素,把握住大趋势,就是把握住了关键。
陈一昕从宏观的背景、技术发展,以及人工智能在医疗行业的应用三个方向对医疗行业的发展和技术应用进行了探讨。
在清华x-lab主办的人工智能研习社上,犀牛科技创始人、CEO陈一昕发表了题为《医疗大数据简介:窥体数之渊海,论性理之精微》的讲座 刘涵摄
大数据文摘整理了本次讲座内容精华,在不改变原意的前提下有删改:
今天我的报告分为了三个部分:第一是宏观的背景;第二是技术;第三是讲一下现在人工智能在医疗行业方方面面的应用。
宏观的市场环境
对于医疗行业的发展趋势,首先要关注的是产业环境,中国目前的产业环境在医疗方面有几个很突出的问题。
第一个是优质的医疗资源非常紧张。去医院排队挂号排队很长,甚至需要提前预约。而且,中国正在慢慢进入老龄化社会,对医疗的需求与供给之间的差距越来越大。人工智能是解决医疗资源稀缺非常重要的手段。
我们现在去三甲医院看病会出现非常难挂号的现象,一个三甲的主任医师一天可能要看一百多个病人,但真正需要处理的可能只有十几个人,大部分人并不需要到三甲医院来看病,但大家对二级、一级的医院并不信任,导致优质的医疗资源都集中在了三级医院。
现在国家推出分级诊疗的策略,形成了一个金字塔的结构,开始优化医疗资源,同时也对人工智能和信息化提出了新的要求。比如产生的数据是否是一个孤岛,基层产生的医疗记录数据是否能用到顶层,这是对大数据系统技术的挑战,也是机遇。
另一个问题是医保。在我们国家医疗主要靠医保的支出,如今医保压力开始逐年变大,收入增长率已经跟不上支出的增长率,我国的人均医疗费用占比在世界上属于非常落后的水平。
宏观的技术需求
在医疗当中存在很多的问题需要解决,从技术方面来看,医疗行业的数据增长是非常快的,IDC Digital预测到2020年,我们的医疗数据将达到40万亿的GB,增长将呈现出非线性、爆炸性的增长。
另外一点则是医疗数据的分割非常严重,电子病历、手术麻醉、开药、处方、药店、医药、商业保险等数据都有各自的数据孤岛,如何解决数据的多元、异构等问题,是数据产业要面临的首要挑战。
医疗数据的复杂首先体现在它是非结构化的,另外它的场景非常多,多个环节组成,每个环节又产生了数据,且质量参差不齐。我们经常说大数据的特征是Volume、Variety、Velocity、Value,而医疗大数据不但有这些特征,它还有独特性。它的数据质量往往是难以保证的,数据也有着很强的时间性,从产业的角度来看,医疗大数据与医疗人工智能经历了下面几个阶段:
第一阶段是医疗信息化,我们从纸质的阶段逐渐过渡到信息化管理,现在各大医院基本上都有了比较完整的信息化流程。
第二阶段是互联网医疗,大家希望通过互联网把各种医疗资源连接、整合。
第三阶段是AI医疗,真正的用机器学习的方法辅助医疗。
技术层面的飞速发展
从技术上来看,我们希望可以从不同的人群中获取各项数据,从而进行人工智能的分析,产生各种各样的应用,真正把数据的价值挖掘出来。从整个技术进步的角度来看,在文献当中提到的大数据数量,正在呈现出逐年增长的趋势。
在清华x-lab主办的人工智能研习社上,犀牛科技创始人、CEO陈一昕发表了题为《医疗大数据简介:窥体数之渊海,论性理之精微》的讲座 刘涵摄
再看一下整个国家的政策层面,2009年到2015年出台了大量关于医疗信息化的政策,2015年9月份,《促进大数据发展行动纲要》发布,明确了关于数据使用的总体要求,这也给我们做数据产业,做数据的挖掘、变现提供了法律依据。2016年10月《“健康中国2030”规划纲要》,这是非常重要的政策性文件,对未来15年促进健康中国的建设提出了整体的规划。另外一个非常重要的是《关于促进和规范健康医疗大数据应用发展的指导意见》,提出2017年底基本实现跨部门的健康医疗数据资源共享共用格局,到2020年建成国家级的开放应用平台,数据融合应用取得明显呈现。国家也规划,将成立1个国家数据中心,7个区域中心,并产生若干个应用和发展中心,形成“1+7+X”的布局。但对于大数据的应用、如何使用、如何分析等具体方向,依然缺少立法和政策方面的支持。
医疗信息化发展的趋势
在前期,主要是采集医院里面的HIS、LIS各种院内的系统。像春雨医生、好大夫在线、丁香园等创业公司,更多的还是“互联网+医疗”,即用互联网的手段解决某些医疗方面的问题,包括阿里、腾讯也曾经做过这样的布局,他们的手段更多的是通过互联网把资源、信息连接起来进行整合,比如线上问诊、线上开药、线上找寻医疗知识等。
这一波公司依然还在政策的夹缝中寻找自己的商业模式。当它们渐渐趋于沉寂的时候,人工智能和医疗的时代才刚刚到来,人工智能开始打入到医疗的核心部门,医疗这个号称最难被颠覆的产业逐渐产生了变化,医疗+人工智能+大数据技术正在成为一轮新的热点,人工智能技术也在从医疗的边缘走向中心。
从市场规模来看,医疗大数据的市场场景非常丰富,潜力非常巨大。麦肯锡咨询曾经做过一个估计,人工智能和大数据技术每年在美国将带来3000亿到4500亿美元的价值,据我们的预估和国内的市场报告,国内医疗大数据的市场规模至少在千亿的量级,如果加上养老、健康,整个市场规模将会达到万亿量级。
从资本层面来看,一级市场非常火爆,巨头开始加速布局。截止到2017年8月份,国内医疗人工智能公司融资额已超过180亿,医疗行业发生投资并购事件共计373笔,医疗数据投资并购事件为24笔,HIS投资并购事件为18笔,医疗数据相关的投融资事件共计42笔,此领域非常受资本的青睐,融资的额度也主要集中在千万级和亿级的融资额度。
另外BAT的巨头也纷纷在布局新一轮的人工智能医疗,比如说百度砍掉了互联网医疗部,打造了百度医疗大脑;腾讯通过投资的形式参股了碳云智能;思派网络等一级市场的明星医疗人工智能公司,也开始研发AI影像产品;阿里参股了万里云,发布了阿里云ET医疗大脑等,大家都开始布局人工智能+医疗这个产业。
下面我想简单从技术的层面上来讲一讲人工智能+医疗到底可以怎样去做,跟大家一起来探讨一下。
首先,大家也许都听说过大数据这个词,这个词非常火爆,和之前我们说的小数据到底有什么样的区别。
从思维上来看,小数据的时代,我们更想找的是一般性的规律,而大数据时代,我们可以去找特殊性的规律。
讲一个例子,牛顿发现了三大运动定律,F=ma之类的,我们在中学也做过物理实验,只要采集几个点,画一条直线就可以了,我找到的就是一般性的规律,这个规律对不对呢?从爱因斯坦相对论的角度来讲是不对的,只是在低速空间下的一种模拟。假想如果牛顿现在生活在这个时代,他可以在不同的速度下做很多的实验,用大数据的模型来分析,他也许会发现这条直线并不是那么直的,可能当速度很高的时候,会有一个曲率。这种总结出来的规律其实只是一种对于真实世界的模拟。
小数据的思维属于因果性、逻辑性的思维,大数据的思维更多的是关联性,让数据来说话,认为数据就是本质。这在医疗上来讲更是有用的,因为医学本身就是经验大于科学的科学。
我这里并没有贬低医学的意思,但是从很大程度上来讲,医学是一个经验科学。我们的化学,生物等科学,对于医疗学的发展有巨大的作用,但是这个理解可能只是占一小部分,还有很大一部分是通过收集数据分析得来的。包括中医药,比如说李时珍写的《本草纲目》,他写的时候并不会分析它的化学分子式和化学反应,他做的是,搜集整理大家使用草药的数据,记录下来数据并加以总结。这就是我刚才说的大数据和小数据的区别。大数据时代我们更关注的是关联性。
大健康领域,院外有哪些应用
院外常见的慢性病主要有心血管疾病,像高血压、糖尿病、高血脂、脑卒中、呼吸系统疾病等等。大数据技术是解决慢性病难题的有力武器之一,因为它可以提前进行预警。
首先是脑卒中,我们国家非常重视这个事情。我们目前正在承担的一个项目是基于中国有120万人的筛查队列数据,然后分析预测脑卒中的发生。所谓脑卒中就是脑部的血管突然堵住了,或者突然破裂了,致死致残率是非常高的。中国发生脑卒中的概念逐年呈大幅度上升,所以我们现在正在承担着这样一个任务,提前预警,哪些人更容易得脑卒中,对个体来判断你得脑卒中的概率有多大。
我们通过分析风险因素,包括糖尿病、高血压,生活习惯,既往病史等等训练一些模型,比如Cox回归加深度学习等来预测一个人得脑卒中的概率,最终能够达到77.7%的AUC。
第二,做药物分析,通过药物性质来判断某种药物他对一些疾病的活性,会不会有反应。输入特征是原子量、表面积等化学结构,输出就是判断他是否具有活性。这个也是利用深度学习的网络进行训练,同时和其他的随机森林的方法进行了对比。也可以进行副作用的检测。
第三个是心理疾病的识别,现在精神压力也很大,得抑郁症的非常多,这个文章就提出来,通过采集网上Twitter的数据,相当于微博,看这个人发微博,看他有没有可能有抑郁。这个实验分两种,一种只做某一类任务,比如说抑郁症或者是精神病,单任务的识别;还有一种是利用多任务机器学习的方法,吧多个任务一块儿用一个模型来进行建模,为什么做这个事情呢?因为我们认为Multi Tasks之间是有关联性的,如果在一起进行学习的话,互相之间可以帮助提高准确率。这篇文章提出来,做了实验,最终得出的结论,针对社区健康的心理识别当中,用Multi Task Learning做出来的结果好于对单个疾病进行建模识别的结果。
第四个也是非常常见的,就是穿戴式设备。穿戴式设备采集的数据能够干什么,能不能给大家带来刚需,能不能解决大家的问题。有一个利用手腕上的两个穿戴式设备的陀螺仪来判断得帕金森综合症的概念,也是采集了三轴加速器的数据,评判四种状态,睡觉、正常、迟缓和运动障碍,有一个4对4的重合率,颜色越深表示重合度越高,预测越准,准确度还是不错的。
第五大应用是基因组的分析,通过对基因进行训练,进入深度神经网络来进行训练,来评判你得一些疾病的风险。比如说可以预测得神经胶质瘤的风险。很多人说,有的人一辈子抽烟都不会得癌症,有的人一辈子都不抽烟却得了肺癌,总结为这是基因决定的,这句话我认为是有道理的,大数据嘛,只看关联性,不看因果性。通过对基因进行检测,然后进行机器学习,这也是学习多种癌症的特征,能够提高性能。
会后,陈一昕回答了清华同学的几个问题:
现场听众提问 刘涵摄
第一,您说做医疗行业大数据这两年特别火热,国家在数据的使用方面趋势收紧,尤其是国家级的大数据平台进入,会不会对于私人资本,特别是外资资本大数据公司产生比较大的影响。
第二个问题,目前人工智能存在了很大的争议,在医疗行业里面,医生希望它能够达到几乎100%的精准,但这在技术上是一个壁垒,您怎么看待这个问题。
第三个问题,个人的支付意愿相对来说是比较低的,怎样通过产业的力量推动这个技术的发展呢?
陈一昕:第一个问题,数据隐私化。我们的定位属于技术输出方,我们是从技术层面解决问题的。比如做Deidentification,完全可以把姓名、生日、编码、手机号、身份证全部去掉之后再把数据给我,这是合作的一种模式。第二种,别人的数据我们可以做一种数据沙盒,我的模型和你的数据在这个里面进行融合,产生了模型,最后你把数据撤走,只是模型沉淀下来。第三种,我们可以通过一些协议控制,成立联合实验室,一起联合申报国家项目,从科研的形式上沉淀成果,这个事情需要一步步去探索。
第二个问题:支付意愿。对于C端的客户,健康监测不像网购,可以给人带来很多快乐,即使是测血压,也没有人有这个意愿天天做这件事情。除非是55岁以上,或者是得过重大疾病的,他的自愿性才会非常强,依从性也非常好。但55岁以下的人群,对于健康管理没有那么高的黏性。我们与地产行业合作,也是想要换一种思维。对于地产商,他多卖一套房子,这套系统可能就赚回来了。现在地产也越来越难做了,大家都在做转型,地产现在很多人都觉得到了拐点,很多地产商也在追求用一些主题(比如健康、养老)来吸引客户。这样一种主题,对于他来讲,他其实是有资金、有实力支付的。其他的商业模式也是类似的,比如说医院,医联体这种项目并不是直接和医院收费,中国很多医院都是不怎么赚钱、或者说效益不那么好,往往做医联体的项目本身背后并不是一个医院,可能是一个集团,对于他们来讲,我们提供的技术可以有其他的变现途径。
第三个问题,这个只能是用时间来推动了,我能感受到中国和美国在某些领域的差别,美国医生的观念已经走在前面了,一些人工智能算法在美国临床已经投入使用了,医生也明白成功率肯定不可能是100%,但是只要能够拯救部分的生命就可以去做。但是在中国需要一些时间来推进。首先医生很忙,第二,医生自己已经成了一种体系,我跟很多医生沟通过,他们都认为将来医疗的核心肯定还是传统的医生,我们这些人工智能的方法,最多也只是一些辅助性的东西。我觉得这个观点需要慢慢接受、慢慢改变,可以从一些领域,比如说癌症的筛查等这样的一些领域先进行改变。还有就是在商业模式上,首先需要这个医院愿意用我们的产品。如果这个产品能够给医院带来某些效益,或者是某些知名度,医院愿意用这个产品,那么就可以切进去了。最关键的还是看效果性能上能不能提高,在某些细分领域可以超过医生。至于模式上的发展肯定会受到一些阻力,但是人工智能在医疗行业会慢慢成长起来的。
往期精彩文章
点击图片阅读
大咖 | 王汉生:从数据到价值的转化,回归分析的“道”与“术”