2月8日,由北京市经济和信息化委员会和海淀区人民政府共同主办的“2018北京人工智能产业高峰论坛暨北京前沿国际人工智能研究院成立大会”举办。北京前沿国际人工智能研究院在大会上宣布正式成立,李开复博士为首任院长。
在会上,深知无限人工智能研究院首席科学家、欧洲科学院院士汉斯·乌思克尔特,创新工场董事长李开复,旷视科技首席科学家孙剑,商汤科技CEO徐立等发表了演讲。中科院生物物理研究所研究员、中国科学院院士陈润生在演讲中表示,人类的遗传密码中,还有97%有待解读,人工智能技术将推动精准医疗的进一步发展,而这将带来一个万亿美元规模的产业机会。
以下为陈润生演讲实录,经黑智编辑整理:
我是从事生物医学研究的,所以更多地是希望得到人工智能领域专家的帮助,能够更快的推进生物医学研究的发展。我今天讲的题目是:基因组、大数据、精准医学和人工智能。
大家知道,这是一段人类遗传密码,在最近20到30年中生物和医学领域最大的进展是,人们第一次能够破译自身的遗传密码,也就是说从此生物医学领域的研究进入了大数据时代。
过去这是没有的,医生生物学研究都从来不会涉及这样的数据,那么这样的数据既代表生物医学领域研究的进展,也带来了数据分析必然要解决的各种问题。正因为大数据在生物领域的发展,在2015年,由美国首先提出开展精准医学的研究,这个消息很快得到了全世界很多国家的响应,很快我国也开展了精准医学研究。
精准医学是怎么个“精”?实际上就是把遗传密码为代表的大数据,用以解决生物医学当中的很多问题,这必然也会推进生物医学领域革命性的发展。除了这个外,就是把以基因组为代表的所有大数据这些新事物,用到解决医疗和生物技术研究当中来。
这里有一个例子,斯坦福大学的一个教授,长期测量自己的大数据,发现他是糖尿病的高危人群。刚开始测量的时候,他是健康的,但很快就确认他得了糖尿病,也说明这样的大数据研究,确实能够为生物医学提供全新的、历史上从未有过的新知识。
当然,大数据不仅仅能够提高生物医学的发展,更重要的是它还可能带来更加本质的变化。我们知道,大数据之所以能够引起医疗领域的变化,更加本质的是它能够带领生物医学领域,从当前的以诊断治疗为主,过渡到未来以健康保证为主。这是非常根本性的变化。现在的医疗体系是以病人医院和大夫为核心,而未来在精准医学的促进下,那么医疗是面对全民进行全过程的监控,从出生到死亡。
所以,在精准医学和大数据的推动下,生物核医学领域将会发生根本性的变化。与此同时,它也会带来新兴产业的发展,这个产业规模是万亿美金的水平。正因为这样,所以很多发达国家都把精准医学研究作为新一轮国家竞争和国际发展潮流的战略制高点。美国、欧盟,还有日本,各个国家都提出了国家级的精准医学计划,旨在推动生物和医学的发展。
精准医学和大数据将会在四个方面推动大规模产业的发展:首先,将促进新兴的、海量的生物样本库和数据库领域的发展;第二,会推动以监测性为代表的组学测量的产业的发展;第三,由于海量数据的分析,必然会推动疾病诊断新的分子标记和新型药物设计靶点,这样一个高质量产业的发展;最后,能够推动以精准医疗为目标的设施建设产业的发展。而这些产业,据估计是万亿美金的规模。
大家也知道,最近国际上在测序当中已经有很好的发展,这就意味着组学数据会汹涌澎湃地推到每一个人的面前,每一个医生将面对这样一个场面:病人拿着自己遗传密码来咨询风险,所以大数据的分析已经成为生物医学领域迫在眉睫需要解决的问题。由于这些新的介入,所以我们在IT行业非常著名的企业,像飞利浦、IBM公司都在投入巨大的人力发展有关人工智能、有关深度学习的技术,来破解生物医学领域的大数据。
那么,怎样才能够推动精准医疗的发展?
我们要获得大数据,更重要的迫切需求,就是要挖掘大数据当中跟疾病相关的知识,在挖掘当中就离不开新兴的人工智能、深度学习等等所有相关领域的帮助和协助。
实际上到目前为止,虽然精准医学的宗旨是非常前沿的,也是面向全民的,但是现在才刚刚上路。它面对巨大的困难,首先是我们可以测得自己的遗传密码,比方只花100美金,但是我们现在对遗传密码能了解多少?能破译多少?现在我们真正能够破译的部分,大约只相当于遗传密码的3%,另外的97%我们迄今为止是没有知识的。所以整个生物医药领域的出发点,其实我们了解市场如何破解那97%的遗传密码的生物学含义,就有待于人工智能等各方面信息挖掘技术的发展,这是关键和根本性所在。
2010年12月17日,《自然》就这个问题做过专门的报告。它指出,实际上我们只有一小部分,大约只有1.5%的遗传密码现在是破译了的,绝大部分的遗传密码有待于真正的深度挖掘,只有这些知识挖掘了,我们才能更好的去了解疾病、研究疾病。那么我们迄今为止不清楚的地方,突变可以导致前列腺癌,可以导致白血病,也可以导致我们国人非常关心的胃癌。而如果这些问题能够得到解析,我们就会对肿瘤的治疗有新的途径,会产生新的药物。大家可以看到,这样的遗传密码破译对人类健康将是多么重要,而这个破译当然依赖于以人工智能为代表的信息挖掘技术的深入的成果和发展。
除了这个以外,大家知道,整个生物大数据其实还有它自身非常有待解决的困难,比如它的数据量非常大,增速非常快。根据最近的研究,我们知道人类健康还和人相互一起生存的微生物有关,所以加大了对大数据的需求。比方说现在人们关心的肠道微生物,我们有人统计过,和人类共生的微生物大概有两公斤,大家可能没有想到,你们每个人带着两公斤的微生物,所以只有把它们的遗传密码深入的破解,才能更好的了解人类关于肿瘤,关于免疫,关于各个方面的这个具体的情况。
那么同时这个数据相对来讲,信道比不是太好,有缺失值这样的数据,那么如何挖掘这样的数据,当然也是摆在IT行业面临的非常重要的问题。第二,我们往往要解决一个问题,比方说我们要用这样的数据来了解肿瘤,挖掘肿瘤,但是在这种情况下,往往我们获得的样品非常少,大家可以讨论,在一个多变量的体系当中,如果我们获得了样品,边界条件很少的话,这个系统是(不收链)的,所以如何建造合理的模型,也是要解决实际问题需要了解的根本问题。比如说我们肿瘤往往内部的变化因素有成百上千,比方说我们的心脑血管病,它的相关因素也是成百上千,但是我们如果只拿几十个病人来做研究的话,显然这样的边界条件是不足以得到收链结论,所以这也给我们解决生物医学问题带来了所谓数据挖掘的需求。
同样,我们还面临着样品的出现变量的概率问题,所以什么是共同疾病的共同变化,什么是共同疾病的特异性变化,是当时在组学时代,那么生物医学领域面临的深刻的科学结论的问题。好,那么除了这个之外,整个生物体系当中还是由这些基因构成的复杂网络所决定,那么这个网络是非常的复杂。那么它的主要特点,就是它是动态的,是有向的,它的元素不是单一的蛋白,还包括核酸,所谓它的双色,而所有网络之间的相互作用是非间接的,因此如何破解这样的一个复杂网络,当然也是复杂的问题。
更加复杂的是,我们不仅仅要研究分子水平的世界,还要研究各个层次相关抑制化数据,大家知道,我们医学面临的数据从基础的数据,包括病史的记录,包括生理生化指标,心电、血压、血糖,包括影像学的资料,包括着所谓核磁、超声、断层等等,也包括组学数据,还包括环境。如何把多层次的数据整合到一起,也是必然要解决的一个问题。这些问题都为这些大数据的处理提供了迫切的需求。因此最后如何解决这些数据的共享问题,成为当前的拦路虎。
大家知道,目前在人工智能解决这个问题当中已经提供了很好的前景。很多报道都清楚了,比方说对乳腺癌,认为用人工智能来识别乳腺癌的影像,已经取得了很好的结果,这里面大家可以看到,利用人工智能的办法,能够很好地扫描视网膜的图像来进行分析,所以对网膜的病变提出了更加精确的结果。
利用人工智能来分析大数据,比如说IBM,我刚才讲过了,已经建立了一个团队,对组学数据进行深入的挖掘。当然,他们有这样的团队,以组学技术为基础的平台,这些平台也对我们国家解决这些生物医学的大数据,提供了一些参考。人工智能对于基因组,对于转入组核蛋白组的分析,那么也做了很多深入的工作。利用人工智能来分析基因组,已经建立了很多深度学习的算法。除了这个之外,大家知道,我们生物科学家们也在研究DNA计算机,希望通过学习,希望以DNA为材料建立所谓DNA的计算机,大家已经熟悉了所有普通的计算机,常规的计算机,DNA数据量的计算,但是我相信DNA计算将是定型的一个值得发展的岗位。
大家知道,早在1994年,南加州大学的美国科学家阿克曼就已经提出了,用DNA计算的方法来进行大规模计算的问题。而最近若干年,已经发现了DNA辄止(音)技术,使得我们的DNA计算逐渐固化提供了一个非常好的基础。最近几个月,又发展了很多的新的技术,对于构造一个可执行的以DNA为材料的一个机构,已经做了很多实验性的工作。我想在很短的时间内,以DNA为材料,能够完成AI水平计算的这样的东西会逐渐出现。
这些都告诉我们,生物医学的发展需要AI技术的帮助,而生物技术的发展和AI的结合,也从另外一个层面为人工智能新的技术方案提供了很好的依据。在这个相互促进下,未来的发展一定会具有无限的创新领域。我们会解决非常多的问题,比方我们用数据分析,曾经对血管淋癌提供了一些新的方法,可以预测血管淋癌的预后,我们也可以用数据当中的组学数据的研究,为肿瘤干细胞的干性维持提供一些解释,也可以为生物精准的免疫性提供新的一些结果。
总而言之,我们还有很多的机会,当把生物医学最新的成果,在AI技术的支持下,将会完成非常非常多的前所未有的发现,那么这些发现将是重大的,和我们这个领域当中的很多最新的国际级的成果会能够相提并论。我想,一定能够随着两者的结合,为新的疾病诊断和治疗提供新的方向,为全世界药物设计研发进入新的平台,为动植物新品种新性状的培育提供新的可能。非常感谢我的学生们,为这个工作一起做的努力。