​被 AI 大牛肯定的 GAN 新药探索公司,将眼光放向了区块链,数据交易平台或将解放医疗数据

2018 年 5 月 17 日 DeepTech深科技 詹子娴

长按识别二维码,收看2018《麻省理工科技评论》区块链技术峰会

 

“AI 有两个领域,真的让我感觉很有前途,一是出行的自动驾驶,另一个就是医疗保健,”法国总统马克龙前不久宣示了一系列的人工智能国家级政策,明确点名了 AI 在医疗领域的巨大潜力。

 

图丨法国总统马克龙


对于人工智能可以为医疗保健领域带来创新,寻找新的治疗方式或药物,(而非取代医生,至少在短期不会发生),已经是全世界的共识,例如训练机器看医学影像,不论是计算机断层扫描(CT)、核磁共振(MRI)、X 光片,都吸引了 Google、许多的初创公司投入,2017 年初美国食品和药物管理局(FDA)正式批准第一个基于神经网络和云端的医疗成像分析平台 Arterys Cardio DL,读取心脏的 MRI 图像后,自动描绘出心室的轮廓,以及量测心脏收缩时的血流。

 

新药开发是一个昂贵、漫长的过程

 

同时还有另一个领域也被寄与厚望,那就是制药。在制药行业中,包括研发成本和时间成本在内,新药开发是一个投入成本非常高、但成功率却偏低的苦差事,知名的英国癌症研究院(Cancer Research UK)就指出,对于药物的测试和批准往往没有时间表,在获得许可之前,可能需要 10~15 年才能完成临床试验的所有阶段,所以制药大厂无奈宣布放弃开发某种药物的事件也就是时常发生的新闻了,今年 1 月辉瑞药厂(Pfizer)就宣布放弃在神经科学领域开发中的新药,包括阿兹海默症与帕金森氏症。然而,当药物从实验室推向市场后,能否在市场中生存又是另一回事。

 


因此,高昂的研发成本和漫长的测试过程可谓是整个行业的痛点,在这冗长的流程中若能加速其中一个步骤,就可能对整条产业链起了重要的作用,有什么方法可以帮助科学家、药物开发人员加速研发的脚步,治疗包括癌症、阿兹海默症、帕金森氏症在内的重要疾病?

 

人工智能,已经成了一种新的视角,一个新的选项。辉瑞、默克(Merck)等药厂巨头、大学研究团队纷纷尝试 AI、机器学习来进行药物探索(Drug Discovery)、新药开发,像是 Genentech 计划使用精准医疗公司 GNS 开发的机器学习和模拟平台 REFS,来查找和验证潜在的候选药物。而有一家美国初创公司 Insilico Medicine 更是率先引入了当红的生成对抗网络(GAN),来预测治疗效果最好的药物分子。

 

新药开发的流程

 

在谈 GAN 怎么与新药开发结合前,先简单了解一下药物的研发(R&D),药物的研究(Research)较偏向药物的探索、作用,属于前段;而发展(Development)多是针对有治疗潜力的药物进行商品化,包括制程、动物试验、药效观察等。整个流程从早期的 Drug Discovery、找到有潜力的候选药物,进入临床前试验(Pre-clinical toxicological tests)、再到临床试验(Clinical trials),在临床试验部分通常有四个阶段,一些试验的早期阶段称为阶段 0(Phase 0 trials),进到阶段 1 至 3,测试对象逐渐增多,从对照组和试验组观察效果、最佳剂量等,阶段 4 则是药物获得上市许可后,观察是否有严重副作用等。

 

制药行业使用计算机进行药物开发算是颇为成熟,例如电脑辅助药物筛选与设计、高通量筛选(HTS)等,调研机构 TrendForce 生技分析师刘适宁对 DT 君表示,传统电脑辅助药物筛选与设计,其算法建立在人们对于原子或分子间交互作用的理解,包含电子迁移、氢键、立体结构、静电引力、疏水区等。整体来看有两大类方法,受体为基础(receptor-based),又称活性位点,以及结构为基础(structure-based),又称数据库搜寻的药物辅助设计与大量筛选。

 

图丨 TrendForce 分析师刘适宁


以往这种方式,可以知道所筛选或设计出来的药物分子(称之 ligand)跟作用标的(receptor)可以结合,有亲和力、以及可预测的药理活性,但是对于该新药分子在人体内实际的功效与安全性却处于未知状态。

 

他进一步指出,新的发展方向则是尝试把基因信息(基因体)、RNA 表现信息(转录体)、蛋白质表现信息(蛋白质体)、电子医疗数据、临床文献整合在一起。但由于数据量非常之庞大,已经无法使用人工方式去处理每个信息,更不用说以此建立起适用于药物筛选与药物设计的规则,因此导入大数据的数据处理方法,以及机器学习、深度学习等 AI 技术。

 

相较于以往,AI 辅助的药物设计与筛选是建立在已知的人们个体差异、疾病致病机转、现有药物在人体作用所累积的信息,因此新产出的药物分子被期待对于在人体的可能作用与功效有一定的了解与可预测性,虽然后续仍须依照药物开发流程一步步走下去,但是有机会提高新药的成功机率以及发现既有药物的新使用方向。

 

GAN 不只换脸,也能开发新药


被《麻省理工科技评论》评选为 2018 年十大技术之一的 GAN,独到之处在于同时训练两个网络,一个是生成网络(generator network),又称生成器(generator),另一个是鉴别网络(discriminator network),又称鉴别器(discriminator)。生成器只想着一件事:骗过鉴别器,就是让鉴别器觉得它做的东西是真实的、或是好的;而鉴别器的任务就是去抓什么是真实的、什么是由生成器制作出来的。简单来说,可以想成是一个是诈欺犯,另一个是警察,诈欺犯极力想要做得完美,不让警察发现破绽,警察则是费心寻找破绽,要抓出犯人。通过让这两个网络相互对抗、竞争,却又互相学习的过程中,训练出高质量的人工智能。

 


目前 GAN 主要的应用多在图像、视频、语言上,而且都取得了很不错的表现,像是中国 AI 独角兽的商汤利用 GAN 作图像的超分辨率、相片的自动美化、图像的标题生成,或是喧腾一时的 DeepFake 也是用了 GAN 来达到视频中的人物“换脸”。

 

“很多 GAN 在成像的应用,就像是魔术一样,但我们希望用它来做出真正有影响力的事情—加速药物探索,”Insilico Medicine 首席 AI 官兼台湾区执行官 Artur Kadurin 对 DT 君这么说。他进一步表示,全世界可能存在的化学化合物(compound)数量非常庞大,“多达 10 的 60 次方以上”,目前药物探索的过程很大程度就是依赖在这巨大的化合物数据库里进行盲目搜索,希望找出有潜力的前导化合物,才能进到下一步的临床前试验,这也就是为什么新药开发效率很低的原因。

 

图|Insilico Medicine 首席 AI 官 Artur Kadurin(图片来源:DT 君)


但新的机器学习,有机会带动整个行业的进步。一开始,Insilico Medicine 利用深度学习来筛选分子数据库中的数百万个分子,“这有点像在干草堆里找针,GAN 的意义在于,我们现在就可以生成完美的针,”他举了一个很贴切的例子。Insilico Medicine 利用生成建模依照所需特性来生成分子结构,包括对靶蛋白具有高亲和力(target protein with higher affinity)、低毒性、合成能力等,借此辅助、甚至取代上述盲目筛选的过程。

 

Insilico Medicine 发表了一篇《The cornucopia of meaningful leads: Applying deep adversarial autoencoders for new molecule development in oncology》论文,他们使用美国癌症研究所(NCI)的 NCI-60 药物筛检数据库中针对乳癌细胞 MCF-7 的 6252 种化合物,以及分子指纹(molecular fingerprints)和分子浓度(concentration of the molecule)、生长抑制(Growth Inhibition)百分比等数据,来训练一个深度神经网络 AAE,经过与鉴别器的相互较劲,AAE 能够根据想要的分子特征,来产生具有潜在抗癌特性的候选分子(candidate molecules),并从中预测了 69 种化合物,有些分子已经被用来治疗癌症,像是白血病和乳腺癌。


图|基于生成对抗网络的 AAE 架构(资料来源:Insilico Medicine)

  

由于该论文被视为是 GAN 首次在药物开发的应用,吸引了深度学习界大牛的目光,神经网络三巨头中的 Yoshua Bengio 、 Yann LeCun 均公开赞许了这个研究,让 Insilico Medicine 一战成名,也在 2017 年被 NVIDIA 创始人黄仁勋选做最具社会影响力 AI 初创公司 Top 5 之一。

 

抗衰老医疗公司 Juvenescence 在去年与 Insilico Medicine 成立合资公司 Juvenescence.AI,专攻使用人工智能进行药物开发,不久前对外公布,借助 AI 找出的化合物中,已经选定了第一个化合物家族(compound family)进行临床开发。由于研究小组在不到 6 个月的时间,就确定了一个与特定年龄相关疾病领域的候选药物(drug candidate),显示出 AI 在新药探索的潜力。

 

图|神经网络三巨头中的 Yoshua Bengio 在 Facebook 分享了 Insilico Medicine 的研究

 

用区块链打造医疗数据交易平台,让用户从中获利

 

除了利用 AI 开发新药之外,区块链与医疗领域的结合也是一种新的尝试,特别是在 Facebook 爆发数据丑闻案之后,数据使用、个人数据隐私保护的问题又浮上了台面,深度学习、迁移学习(Transfer Learning)技术将个人数据转化为医学数据,进行预测分析。但是,尽管这些数据来自于患者,但病人却无法掌握、更不要说是控制医疗记录的访问权限。

 

健康数据有很高的价值,不论 Google 、三星和苹果都正在利用这些数据开发非常有价值的产品,但是贡献数据的人却没有从中获得该有的利益。因此 Insilico Medicine 联合了区块链技术公司 Bitfury,在韩国举办的 2017 全球领导者论坛上发布了 Longenesis 项目,并发表了一篇论文《Converging blockchain and next-generation artificial intelligence technologies to decentralize and accelerate biomedical research and healthcare》说明他们的想法。

 

他们先利用 AI 打造了一个价值模型,会依照用户的数据内容、时间等参数,评断出数据组合的价值,当医药研发公司或研究机构想要使用这些数据,就会依此来估算费用,这些钱则会支付给用户,也就是说,这是一种“数据市集”的概念。


图|在数据市集里,客户想要购买数据时,价值模型就会算出需要多少成本(资料来源:Insilico Medicine)

 

一般来说,数据可分为两类:动态—反映抽样时生物体的状态,例如血液测试、转录组(transcriptome)、表观基因组(epigenome)、蛋白质组(proteome)、微生物组等;静态—在用户的生命期间内几乎不会改变的,例如基因组、指纹。在先天遗传疾病中,有些是年龄相关性疾病,生命第一年的记录对于疾病的进一步研究至关重要,随着年纪增加,数据的价值就会下降,有些则是相反。在用户个人档案部分,除种族、生日、性别、血型等常见信息外,还要有诊断数据、医疗处方、接种疫苗、慢性病等。


图|预测数据的类型可以包括罕见数据,如转录组特征、头发组成等,以及回顾性数据,包括常见的血液测试或来自社交网络的数据(资料来源:Insilico Medicine)

 

另外,Longenesis 医疗数据交易平台是基于企业级开源区块链 Exonum 框架,具备了区块链的特点,用户可以直接将他的数据上传到系统,并拥有其数据的所有权和访问权限,他们也可以将数据出售给药厂、研究单位等有数据需求的人,并且通过价值模型算出的价格来计价,因此强调价格的透明及公平性。而数据购买者也可以选择购买单一个用户的数据,或是相同类型群体的纪录组合。

 

另外,考量进行跨国的数据交易,支付可能存在一些困难,在他们的设想这可以通过加密货币来解决,因此提出了一种名为 LifePound 的代币,一是方便数据交易,二是贡献数据者也可以获得代币奖励。


图|医疗数据市集生态系统包括区块链、数据存储、用户和公共实例。区块链用于处理新的交易区块,存储和发送密钥并进行审计。数据存储包含加密数据。用户发送和销售他们的数据,系统会验证这些数据,客户则可购买个人医疗数据,并用 LifePound 交易(资料来源:Insilico Medicine)


以发论文不发 ICO,来推广医疗数据交易平台


不过,Artur Kadurin 强调,有许多首次代币发售(ICO)项目是鱼目混珠,甚至涉及了欺诈行为,对于医疗行业来说,必须相当重视信誉,因此 Insilico Medicine 目前没有 ICO 的想法或计划,“这就是为什么我们选择在医疗相关期刊上发表研究论文,并且在没有进行 ICO 的情况下,开发区块链系统。”

 

Insilico Medicine 正在展开 AI 验证的研究,并对提交给系统的数据进行质量控制,而 BitFury 则负责区块链技术的开发,“我们计划先从简单和匿名的数据类型开始,希望建立一个由数据驱动的经济,”他说。

 

这个基于区块链的个人健康数据生态系统有两个目标,一是让用户能够掌握自己的数据控制权,可以因提供用于研究或商业目的的数据而获得奖励,另一个点同样很重要,希望让更多的开发者参与,创建医疗研发社群,在这样的生态系统可能允许包括监管机构、制药和消费产品公司交换数据,很可能为药物探索、生物标志开发和预防性医疗保健带来新的方法和进展。

 

图|个人数据驱动型经济:个人对数据有完全的控制权,可因提供用于研究或商业目的的数据而获得奖励,这样的生态系统可能允许监管机构、制药和消费品公司互相交换数据(资料来源:Insilico Medicine)

  

由于个人医疗数据在取得难易度及研究价值比起一般数据来得更有价值,因此“数据有价”这件事在医疗行业开始被提及跟思考,Insilico Medicine 并非是第一家提出此想法的公司。例如遗传学大牛、哈佛大学教授 George Church 共同创立的 Nebula Genomics 的新基因测试公司,在今年初就提出一项测试项目,计划以 999 美元完成全基因组测序,并通过分享基因数据获取加密货币,让消费者分享基因数据来从中获利,这同样是利用区块链进行医疗数据交易的一个知名案例。

 

虽然这些项目的尝试性意味较大,但 Facebook 用户数据遭滥用一事,已经彻底激怒全球互联网用户,既然数据是由用户贡献的,为什么钱却被企业赚走,用户反而还要沦为被你研究、甚至操弄的受害者,导致部分民众数据分享的意愿下降,甚至是拒绝分享。因此,数据的所有权、价值是否该还给用户,已经成为备受讨论的议题。

 

而区块链的数据不可篡改性、加密设计、交易便利性、以及分润激励下,确实有助于让用户愿意分享自己的数据,特别如何大量收集数据,一直是医疗领域的痛点,因此这种创新的商业模式,对于医疗行业来说,或许是一种好的尝试,有助于加速药物、疾病研究的脚步,但前提是有一套好的数据保护、透明的利润交易机制。

 

与亚洲合作,将在 ICML 大会上发表新成果


近几年的 AI 复兴,第一波高峰可说是由深度学习系统在图像识别方面超越人类所掀起,吸引了人们对 AI 的大量关注,第二波高潮就是在“Computer Go”这种棋类游戏中,使用深度学习和强化学习,完全超越人类,DeepMind 的 AlphaGo 打败了多位人类棋王,显示了 AI 广泛应用的潜在应用。Artur Kadurin 认为,“第三个高峰将是把所有这些进步具体地跟医疗保健、新药探索专业知识相结合。”

 


虽然医疗行业应用 AI 还在初期阶段,Artur Kadurin 解释,新药物探索是非常困难的工作,不仅需要专业的团队和专家,而且“要验证更是困难得多”,当你使用影像数据,可以快速查看你的深层神经网络是否产生了有意义的东西,但是在化学和生物学方面,需要数个月的时间来测试你的输出,所以它的成本要高得多。他也透露,他们已经跟中国知名的制药公司、台湾的财团法人生物技术开发中心合作,展开实验验证,预计 7 月份于 AI 界的顶级大会 ICML 2018 上发表研发成果,“这或许将成为人工智能在药物探索的真正转折点,”他说。

 

虽然新药开发在人工智能的帮助下,让行业内外都有一种高度期待,刘适宁指出,AI 是强化新药开发(new drug discovery)有利的工具之一,但实质的成效还有待临床验证。现有借助 AI 辅助开发出的候选药物分子们,预期 3~5 年内会发展至临床一期或临床二期阶段,意味着到达“first-in-human”与“proof-of-concept in human”,因此 AI 在新药开发的实质效益方会逐渐显现。另外,药品重新定位(新适应症)的开发所需的临床试验时间较短,AI 从这方面着手,对药品开发的效益,可望能够较快获得证实。

 

AI 在药物开发是否能获得如图像或游戏领域的成功,目前来看,还是得中性看待,但至少给了一个新的途径。

-End-

 

登录查看更多
0

相关内容

GAN:生成性对抗网,深度学习模型的一种,在神经网络模型中引入竞争机制,非常流行。
专知会员服务
121+阅读 · 2020年3月26日
《人工智能2020:落地挑战与应对 》56页pdf
专知会员服务
194+阅读 · 2020年3月8日
报告 | 2020中国5G经济报告,100页pdf
专知会员服务
97+阅读 · 2019年12月29日
2019中国硬科技发展白皮书 193页
专知会员服务
77+阅读 · 2019年12月13日
【智能医疗】如何利用深度学习诊断心脏病?
产业智能官
8+阅读 · 2017年10月3日
已删除
将门创投
6+阅读 · 2017年7月6日
Arxiv
99+阅读 · 2020年3月4日
Seeing What a GAN Cannot Generate
Arxiv
7+阅读 · 2019年10月24日
Arxiv
6+阅读 · 2018年11月29日
Arxiv
7+阅读 · 2018年1月31日
VIP会员
相关论文
Arxiv
99+阅读 · 2020年3月4日
Seeing What a GAN Cannot Generate
Arxiv
7+阅读 · 2019年10月24日
Arxiv
6+阅读 · 2018年11月29日
Arxiv
7+阅读 · 2018年1月31日
Top
微信扫码咨询专知VIP会员