AI为人类开药方:准确预测9000名癌症患者适用药物!成果登上Nature子刊,出自华人团队

2022 年 11 月 13 日 量子位
明敏 发自 凹非寺
量子位 | 公众号 QbitAI

只需一个AI,9808名癌症患者对药物的临床反应,全能预测。

而且结果和临床观察表现一致。

这就是由纽约市立大学Lei Xie团队带来的最新成果CODE-AE(context-aware deconfounding autoencoder)。

它提出一种新型的上下文自编码模型,可以预测不同患者对药物的特异性反应。

这将对新药开发和临床试验产生重大影响。

要知道,传统模式下一种新药开发、试验、完全上市,中间需要近10年的时间,消耗的资金也空前庞大,动辄就是10亿美元。

周期会如此之长,是因为新药在人体内的反应难以预测,往往需要反复试验进行测试。

而如果AI能够利用数据进行预测,将大幅缩短新药上市时间,降低成本。

目前,该研究登上Nature子刊《Nature Machine Intelligence》。

不再高度依赖临床数据

简单来说,CODE-AE是利用新药在体外细胞验证上的数据,来预测药物在人体身上会产生的反应。

这样就避免了AI模型训练对患者临床数据的依赖。

过去AI在临床反应预测上效果一直不算好的最大原因,便是想要收集海量、连续临床反应数据实在是太难了。

从机制上来看,研究人员将药物生物标志物分为了源域(source domain)和目标域(target domain)

源域表示和测试样本不同的领域,但是有丰富的监督信息,在这里可以理解为体外细胞验证的数据。

目标域是测试样本所在的领域,无标签或只有少量标签,也就是患者数据。

将不同领域的数据特征映射到同一个特征空间,使其在该空间中的距离尽可能近。

于是在特征空间中对源域训练的目标函数,就可以迁移到目标域,提高目标域上的准确率。

放在该研究背景下,源域和目标域都是药物生物标志物的数据特征,即药物靶标的数据特征。

具体来看模型框架,主要分为三个部分:预训练、微调和推理。

预训练主要用了自监督学习,构建一个特征编码模块,将体外细胞数据和患者数据的未标记基因表达谱,映射到嵌入空间中。这样一来可以把一些混杂因素排除掉,让两种数据的潜入分布一致,以消除系统偏差。

微调阶段,是在预训练的基础上再加一个监督模型,并利用已经标记的体外细胞数据来进行训练。

最后在推理阶段,先从预训练中获得的患者去歧对其嵌入,然后再利用调优后的模型,来预测患者对药物的反应。

在这种模式下,CODE-AE具备两个特点。

第一,它可以提取不连贯样本中的常见生物信号和私有表示,从而排除掉由于数据模式不同带来的干扰。

第二,将药物响应信号和混杂因素分离后,还可以实现局部对齐。

总结来看,CODE-AE可以理解为在标记和无标记数据的非相干数据模式嵌入空间中,选择唯一特征的过程。

为了论证模型的有效性,研究人员对9808位癌症患者的药物适用情况进行预测。

如果模型对患者情况预测出的位点结果,和他使用的药物靶点有关,就证明预测是正确的。

然后,研究人员将患者分为100个聚类,将59种药物也分为30个聚类。

通过这种分析方法,可以让具有相似药物反应谱的患者被分在一起。

在此,我们以肺鳞状细胞癌患者(LSCC)和非小细胞肺癌患者(NSCLC)的聚类为例。

在59种药物中,LSCC最敏感的药物为吉非替尼、AICAR和吉西他滨。

其中吉非替尼、AICAR的作用靶点都是一种表皮生长因子受体(EGFR),吉西他滨常被用于没有EGFR突变的非小细胞肺癌治疗。

论文表示,和这些药物作用模式一致,CODE-AE发现使用吉非替尼、AICAR的患者,药物反应图谱相似。

也就是说,CODE-AE发现了患者治疗的正确靶点,即可以预测适用药物。

通讯作者系中科大校友

如上研究团队来自纽约市立大学。

通讯作者为Lei Xie,他本科毕业于中国科学技术大学高分子物理专业。

硕士毕业于罗格斯大学计算机科学专业;博士同在罗格斯大学,但拿的是化学系学位。

据了解,该研究团队下一步将开发CODE-AE对新药临床反应在浓度、代谢方面的预测功能。

研究人员表示,该AI模型还有可能被调整为用于预测药物对人体的副作用影响。

值得一提的是,Nature子刊《Nature Machine Intelligence》专门关注人工智能和生命科学跨学科应用研究,每年收录论文平均数量在60篇左右。

论文地址:
https://www.nature.com/articles/s42256-022-00541-0

参考链接:
https://phys.org/news/2022-10-ai-accurately-human-response-drug.html

MEET 2023 大会启动

邀你共论智能产业穿越周期之道

今年12月,MEET2023智能未来大会将再度邀请智能科技产业、科研、投资领域大咖嘉宾,共同探讨人工智能行业破局之道。

欢迎智能科技企业参会,分享突破性成果,交流时代级变革,共襄盛会!点击链接或下方图片查看大会详情:

量子位「MEET 2023智能未来大会」启动,邀你共论智能产业穿越周期之道


点这里关注我 👇 记得标星噢 ~


一键三连「分享」、「点赞」和「在看」

科技前沿进展日日相见 ~ 

登录查看更多
0

相关内容

癌症是医学术语,其为最常见的恶性肿瘤,亦有人将癌症和恶性肿瘤混合使用。中医学中称岩,为由控制细胞分裂增殖机制失常而引起的疾病。癌细胞除了分裂失控外,还会局部侵入周遭正常组织甚至经由体内循环系统或淋巴系统转移到身体其他部分。
利用深度势能进行快速准确的蛋白质结构从头预测
专知会员服务
4+阅读 · 2022年12月5日
AlphaFold新竞争对手出现,ESMFold预测了6亿种蛋白质结构
专知会员服务
9+阅读 · 2022年11月7日
Cancer Cell综述|AI用于肿瘤学中的多模态数据集成
专知会员服务
34+阅读 · 2022年10月13日
Nature Medicine | 多模态的生物医学AI
专知会员服务
30+阅读 · 2022年9月25日
Nat. Biomed. Eng.| 综述:医学和医疗保健中的自监督学习
专知会员服务
39+阅读 · 2022年8月25日
迁移学习之Domain Adaptation
全球人工智能
18+阅读 · 2018年4月11日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Arxiv
68+阅读 · 2022年9月7日
Arxiv
21+阅读 · 2021年12月31日
Multi-Domain Multi-Task Rehearsal for Lifelong Learning
Arxiv
12+阅读 · 2020年12月14日
VIP会员
相关基金
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
Top
微信扫码咨询专知VIP会员