基于语言的预训练模型在药物研发中的应用 - 专知

会员服务 ·

0

基于语言的预训练模型在药物研发中的应用

2022 年 2 月 19 日 GenomicAI

一、药物发现越来越由软件驱动

在分子机器学习技术的指导下，分子的算法设计越来越普遍。

DeepChem项目创建了用于科学深度学习的开发工具。

MoleculeNet为改进和测试分子算法建立了开发的数据集。

youtue视频：

二、有效的迁移学习是分子机器学习面临的重大挑战

（1）DeepChem团队的早期工作曾尝试使用基于图像的体系结构（Chemception）进行迁移学习，但是效果很脆弱。

（2）斯坦福大学的研究探索了基于图的预训练。

（3）其他尝试的大量文献（multitask learning, one shot learning, semi-supervised learning, constrastive learning...）。

三、NLP技术可以在药物发现中进行有效的迁移学习吗？

斯坦福大学2020年7月发表了文章"BERT Learns(and Teaches) Chemistry"。这项工作成功的将基于transformer的BERT用在化学结构的表征，作者建议使用注意力从数据驱动的角度研究影响分子子结构的官能团和其他属性，在分子的字符串表示数据集上使用基于transformer的模型（BERT），并分析其attention head的行为。

作者应用模型学习的官能团和原子的表示，在较小的数据集上解决毒性、溶解性、药物相似性和药物合成问题，使用学习的表示作为分子图形结构上的图形卷积和注意模型的特征，以及进行BERT的微调。作者还建议使用注意力可视化作为一种有用的工具，帮助化学从业者和学生快速识别各种化学性质中的重要子结构。

Payne,Josh, et al. "BERT Learns(and Teaches) Chemistry" arXiv 2020

第二篇文章斯坦福和哈佛大学在ICLR2020上发表了“ Strategies for Pretraining Graph Neural Networks”的文章

本文提出了一种在node-level和graph-level同时学习的图神经网络预训练模型，能够很好的得到分子图的局部和全局的表示，实验证明预训练模型在ROC-AUC上超过了非预训练模型9.4%，并在分子性质预测和蛋白质功能预测方面达到了最好的结果。

Weihua Hu,Jure Leskover, et al.Strategies for Pretraining Graph Neural Networks.(ICLR 2020)

第三篇文章“ChemBERTa: Large-Scale Self-Supervised Pre-Training for Molecular Property Prediction”，ChemBERTa:使用原子填充和掩码原子预测作为预训练任务学习，该模型可以很好的适应预训练数据集的大小，在MoleculeNet上提供有竞争力的下游性能，并能提供有用的基于注意力的可视化模式。

DeepChem是以MoleculeNet作为bechmark做screen，其MoleculeNet元件包括：量子力学（Quantum Mechanics）、物理化学（Physical Chemistry）、生物物理学（biophysics）、物理生理学（Physiology）。

未来方向

（1）更好的预训练策略

Pre-training on RDKit physiochemical descriptors(work in-progress).

（2）Vertical scaling

Pretraining on PubChem 77M,ZINC15, and beyond;

Larger capacity transformer models.

（3）Horizontal scaling

Expand evaluation to all of MolecularNet tasks with ChemBERTa wrapper script;

Multitask datasets;

More systematic hyperparameter tuning during finetuning ;

(4) Transformers<>GNNs

GROVER(NeurIPS 2020)

Transformers are(a special case of)graph neural networks!

参考文献

[1] BERT Learns(and Teaches) Chemistry

[2] Strategies for Pretraining Graph Neural Networks.(ICLR 2020)

[3] ChemBERTa: Large-Scale Self-Supervised Pre-Training for Molecular Property Prediction

[4] The DeepChem Project：https://deepchem.io

入群交流请备注：单位_姓名_职位

登录查看更多

5

相关内容

MoleculeNet

基于预训练语言模型的文本生成

基于预训练语言模型的文本生成

专知会员服务

29+阅读 · 2022年1月28日

基于大型预训练语言模型的自然语言处理研究进展综述

基于大型预训练语言模型的自然语言处理研究进展综述

专知会员服务

96+阅读 · 2021年11月4日

自然语言预训练模型知识增强方法综述

专知会员服务

62+阅读 · 2021年8月4日

面向自然语言处理任务的预训练模型综述

专知会员服务

61+阅读 · 2021年5月28日

人工智能药物发现，讲述AI与药物交叉应用研究

人工智能药物发现，讲述AI与药物交叉应用研究

专知会员服务

158+阅读 · 2021年1月28日

IJCAI《机器学习驱动的药物研发》综述教程，哈佛大学Marinka Zitnik教授，137页ppt，

IJCAI《机器学习驱动的药物研发》综述教程，哈佛大学Marinka Zitnik教授，137页ppt，

专知会员服务

94+阅读 · 2021年1月9日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

最新综述：基于Transformer的NLP预训练模型已经发展到何种程度？

最新综述：基于Transformer的NLP预训练模型已经发展到何种程度？

PaperWeekly

0+阅读 · 2021年10月25日

图神经网络GNN预训练技术进展概述

图神经网络GNN预训练技术进展概述

专知

2+阅读 · 2021年4月12日

NLP预训练模型大集合！

NLP预训练模型大集合！

机器之心

21+阅读 · 2018年12月28日

基于网络的药物－靶标相互作用预测的模型研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于机器学习的蛋白质翻译后修饰位点预测的研究

国家自然科学基金

1+阅读 · 2013年12月31日

模型驱动的大规模时空数据可视化开发方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于强化学习的前列腺癌蛋白质间相互作用网络的模型及方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向蛋白质功能预测的多标记学习方法研究与应用

国家自然科学基金

0+阅读 · 2013年12月31日

基于商空间理论的蛋白质相互作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

微生物药物生物合成转化知识库的构建

国家自然科学基金

2+阅读 · 2012年12月31日

面向结构预测的蛋白质分子力场发展

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的蛋白质相互作用与功能预测方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于元胞自动机图的蛋白质序列离散灰色模型及其在药物设计中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

MOOMIN: Deep Molecular Omics Network for Anti-Cancer Drug Combination Therapy

Arxiv

0+阅读 · 2022年4月20日

Multilingual Molecular Representation Learning via Contrastive Pre-training

Multilingual Molecular Representation Learning via Contrastive Pre-training

Arxiv

0+阅读 · 2022年4月18日

Pre-Training on Dynamic Graph Neural Networks

Pre-Training on Dynamic Graph Neural Networks

Arxiv

1+阅读 · 2022年4月18日

A generative neural network model for random dot product graphs

Arxiv

0+阅读 · 2022年4月15日

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Arxiv

10+阅读 · 2020年3月13日

K-BERT: Enabling Language Representation with Knowledge Graph

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

DAGCN: Dual Attention Graph Convolutional Networks

Arxiv

16+阅读 · 2019年4月4日

VIP会员

相关主题

预训练模型

相关VIP内容

基于预训练语言模型的文本生成

基于预训练语言模型的文本生成

专知会员服务

29+阅读 · 2022年1月28日

基于大型预训练语言模型的自然语言处理研究进展综述

基于大型预训练语言模型的自然语言处理研究进展综述

专知会员服务

96+阅读 · 2021年11月4日

自然语言预训练模型知识增强方法综述

专知会员服务

62+阅读 · 2021年8月4日

面向自然语言处理任务的预训练模型综述

专知会员服务

61+阅读 · 2021年5月28日

人工智能药物发现，讲述AI与药物交叉应用研究

人工智能药物发现，讲述AI与药物交叉应用研究

专知会员服务

158+阅读 · 2021年1月28日

IJCAI《机器学习驱动的药物研发》综述教程，哈佛大学Marinka Zitnik教授，137页ppt，

IJCAI《机器学习驱动的药物研发》综述教程，哈佛大学Marinka Zitnik教授，137页ppt，

专知会员服务

94+阅读 · 2021年1月9日

自然语言处理预训练模型的研究综述

专知会员服务

123+阅读 · 2020年12月9日

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

【复旦大学】最新《预训练语言模型》2020综述论文大全，50+PTMs分类体系，25页pdf205篇参考文献

专知会员服务

105+阅读 · 2020年3月19日

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

【斯坦福大学-ICLR2020】图神经网络预训练的策略，Strategies for Pre-training Graph Neural Networks

专知会员服务

78+阅读 · 2020年3月1日

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

微软亚洲研究院新论文-《多模态预训练语言模型UniViLM》面向多模态理解和生成的统一视频和语言预训练模型

专知会员服务

109+阅读 · 2020年2月19日

热门VIP内容

开通专知VIP会员享更多权益服务

《人工智能绝不能完全自主》

《人工智能的法律与伦理：军事自主机器独特挑战的深度剖析》316页

从数据到主导：AI与兵棋推演构筑决策优势

《特洛伊木马货柜：武器化集装箱的战略威胁》最新报告

相关资讯

最新综述：基于Transformer的NLP预训练模型已经发展到何种程度？

最新综述：基于Transformer的NLP预训练模型已经发展到何种程度？

PaperWeekly

0+阅读 · 2021年10月25日

图神经网络GNN预训练技术进展概述

图神经网络GNN预训练技术进展概述

专知

2+阅读 · 2021年4月12日

NLP预训练模型大集合！

NLP预训练模型大集合！

机器之心

21+阅读 · 2018年12月28日

相关基金

基于网络的药物－靶标相互作用预测的模型研究

国家自然科学基金

5+阅读 · 2014年12月31日

基于机器学习的蛋白质翻译后修饰位点预测的研究

国家自然科学基金

1+阅读 · 2013年12月31日

模型驱动的大规模时空数据可视化开发方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于强化学习的前列腺癌蛋白质间相互作用网络的模型及方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

面向蛋白质功能预测的多标记学习方法研究与应用

国家自然科学基金

0+阅读 · 2013年12月31日

基于商空间理论的蛋白质相互作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

微生物药物生物合成转化知识库的构建

国家自然科学基金

2+阅读 · 2012年12月31日

面向结构预测的蛋白质分子力场发展

国家自然科学基金

0+阅读 · 2012年12月31日

基于机器学习的蛋白质相互作用与功能预测方法研究

国家自然科学基金

2+阅读 · 2011年12月31日

基于元胞自动机图的蛋白质序列离散灰色模型及其在药物设计中的应用研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

MOOMIN: Deep Molecular Omics Network for Anti-Cancer Drug Combination Therapy

Arxiv

0+阅读 · 2022年4月20日

Multilingual Molecular Representation Learning via Contrastive Pre-training

Multilingual Molecular Representation Learning via Contrastive Pre-training

Arxiv

0+阅读 · 2022年4月18日

Pre-Training on Dynamic Graph Neural Networks

Pre-Training on Dynamic Graph Neural Networks

Arxiv

1+阅读 · 2022年4月18日

A generative neural network model for random dot product graphs

Arxiv

0+阅读 · 2022年4月15日

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Adaptive Graph Convolutional Network with Attention Graph Clustering for Co-saliency Detection

Arxiv

10+阅读 · 2020年3月13日

K-BERT: Enabling Language Representation with Knowledge Graph

K-BERT: Enabling Language Representation with Knowledge Graph

Arxiv

19+阅读 · 2019年9月17日

Domain Representation for Knowledge Graph Embedding

Domain Representation for Knowledge Graph Embedding

Arxiv

14+阅读 · 2019年9月11日

KG-BERT: BERT for Knowledge Graph Completion

Arxiv

20+阅读 · 2019年9月7日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

DAGCN: Dual Attention Graph Convolutional Networks

Arxiv

16+阅读 · 2019年4月4日

大家都在搜

久别重逢话双塔

大型语言模型

CMU博士论文

软件无线电

国防科技创新

无人机测控通信自组网技术综述

微信扫码咨询专知VIP会员