Unlike vision and language data which usually has a unique format, molecules can naturally be characterized using different chemical formulations. One can view a molecule as a 2D graph or define it as a collection of atoms located in a 3D space. For molecular representation learning, most previous works designed neural networks only for a particular data format, making the learned models likely to fail for other data formats. We believe a general-purpose neural network model for chemistry should be able to handle molecular tasks across data modalities. To achieve this goal, in this work, we develop a novel Transformer-based Molecular model called Transformer-M, which can take molecular data of 2D or 3D formats as input and generate meaningful semantic representations. Using the standard Transformer as the backbone architecture, Transformer-M develops two separated channels to encode 2D and 3D structural information and incorporate them with the atom features in the network modules. When the input data is in a particular format, the corresponding channel will be activated, and the other will be disabled. By training on 2D and 3D molecular data with properly designed supervised signals, Transformer-M automatically learns to leverage knowledge from different data modalities and correctly capture the representations. We conducted extensive experiments for Transformer-M. All empirical results show that Transformer-M can simultaneously achieve strong performance on 2D and 3D tasks, suggesting its broad applicability. The code and models will be made publicly available at https://github.com/lsj2408/Transformer-M.


翻译:不同于通常采用独特格式的视觉和语言数据,分子可以自然地使用不同的化学公式进行表征。人们可以将分子视为2D图形或定义为处于3D空间的原子集合。对于分子表示学习,大多数以前的工作仅为特定的数据格式设计神经网络,导致学习的模型可能无法处理其他的数据格式。我们认为,化学的通用神经网络模型应该能够处理跨越数据形式的分子任务。为了实现这个目标,本文提出了一种新颖的基于Transformer的分子模型,称为Transformer-M。它可以将2D或3D格式的分子数据作为输入,并生成有意义的语义表示。使用标准Transformer作为骨干架构,Transformer-M开发了两个分离的通道来编码2D和3D结构信息,并将其与网络模块中的原子特征相结合。当输入数据是特定格式时,相应的通道将被激活,而其他通道将被禁用。通过使用适当设计的监督信号在2D和3D分子数据上进行训练,Transformer-M自动学习从不同数据模式中利用知识并正确捕获表示。我们针对Transformer-M进行了广泛的实验。所有实证结果都表明,Transformer-M可以同时在2D和3D任务上获得强大的性能,表明其广泛的适用性。代码和模型将在https://github.com/lsj2408/Transformer-M上公开发布。

0
下载
关闭预览

相关内容

Graph Transformer近期进展
专知会员服务
61+阅读 · 2023年1月5日
IJCAI 2022 | 端到端的几何transformer:用于分子属性预测
专知会员服务
12+阅读 · 2022年12月26日
JCIM丨DRlinker:深度强化学习优化片段连接设计
专知会员服务
6+阅读 · 2022年12月9日
用于分子Linker设计的等变3D条件扩散模型
专知会员服务
5+阅读 · 2022年10月24日
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
0+阅读 · 2023年5月18日
Arxiv
15+阅读 · 2021年11月19日
VIP会员
相关VIP内容
Graph Transformer近期进展
专知会员服务
61+阅读 · 2023年1月5日
IJCAI 2022 | 端到端的几何transformer:用于分子属性预测
专知会员服务
12+阅读 · 2022年12月26日
JCIM丨DRlinker:深度强化学习优化片段连接设计
专知会员服务
6+阅读 · 2022年12月9日
用于分子Linker设计的等变3D条件扩散模型
专知会员服务
5+阅读 · 2022年10月24日
【NeurIPS 2021】流形上的注意力机制:规范等变的Transformer
【ICML2020】持续图神经网络,Continuous Graph Neural Networks
专知会员服务
149+阅读 · 2020年6月28日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
GNN 新基准!Long Range Graph Benchmark
图与推荐
0+阅读 · 2022年10月18日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
A Technical Overview of AI & ML in 2018 & Trends for 2019
待字闺中
16+阅读 · 2018年12月24日
【CNN】一文读懂卷积神经网络CNN
产业智能官
18+阅读 · 2018年1月2日
资源|斯坦福课程:深度学习理论!
全球人工智能
17+阅读 · 2017年11月9日
可解释的CNN
CreateAMind
17+阅读 · 2017年10月5日
【推荐】深度学习目标检测概览
机器学习研究会
10+阅读 · 2017年9月1日
【推荐】深度学习思维导图
机器学习研究会
15+阅读 · 2017年8月20日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Top
微信扫码咨询专知VIP会员