基于文本的分子生成是一项任务,在这项任务中,分子被生成以匹配特定的文本描述。最近,大多数现有的基于SMILES的分子生成方法依赖于自回归架构。在这项工作中,我们提出了一种新颖的方法——文本引导的分子生成与扩散语言模型(TGM-DLM),该方法利用扩散模型来解决自回归方法的局限性。TGM-DLM在SMILES字符串中集体和迭代地更新标记嵌入,使用两阶段扩散生成过程。第一阶段从随机噪声中优化嵌入,由文本描述引导,而第二阶段则纠正无效的SMILES字符串以形成有效的分子表示。我们证明了TGM-DLM在不需要额外数据资源的情况下,就超过了自回归模型MolT5-Base的性能。我们的发现强调了TGM-DLM在生成具有特定属性的连贯和精确分子方面的卓越有效性,为药物发现和相关科学领域开辟了新途径。代码将在以下地址发布:https://github.com/Deno-V/tgm-dlm。

成为VIP会员查看完整内容
27

相关内容

【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
【ICML2023】几何潜在扩散模型的三维分子生成
专知会员服务
25+阅读 · 2023年5月5日
【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
28+阅读 · 2023年4月28日
专知会员服务
21+阅读 · 2021年10月8日
专知会员服务
18+阅读 · 2021年9月23日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
【AAAI2023】用于图对比学习的谱特征增强
专知
18+阅读 · 2022年12月11日
【ICML2021】因果匹配领域泛化
专知
12+阅读 · 2021年8月12日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【KDD2020】图神经网络生成式预训练
专知
22+阅读 · 2020年7月3日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
157+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
398+阅读 · 2023年3月31日
Arxiv
66+阅读 · 2023年3月26日
Arxiv
20+阅读 · 2023年3月17日
Arxiv
68+阅读 · 2022年9月7日
VIP会员
相关VIP内容
【NeurIPS2023】将持续学习重新定义为序列建模
专知会员服务
33+阅读 · 2023年10月19日
【ICCV2023】StyleDiffusion:基于扩散模型的可控解缠风格迁移
【ICML2023】几何潜在扩散模型的三维分子生成
专知会员服务
25+阅读 · 2023年5月5日
【ICML2023】基于自然语言指令的受控文本生成
专知会员服务
28+阅读 · 2023年4月28日
专知会员服务
21+阅读 · 2021年10月8日
专知会员服务
18+阅读 · 2021年9月23日
【ACMMM2020】零样本语义分割的上下文感知特征生成
专知会员服务
15+阅读 · 2020年8月21日
相关基金
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
7+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
1+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
相关论文
微信扫码咨询专知VIP会员