Generating molecules that bind to specific proteins is an important but challenging task in drug discovery. Previous works usually generate atoms in an auto-regressive way, where element types and 3D coordinates of atoms are generated one by one. However, in real-world molecular systems, the interactions among atoms in an entire molecule are global, leading to the energy function pair-coupled among atoms. With such energy-based consideration, the modeling of probability should be based on joint distributions, rather than sequentially conditional ones. Thus, the unnatural sequentially auto-regressive modeling of molecule generation is likely to violate the physical rules, thus resulting in poor properties of the generated molecules. In this work, a generative diffusion model for molecular 3D structures based on target proteins as contextual constraints is established, at a full-atom level in a non-autoregressive way. Given a designated 3D protein binding site, our model learns the generative process that denoises both element types and 3D coordinates of an entire molecule, with an equivariant network. Experimentally, the proposed method shows competitive performance compared with prevailing works in terms of high affinity with proteins and appropriate molecule sizes as well as other drug properties such as drug-likeness of the generated molecules.
翻译:生成与特定蛋白质结合的分子是药物发现中一项重要但具有挑战性的任务。 以前的作品通常以自动递减的方式产生原子, 其元素类型和原子的3D坐标是一个一个产生的。 但是, 在现实世界的分子系统中, 原子在整个分子中的相互作用是全球性的, 导致原子之间的能量函数对齐。 有了这种基于能量的考虑, 概率的模型应该以联合分布为基础, 而不是按顺序设定条件。 因此, 分子生成的自然顺序自动递增模型有可能违反物理规则, 从而导致生成的分子的特性差。 在这项工作中, 分子3D结构的基因化扩散模型以目标蛋白质为基础, 其基础是环境限制, 在全原子层次上, 导致原子的对等。 在指定的 3D 蛋白质结合点中, 我们的模型应该学习成份的元素类型和3D 协调整个分子的基因化过程, 并带有不耐久性网络。 实验性地, 分子 3D 3D 结构中的拟议方法显示具有高效性性性性,,, 将, 和 高性 的药物 分子 的 的 分子 以其他 的 的 的 性 的 的 和 的 的 的 等状 作作为 作为 的 的 作为,, 的 的 的 作作作为 作为, 作为 的, 的 的, 作为 的 作为 的 的 作案 作案 作为, 作为 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 為 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作 作