本教程提供了关于推理时引导和对齐方法的深入指南,用于优化扩散模型中的下游奖励函数。
虽然扩散模型因其生成建模能力而广受欢迎,但在生物学等领域的实际应用中,通常需要生成最大化特定度量的样本(例如稳定性、蛋白质的亲和力、接近目标结构)。在这些场景中,扩散模型不仅可以生成逼真的样本,还可以在推理时明确地最大化所需的度量,而无需微调。本教程探讨了此类推理时算法的基础方面。我们从统一的视角回顾了这些方法,展示了当前的技术——例如基于序贯蒙特卡洛(SMC)的引导、基于价值的采样和分类器引导——旨在近似软最优去噪过程(即强化学习中的策略),将预训练的去噪过程与价值函数结合,作为前瞻函数,从中间状态预测终极奖励。 在此框架下,我们提出了几种在文献中尚未涉及的新算法。此外,我们还讨论了:(1)结合推理时技术的微调方法,(2)基于搜索算法(如蒙特卡洛树搜索)的推理时算法,这些方法在当前研究中关注较少,以及(3)语言模型和扩散模型中推理时算法的联系。本教程中关于蛋白质设计的代码可在 https://github.com/masa-ue/AlignInversePro 获取。 关键词:扩散模型,推理时对齐,基于模型的优化,强化学习,分类器引导,序贯蒙特卡洛,树搜索,蛋白质设计
介绍
扩散模型(Sohl-Dickstein et al., 2015;Ho et al., 2020;Song et al., 2020)在计算机视觉领域取得了显著成功,特别是在生成连续领域(如图像)(Rombach et al., 2022)的生成模型方面。这一成功进一步扩展到科学领域,如蛋白质三维结构生成(Yim et al., 2023;Watson et al., 2023;Chu et al., 2024;Abramson et al., 2024)和小分子三维结构生成(Xu et al., 2022;Jing et al., 2022;Corso et al., 2022)。此外,近期的研究(Shi et al., 2024;Sahoo et al., 2024;Lou et al., 2023)表明,在离散领域中,扩散模型相较于传统自回归模型也取得了有希望的结果。基于自然语言处理(NLP)领域的进展,扩散模型的使用也被探索用于生成生物序列(如蛋白质、RNA 和 DNA),这些序列本质上是非因果的,因为它们折叠成复杂的三级(3D)结构(Campbell et al., 2024;Sarkar et al., 2024;Winnifrith et al., 2024;Wang et al., 2024)。 控制生成是扩散模型研究中的一个关键主题。在“基础模型”的背景下,过程通常从在大规模数据集上训练条件扩散模型开始,以生成基于基本功能的自然设计(例如,生物学上合理的蛋白质序列)。在预训练阶段之后,重点通常转向优化特定的下游奖励函数,这通常被称为 AI 中的“对齐”问题。通过在推理时引导生成以最大化给定的奖励(例如,蛋白质序列中的结合亲和力或稳定性),扩散模型可以有效地作为强大的计算设计框架。同样,在推理时根据目标属性进行条件化被视为一个奖励最大化任务,其中奖励通常通过分类器定义。 在本教程中,我们旨在探索扩散模型中的推理时控制生成技术及其基础特性。这些技术旨在无缝地将基于大规模数据集训练的预训练生成模型与奖励模型结合,如图1所示。具体而言,在预训练的扩散模型中的每个生成步骤中,引入某些修改以优化下游奖励函数,如图2所总结。此类方法的一个显著优势是,它们不需要对扩散模型进行后训练,这通常会消耗大量计算资源。最简单的这种方法是图2a中的“最佳-N采样”,该方法涉及从预训练的扩散模型生成多个设计(N个样本),并根据奖励函数(例如,Nakano et al. (2021))选择最佳样本。然而,当奖励函数难以优化时,这种方法可能效率较低。更高效的复杂策略包括图2b中的分类器引导及其变种(Dhariwal and Nichol, 2021;Song et al., 2021),图2c中的基于序贯蒙特卡洛的方法(Wu et al., 2024;Dou and Song, 2024;Cardoso et al., 2023;Phillips et al., 2024),以及图2d中的基于价值的采样方法(Li et al., 2024)。 在深入探讨推理时技术的细节之前,我们首先在介绍部分提供本教程的简要概述。我们首先强调推理时方法相较于后训练方法的优势,后者也能实现控制生成。接下来,我们概述了推理时控制生成所需的关键组件。最后,我们对本工作中涵盖的推理时技术提供了全面的概述。
推理时技术与后训练方法
在预训练之后,控制生成有两种主要方法:推理时技术(即,不需要微调扩散模型)和后训练方法,如基于强化学习(RL)的微调(Black et al., 2023;Fan et al., 2023;Clark et al., 2023;Uehara et al., 2024)或基于无分类器引导的微调(Ho 和 Salimans, 2022;Zhang et al., 2023)。在本文中,我们主要聚焦于回顾推理时技术。对于后一种方法的全面概述,我们建议读者参考 Uehara et al. (2024)。尽管这两种方法都很重要,推理时技术通常具有以下几个优势:
选择推理时技术的关键考虑因素
在本文中,我们根据以下特征对当前的推理时技术进行了分类:
总结
考虑到这些方面,我们提供了对当前扩散模型推理时技术的统一分类,同时也突出了新的视角。本教程的核心信息总结如下。
此外,我们还探讨了推理时方法在扩散模型中的更高级应用,包括与微调、搜索算法、编辑以及在超出扩散框架的掩蔽语言模型中的应用的集成。教程的其余部分组织如下: