这篇论文是关于从一系列动作中学习产生一个物体(比如分子图)的随机策略的问题,这样产生一个物体的概率与该物体的给定的正回报成正比。尽管标准收益最大化倾向于收敛于单个收益最大化序列,但在某些情况下,我们希望抽样不同的高收益解决方案集。例如,在黑箱函数优化中,当可能的轮数很少时,每个批次都有大量的查询,这些查询的批次应该是不同的,例如,在新分子的设计中。人们也可以把这看作是一个将能量函数近似转化为生成分布的问题。虽然MCMC方法可以实现这一点,但它们的成本很高,而且通常只执行局部勘探。相反,生成式策略在训练过程中摊销了搜索成本,并让位于快速生成。利用来自时态差分学习的见解,我们提出了GFlowNet,基于将生成过程视为流动网络的观点,使其有可能处理不同轨迹可能产生相同最终状态的棘手情况,例如,有许多方法顺序添加原子来生成一些分子图。我们将轨迹集转换为一个流,并将流一致性方程转换为一个学习目标,类似于将Bellman方程转换为时间差分方法。我们证明了所提出的目标的任何全局最小值都能产生一个从期望分布中采样的策略,并在一个有许多模式的奖励函数的简单域和一个分子合成任务上证明了GFlowNet改进的性能和多样性。
https://www.zhuanzhi.ai/paper/5c1b11900fd1921ccfb9edcf7aea84d4