本文介绍了第一个用于文本到图像扩散模型中提示优化的基于梯度的框架。我们将提示工程表述为一个在语言空间中的离散优化问题。有效解决这个问题会遇到两个主要挑战:(1)庞大的域空间:将域设定为整个语言空间会对优化过程带来显著困难。(2)文本梯度:高效计算文本梯度具有挑战性,因为它需要通过扩散模型的推理步骤和不可微分的嵌入查找表进行反向传播。除了问题的表述外,我们的主要技术贡献在于解决上述挑战。首先,我们设计了一种动态生成的紧凑子空间家族,仅包含与用户输入最相关的词,大大限制了域空间。其次,我们引入了“快捷文本梯度”——一种可以在恒定内存和运行时间内获得的有效替代文本梯度的方法。对来自不同来源(DiffusionDB、ChatGPT、COCO)的提示进行的实证评估表明,我们的方法可以发现显著提高(提示增强)或破坏(对抗攻击)文本到图像扩散模型生成图像的真实性的提示。