大型文本到图像生成模型在生成性AI中已经取得了突破性的发展,扩散模型展现了根据输入文本提示合成令人信服的图像的惊人能力。图像编辑研究的目标是通过修改文本提示来赋予用户对生成图像的控制。目前的图像编辑技术容易在目标区域之外的区域,例如背景或与目标对象具有某种语义或视觉关系的干扰物体上,发生无意的修改。根据我们的实验发现,不准确的交叉注意图是这个问题的根源。基于这一观察,我们提出了动态提示学习(Dynamic Prompt Learning, DPL)以强制交叉注意图集中于文本提示中的正确名词词汇。通过使用所提出的漏洞修复损失更新文本输入中的名词的动态代币,我们实现了对特定对象的细粒度图像编辑,同时防止了对其他图像区域的不希望的变化。我们的方法DPL基于公开可用的稳定扩散(Stable Diffusion)进行了广泛的评估,在大量图像上一致获得了优越的结果,无论是量化(CLIP得分,Structure-Dist)还是定性(用户评估)都是如此。我们展示了对于词汇交换(Word-Swap)、提示细化(Prompt Refinement)和注意力重新加权(Attention Re-weighting),尤其是在复杂的多对象场景中,改进了的提示编辑结果。

https://www.zhuanzhi.ai/paper/6d05c294e2563ab4ba741b13341a1e14

成为VIP会员查看完整内容
17

相关内容

【EMNLP2023】基于文本属性异构图的语言模型预训练
专知会员服务
20+阅读 · 2023年10月21日
【KDD2023教程】用文本编辑模型的快速文本生成, 190页ppt
专知会员服务
24+阅读 · 2023年8月10日
【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练
专知会员服务
29+阅读 · 2023年4月25日
专知会员服务
38+阅读 · 2021年5月16日
【KDD2020】图神经网络生成式预训练
专知
20+阅读 · 2020年7月3日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
131+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
326+阅读 · 2023年3月31日
Arxiv
111+阅读 · 2023年3月24日
VIP会员
相关基金
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2017年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
22+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员