【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题 - 专知VIP

会员服务 ·

10

NeurIPS 2023 · 提示学习 · 生成式人工智能 · 扩散模型 ·

2023 年 9 月 30 日

【NeurIPS 2023】动态提示学习:解决基于文本的图像编辑中的交叉注意力泄漏问题

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

大型文本到图像生成模型在生成性AI中已经取得了突破性的发展，扩散模型展现了根据输入文本提示合成令人信服的图像的惊人能力。图像编辑研究的目标是通过修改文本提示来赋予用户对生成图像的控制。目前的图像编辑技术容易在目标区域之外的区域，例如背景或与目标对象具有某种语义或视觉关系的干扰物体上，发生无意的修改。根据我们的实验发现，不准确的交叉注意图是这个问题的根源。基于这一观察，我们提出了动态提示学习（Dynamic Prompt Learning, DPL）以强制交叉注意图集中于文本提示中的正确名词词汇。通过使用所提出的漏洞修复损失更新文本输入中的名词的动态代币，我们实现了对特定对象的细粒度图像编辑，同时防止了对其他图像区域的不希望的变化。我们的方法DPL基于公开可用的稳定扩散（Stable Diffusion）进行了广泛的评估，在大量图像上一致获得了优越的结果，无论是量化（CLIP得分，Structure-Dist）还是定性（用户评估）都是如此。我们展示了对于词汇交换（Word-Swap）、提示细化（Prompt Refinement）和注意力重新加权（Attention Re-weighting），尤其是在复杂的多对象场景中，改进了的提示编辑结果。

https://www.zhuanzhi.ai/paper/6d05c294e2563ab4ba741b13341a1e14

成为VIP会员查看完整内容

19

相关内容

NeurIPS 2023

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【KDD2023教程】用文本编辑模型的快速文本生成, 190页ppt

【KDD2023教程】用文本编辑模型的快速文本生成, 190页ppt

专知会员服务

27+阅读 · 2023年8月10日

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

专知会员服务

31+阅读 · 2023年6月7日

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

专知会员服务

34+阅读 · 2023年3月8日

“小”标记图数据如何学习？KDD2022最新《图最小监督学习》教程，125页ppt阐述图学习的弱监督学习、少样本学习和自监督学习

“小”标记图数据如何学习？KDD2022最新《图最小监督学习》教程，125页ppt阐述图学习的弱监督学习、少样本学习和自监督学习

专知会员服务

56+阅读 · 2022年8月20日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【斯坦福Chelsea Finn】元学习:从少样本自适应到发现对称性

【斯坦福Chelsea Finn】元学习:从少样本自适应到发现对称性

专知会员服务

21+阅读 · 2021年3月4日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知

5+阅读 · 2023年4月4日

华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型

华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型

机器之心

0+阅读 · 2022年11月29日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知

1+阅读 · 2022年11月26日

GNN如何分布式？中科院综述《图神经网络分布式训练》

GNN如何分布式？中科院综述《图神经网络分布式训练》

图与推荐

5+阅读 · 2022年11月16日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

灵活栅格光网络中可虚拟化光收发器资源提供机制及性能研究

国家自然科学基金

0+阅读 · 2017年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

2+阅读 · 2014年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

VIP会员

相关主题

生成式人工智能

相关VIP内容

【EMNLP2023】基于文本属性异构图的语言模型预训练

【EMNLP2023】基于文本属性异构图的语言模型预训练

专知会员服务

22+阅读 · 2023年10月21日

【KDD2023教程】用文本编辑模型的快速文本生成, 190页ppt

【KDD2023教程】用文本编辑模型的快速文本生成, 190页ppt

专知会员服务

27+阅读 · 2023年8月10日

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

【KDD2023】基于大型图谱语料库的图感知语言模型预训练可以帮助多种图应用,12页pdf

专知会员服务

31+阅读 · 2023年6月7日

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

【CVPR2023】GeoLayoutLM:视觉信息提取的几何预训练

专知会员服务

32+阅读 · 2023年4月25日

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

CNN如何剪枝？A*STAR最新《深度卷积神经网络结构化剪枝》综述，22页pdf阐述深度CNN结构化剪枝的最新进展

专知会员服务

34+阅读 · 2023年3月8日

“小”标记图数据如何学习？KDD2022最新《图最小监督学习》教程，125页ppt阐述图学习的弱监督学习、少样本学习和自监督学习

“小”标记图数据如何学习？KDD2022最新《图最小监督学习》教程，125页ppt阐述图学习的弱监督学习、少样本学习和自监督学习

专知会员服务

56+阅读 · 2022年8月20日

【CVPR2021教程】深度学习中的归一化技术:方法、分析和应用

专知会员服务

42+阅读 · 2021年6月21日

【CVPR2021】密集对比学习的自监督视觉预训练

专知会员服务

39+阅读 · 2021年5月16日

【斯坦福Chelsea Finn】元学习:从少样本自适应到发现对称性

【斯坦福Chelsea Finn】元学习:从少样本自适应到发现对称性

专知会员服务

21+阅读 · 2021年3月4日

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

【CVPR2020-Oral-计算所-旷视】学习用于语义分割的动态路由，Learning Dynamic Routing

专知会员服务

27+阅读 · 2020年3月24日

热门VIP内容

开通专知VIP会员享更多权益服务

《美国海军陆战队软件定义网络应用案例：分布式防火墙自动化系统》148页

《多体环境下定位导航授时（PNT）系统研究》228页

软件定义无线电（SDR）：商业与军事领域的技术、应用及未来趋势

《攻势防空作战中无人追击者/规避者最优轨迹研究（含动态交战区建模）》95页

相关资讯

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

【CVPR2023】Vita-CLIP:通过多模态提示的视频和文本自适应CLIP

专知

5+阅读 · 2023年4月11日

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

【CVPR2023】基于图像特定提示学习的零样本生成模型自适应

专知

5+阅读 · 2023年4月8日

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

预训练模型如何用在视觉任务？南洋理工最新《视觉语言模型》综述，全面概述视觉语言模型方法体系

专知

5+阅读 · 2023年4月4日

华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型

华南理工TANGO项目原作解读: 文本驱动的三维物体风格化模型

机器之心

0+阅读 · 2022年11月29日

【AAAI2023】对比掩码自动编码器的自监督视频哈希

【AAAI2023】对比掩码自动编码器的自监督视频哈希

专知

1+阅读 · 2022年11月26日

GNN如何分布式？中科院综述《图神经网络分布式训练》

GNN如何分布式？中科院综述《图神经网络分布式训练》

图与推荐

5+阅读 · 2022年11月16日

【KDD2020】图神经网络生成式预训练

【KDD2020】图神经网络生成式预训练

专知

22+阅读 · 2020年7月3日

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

【CVPR2020】L2 ^GCN：图卷积网络的分层学习高效训练

专知

12+阅读 · 2020年3月31日

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

【Google AI新论文】REALM:检索增强语言模型预训练，QA的SOTA提升4-16%准确性

专知

12+阅读 · 2020年2月12日

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

【学界】CVPR 2019 | 基于级联语义引导下的多通道注意力选择图像翻译

GAN生成式对抗网络

10+阅读 · 2019年8月17日

相关基金

间接优化的高效Monte Carlo声传播研究

国家自然科学基金

0+阅读 · 2017年12月31日

灵活栅格光网络中可虚拟化光收发器资源提供机制及性能研究

国家自然科学基金

0+阅读 · 2017年12月31日

数据驱动的非刚体几何模型注册新方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

材料与加工敏感的形状分析与建模

国家自然科学基金

0+阅读 · 2015年12月31日

基于对称识别方法的贝叶斯probit模型稳健性研究

国家自然科学基金

3+阅读 · 2015年12月31日

云计算下的加密域多媒体水印与模式匹配

国家自然科学基金

1+阅读 · 2015年12月31日

面向大数据的安全迁移学习方法

国家自然科学基金

28+阅读 · 2015年12月31日

自由视点三维视频中纹理-深度图像联合建模及应用

国家自然科学基金

0+阅读 · 2015年12月31日

项目知识情境提取与展现方法研究：基于主题模型和知识地图的大数据视角

国家自然科学基金

2+阅读 · 2014年12月31日

大数据环境下基于GMDH的客户分类半监督集成模型研究

国家自然科学基金

1+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

171+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

A Comprehensive Survey on Deep Graph Representation Learning

Arxiv

103+阅读 · 2023年4月11日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

216+阅读 · 2023年4月7日

A Survey on Graph Diffusion Models: Generative AI in Science for Molecule, Protein and Material

Arxiv

81+阅读 · 2023年4月4日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

476+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

147+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

173+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

84+阅读 · 2023年3月21日

微信扫码咨询专知VIP会员