基于形状导向的内外部注意力扩散 (Shape-Guided Diffusion with Inside-Outside Attention) - 专知论文

会员服务 ·

0

塑造 · Attention · MoDELS · Prompt · HTTPS ·

2023 年 3 月 22 日

Shape-Guided Diffusion with Inside-Outside Attention

翻译：基于形状导向的内外部注意力扩散

Dong Huk Park,Grace Luo,Clayton Toste,Samaneh Azadi,Xihui Liu,Maka Karalashvili,Anna Rohrbach,Trevor Darrell

When manipulating an object, existing text-to-image diffusion models often ignore the shape of the object and generate content that is incorrectly scaled, cut off, or replaced with background content. We propose a training-free method, Shape-Guided Diffusion, that modifies pretrained diffusion models to be sensitive to shape input specified by a user or automatically inferred from text. We use a novel Inside-Outside Attention mechanism during the inversion and generation process to apply this shape constraint to the cross- and self-attention maps. Our mechanism designates which spatial region is the object (inside) vs. background (outside) then associates edits specified by text prompts to the correct region. We demonstrate the efficacy of our method on the shape-guided editing task, where the model must replace an object according to a text prompt and object mask. We curate a new ShapePrompts benchmark derived from MS-COCO and achieve SOTA results in shape faithfulness without a degradation in text alignment or image realism according to both automatic metrics and annotator ratings. Our data and code will be made available at https://shape-guided-diffusion.github.io.

翻译：在操作对象时，现有的文本到图像扩散模型经常忽略对象的形状，并生成缩放不正确，被截断或被替换成背景内容的内容。我们提出了一种无需训练的方法——基于形状导向的扩散，以修改预训练扩散模型，使其对用户指定的形状输入或从文本自动推断出敏感。我们在反演和生成过程中使用一种新的内外部注意力机制，将形状约束应用于交叉和自注意力映射。我们的机制指定了哪个空间区域是对象(内部)而哪个是背景(外部)，然后将文本提示指定的编辑与正确的区域关联。我们在形状导向的编辑任务中展示了我们的方法的有效性，其中模型必须根据文本提示和对象掩膜替换对象。我们从 MS-COCO 汇编了一个新的 ShapePrompts 基准，并实现了形状忠实度的 SOTA 结果，没有降低文本对齐或图像逼真度，根据自动度量和标注者评分。我们的数据和代码将在 https://shape-guided-diffusion.github.io 上提供。

0

相关内容

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【ICLR 2022】揭开机器学习系统的神秘面纱，用自然语言自动描述单个神经元在神经网络中的作用——MIT学者为你解读，Natural Language Descriptions of Deep Visual Features

【ICLR 2022】揭开机器学习系统的神秘面纱，用自然语言自动描述单个神经元在神经网络中的作用——MIT学者为你解读，Natural Language Descriptions of Deep Visual Features

专知会员服务

25+阅读 · 2022年3月12日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

专知会员服务

17+阅读 · 2020年8月23日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

12+阅读 · 2018年6月24日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

基于区域的目标检测——细粒度

基于区域的目标检测——细粒度

计算机视觉战队

14+阅读 · 2018年2月1日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

基于几何精确理论的大变形柔性多体系统动力学变分李群模型及算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于Vague软集GML和地标的定性空间位置描述

国家自然科学基金

0+阅读 · 2014年12月31日

具非线性边界源或加权反应项的扩散模型解的性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

氦在钨中扩散、融合和释放的多尺度模拟

国家自然科学基金

0+阅读 · 2013年12月31日

含聚醚链功能化N-杂环卡宾-金属配合物体系的设计合成及其催化硅氢加成反应性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉感知和形状语义的快速水平集图像分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

新型氟代HMG-CoA还原酶抑制剂的设计与合成

国家自然科学基金

0+阅读 · 2011年12月31日

托卡马克等离子体旋转和径向电场的物理机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

Janus纳米粒子在嵌段共聚物中的定向与协同自组装：有序超分子结构及其力学性能

国家自然科学基金

0+阅读 · 2011年12月31日

锰基单分子磁体合成与其基于Click反应的组装

国家自然科学基金

0+阅读 · 2009年12月31日

CLIP-Lite: Information Efficient Visual Representation Learning with Language Supervision

Arxiv

0+阅读 · 2023年5月11日

Multi-Task Learning based Video Anomaly Detection with Attention

Arxiv

0+阅读 · 2023年5月11日

Can SAM Boost Video Super-Resolution?

Arxiv

0+阅读 · 2023年5月11日

Super Vision Transformer

Arxiv

0+阅读 · 2023年5月10日

Structure-CLIP: Enhance Multi-modal Language Representations with Structure Knowledge

Arxiv

0+阅读 · 2023年5月6日

Adaptive Attentional Network for Few-Shot Knowledge Graph Completion

Arxiv

17+阅读 · 2020年10月19日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

VIP会员

文章信息

相关主题

相关VIP内容

百篇论文纵览大型语言模型最新研究进展

百篇论文纵览大型语言模型最新研究进展

专知会员服务

70+阅读 · 2023年3月31日

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

【斯坦福CVPR2022】EG3D:高效的几何感知三维生成对抗网络，EG3D: Efficient Geometry-aware 3D Generative Adversarial Networks

专知会员服务

18+阅读 · 2022年3月15日

【ICLR 2022】揭开机器学习系统的神秘面纱，用自然语言自动描述单个神经元在神经网络中的作用——MIT学者为你解读，Natural Language Descriptions of Deep Visual Features

【ICLR 2022】揭开机器学习系统的神秘面纱，用自然语言自动描述单个神经元在神经网络中的作用——MIT学者为你解读，Natural Language Descriptions of Deep Visual Features

专知会员服务

25+阅读 · 2022年3月12日

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

【CVPR 2022】使用多模态Transformer的端到端视频对象分割，End-to-End Referring Video Object Segmentation with Multimodal Transformer

专知会员服务

28+阅读 · 2022年3月3日

INRIA 最新《机器学习理论》课程笔记，176页pdf

专知会员服务

51+阅读 · 2020年12月14日

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

【ECCV2020】EfficientFCN：语义分割中的整体引导解码器

专知会员服务

17+阅读 · 2020年8月23日

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

【Google-Mila】你的GAN实际上是一个基于能量的模型，你应该使用鉴别器驱动的潜在采样，Your GAN is Secretly an Energy-based Model and You Should Use Discriminator Driven Latent Sampling

专知会员服务

30+阅读 · 2020年3月28日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

181+阅读 · 2019年10月11日

热门VIP内容

开通专知VIP会员享更多权益服务

【UCSD博士论文】可控且高效的视觉生成

构建具身智能新范式：人形机器人技术现状及发展趋势综述

中文版 | 美军引入AI指挥官“泰坦”推动国防技术转型

【ICML2025】《引入推理于视觉：通过模型融合理解感知与推理》

相关资讯

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

【代码资源】GAN | 七份最热GAN文章及代码分享（Github 1000+Stars）

专知

12+阅读 · 2018年6月24日

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

【论文推荐】最新五篇视觉问答相关论文—深度学习评价、交互注意融合、VizWiz、引导注意力、

专知

10+阅读 · 2018年6月8日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

【论文推荐】最新七篇图像分割相关论文—Attention U-Net、对抗结构匹配损失、卷积CRFs、对抗样本、弱监督分割

专知

19+阅读 · 2018年5月31日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

【论文推荐】最新六篇图像描述生成相关论文—视频摘要、注意力张量积、非自回归神经序列模型、副词识别、多主体、多样性度量

专知

10+阅读 · 2018年3月2日

基于区域的目标检测——细粒度

基于区域的目标检测——细粒度

计算机视觉战队

14+阅读 · 2018年2月1日

MoCoGAN 分解运动和内容的视频生成

MoCoGAN 分解运动和内容的视频生成

CreateAMind

18+阅读 · 2017年10月21日

相关论文

CLIP-Lite: Information Efficient Visual Representation Learning with Language Supervision

Arxiv

0+阅读 · 2023年5月11日

Multi-Task Learning based Video Anomaly Detection with Attention

Arxiv

0+阅读 · 2023年5月11日

Can SAM Boost Video Super-Resolution?

Arxiv

0+阅读 · 2023年5月11日

Super Vision Transformer

Arxiv

0+阅读 · 2023年5月10日

Structure-CLIP: Enhance Multi-modal Language Representations with Structure Knowledge

Arxiv

0+阅读 · 2023年5月6日

Adaptive Attentional Network for Few-Shot Knowledge Graph Completion

Arxiv

17+阅读 · 2020年10月19日

Multi-Label Text Classification using Attention-based Graph Neural Network

Arxiv

46+阅读 · 2020年3月22日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

Phase-aware Speech Enhancement with Deep Complex U-Net

Phase-aware Speech Enhancement with Deep Complex U-Net

Arxiv

15+阅读 · 2019年3月7日

Transferring Common-Sense Knowledge for Object Detection

Arxiv

12+阅读 · 2018年4月3日

相关基金

基于几何精确理论的大变形柔性多体系统动力学变分李群模型及算法

国家自然科学基金

0+阅读 · 2014年12月31日

基于Vague软集GML和地标的定性空间位置描述

国家自然科学基金

0+阅读 · 2014年12月31日

具非线性边界源或加权反应项的扩散模型解的性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

氦在钨中扩散、融合和释放的多尺度模拟

国家自然科学基金

0+阅读 · 2013年12月31日

含聚醚链功能化N-杂环卡宾-金属配合物体系的设计合成及其催化硅氢加成反应性能研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于视觉感知和形状语义的快速水平集图像分割方法研究

国家自然科学基金

1+阅读 · 2012年12月31日

新型氟代HMG-CoA还原酶抑制剂的设计与合成

国家自然科学基金

0+阅读 · 2011年12月31日

托卡马克等离子体旋转和径向电场的物理机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

Janus纳米粒子在嵌段共聚物中的定向与协同自组装：有序超分子结构及其力学性能

国家自然科学基金

0+阅读 · 2011年12月31日

锰基单分子磁体合成与其基于Click反应的组装

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员