DDP: 基于扩散模型的密集视觉预测 (DDP: Diffusion Model for Dense Visual Prediction) - 专知论文

会员服务 ·

0

深度估计 · 分割 · 语义分割 · 噪声 · 基准 ·

2023 年 3 月 30 日

DDP: Diffusion Model for Dense Visual Prediction

翻译：DDP: 基于扩散模型的密集视觉预测

Yuanfeng Ji,Zhe Chen,Enze Xie,Lanqing Hong,Xihui Liu,Zhaoqiang Liu,Tong Lu,Zhenguo Li,Ping Luo

We propose a simple, efficient, yet powerful framework for dense visual predictions based on the conditional diffusion pipeline. Our approach follows a "noise-to-map" generative paradigm for prediction by progressively removing noise from a random Gaussian distribution, guided by the image. The method, called DDP, efficiently extends the denoising diffusion process into the modern perception pipeline. Without task-specific design and architecture customization, DDP is easy to generalize to most dense prediction tasks, e.g., semantic segmentation and depth estimation. In addition, DDP shows attractive properties such as dynamic inference and uncertainty awareness, in contrast to previous single-step discriminative methods. We show top results on three representative tasks with six diverse benchmarks, without tricks, DDP achieves state-of-the-art or competitive performance on each task compared to the specialist counterparts. For example, semantic segmentation (83.9 mIoU on Cityscapes), BEV map segmentation (70.6 mIoU on nuScenes), and depth estimation (0.05 REL on KITTI). We hope that our approach will serve as a solid baseline and facilitate future research

翻译：我们提出了一种基于条件扩散管道的简单，高效但功能强大的框架，用于密集视觉预测。我们的方法通过从随机高斯分布中逐步消除噪声（在图像的指导下），遵循“从噪声到地图”的生成范例进行预测。该方法称为 DDP，在现代感知管道中高效地扩展了去噪扩散过程。DDP 不需要针对任何特定任务的设计和架构定制，易于推广到大多数密集预测任务，例如语义分割和深度估计。此外，DDP 显示出一些优越的特性，例如动态推理和不确定性感知，与以前的单步判别方法相比。我们在六个不同基准测试任务中展示了三个典型任务的顶级结果。在不使用技巧的情况下，DDP 在每个任务上都与专业对手相比获得了最先进或有竞争力的性能。例如，语义分割（在 Cityscapes 上 83.9 mIoU），BEV 地图分割（在 nuScenes 上 70.6 mIoU）和深度估计（在 KITTI 上 0.05 REL）。我们希望我们的方法将作为坚实的基准，并有助于未来的研究。

0

相关内容

深度估计

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

视觉的有效扩散模型综述

视觉的有效扩散模型综述

专知会员服务

96+阅读 · 2022年10月20日

【CVPR2022】端到端实时矢量边缘提取（E2EC）

【CVPR2022】端到端实时矢量边缘提取（E2EC）

专知会员服务

16+阅读 · 2022年4月14日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

【CVPR2020】强化特征点，Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

【CVPR2020】强化特征点，Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

专知会员服务

49+阅读 · 2020年2月25日

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

机器之心

0+阅读 · 2022年11月14日

「高效视觉扩散模型」最新研究综述

「高效视觉扩散模型」最新研究综述

专知

8+阅读 · 2022年10月20日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

GJ的Ca2+传递引起钙稳态失衡诱导内质网应激在肝移植术后急性肾损伤中的作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

两类迁移扩散方程组的若干问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

具非线性边界源或加权反应项的扩散模型解的性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

自噬在内质网应激预处理保护脓毒症所致骨骼肌损伤中的作用及其机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

带跳扩散模型的非参数统计推断研究

国家自然科学基金

0+阅读 · 2013年12月31日

microRNA调节肿瘤抑制因子Caliban应答DNA损伤的机制

国家自然科学基金

1+阅读 · 2012年12月31日

小样本空间制图

国家自然科学基金

0+阅读 · 2012年12月31日

有限差分多尺度计算研究

国家自然科学基金

0+阅读 · 2012年12月31日

金字塔形氧化锌纳米阵列的调控制备及敏感性质研究

国家自然科学基金

0+阅读 · 2009年12月31日

SurgMAE: Masked Autoencoders for Long Surgical Video Analysis

Arxiv

0+阅读 · 2023年5月19日

Segment Anything Model for Medical Images?

Arxiv

1+阅读 · 2023年5月18日

DiffUTE: Universal Text Editing Diffusion Model

Arxiv

0+阅读 · 2023年5月18日

Learning Differentially Private Probabilistic Models for Privacy-Preserving Image Generation

Arxiv

0+阅读 · 2023年5月18日

Controllable Mind Visual Diffusion Model

Arxiv

0+阅读 · 2023年5月18日

Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models

Arxiv

0+阅读 · 2023年5月17日

Deep Generative Models on 3D Representations: A Survey

Arxiv

15+阅读 · 2022年10月27日

A Systematic Survey on Deep Generative Models for Graph Generation

Arxiv

18+阅读 · 2022年10月4日

Diffusion Models in Vision: A Survey

Arxiv

29+阅读 · 2022年9月10日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

VIP会员

文章信息

相关主题

相关VIP内容

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

【AAAI2023】用于复杂场景图像合成的特征金字塔扩散模型

专知会员服务

22+阅读 · 2022年12月5日

视觉的有效扩散模型综述

视觉的有效扩散模型综述

专知会员服务

96+阅读 · 2022年10月20日

【CVPR2022】端到端实时矢量边缘提取（E2EC）

【CVPR2022】端到端实时矢量边缘提取（E2EC）

专知会员服务

16+阅读 · 2022年4月14日

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

【CVPR2022】视频对比学习的概率表示，Probabilistic Representations for Video Contrastive Learning

专知会员服务

16+阅读 · 2022年4月11日

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

【CVPR 2022】多模态视频字幕的端到端生成预训练，End-to-end Generative Pretraining for Multimodal Video Captioning

专知会员服务

27+阅读 · 2022年3月3日

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

【干货书】深度学习合成数据，354页pdf，Synthetic Data for Deep Learning

专知会员服务

104+阅读 · 2022年2月10日

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

MonoGRNet：单目3D目标检测的通用框架（TPAMI2021）

专知会员服务

18+阅读 · 2021年5月3日

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

【CVPR2020】通过自适应GANs生成不同的图像，Diverse Image Generation via Self-Conditioned GANs

专知会员服务

34+阅读 · 2020年6月19日

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

【CVPR2020】视觉跟踪的概率回归，Probabilistic Regression for Visual Tracking

专知会员服务

37+阅读 · 2020年3月27日

【CVPR2020】强化特征点，Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

【CVPR2020】强化特征点，Reinforced Feature Points: Optimizing Feature Detection and Description for a High-Level Task

专知会员服务

49+阅读 · 2020年2月25日

热门VIP内容

开通专知VIP会员享更多权益服务

《小型无人机系统侦测追踪技术：声学、计算机视觉与深度学习融合方案》最新98页

《"牧羊人网格"拦截策略：实现无人机集群可靠拦截的新范式》

光纤无人机：反无人机系统的重大挑战

《作战建模与仿真实证研究》

相关资讯

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

Stable Diffusion采样速度翻倍！仅需10到25步的扩散模型采样算法

机器之心

0+阅读 · 2022年11月14日

「高效视觉扩散模型」最新研究综述

「高效视觉扩散模型」最新研究综述

专知

8+阅读 · 2022年10月20日

文本+视觉，多篇 Visual/Video BERT 论文介绍

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

强化学习的Unsupervised Meta-Learning

强化学习的Unsupervised Meta-Learning

CreateAMind

18+阅读 · 2019年1月7日

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

【泡泡一分钟】用于评估视觉惯性里程计的TUM VI数据集

泡泡机器人SLAM

11+阅读 · 2019年1月4日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

【论文推荐】最新四篇CVPR2018 视频描述生成相关论文—双向注意力、Transformer、重构网络、层次强化学习

专知

31+阅读 · 2018年6月4日

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

【论文推荐】最新六篇图像描述生成相关论文—字符级推断、视觉解释、语义对齐、实体感知、确定性非自回归

专知

15+阅读 · 2018年5月28日

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

【论文推荐】最新7篇变分自编码器（VAE）相关论文—汉语诗歌、生成模型、跨模态、MR图像重建、机器翻译、推断、合成人脸

专知

11+阅读 · 2018年2月12日

【推荐】全卷积语义分割综述

【推荐】全卷积语义分割综述

机器学习研究会

19+阅读 · 2017年8月31日

相关论文

SurgMAE: Masked Autoencoders for Long Surgical Video Analysis

Arxiv

0+阅读 · 2023年5月19日

Segment Anything Model for Medical Images?

Arxiv

1+阅读 · 2023年5月18日

DiffUTE: Universal Text Editing Diffusion Model

Arxiv

0+阅读 · 2023年5月18日

Learning Differentially Private Probabilistic Models for Privacy-Preserving Image Generation

Arxiv

0+阅读 · 2023年5月18日

Controllable Mind Visual Diffusion Model

Arxiv

0+阅读 · 2023年5月18日

Preserve Your Own Correlation: A Noise Prior for Video Diffusion Models

Arxiv

0+阅读 · 2023年5月17日

Deep Generative Models on 3D Representations: A Survey

Arxiv

15+阅读 · 2022年10月27日

A Systematic Survey on Deep Generative Models for Graph Generation

Arxiv

18+阅读 · 2022年10月4日

Diffusion Models in Vision: A Survey

Arxiv

29+阅读 · 2022年9月10日

Dense Contrastive Learning for Self-Supervised Visual Pre-Training

Arxiv

18+阅读 · 2021年4月4日

相关基金

大规模多视角高维图像特征提取

国家自然科学基金

3+阅读 · 2017年12月31日

GJ的Ca2+传递引起钙稳态失衡诱导内质网应激在肝移植术后急性肾损伤中的作用研究

国家自然科学基金

0+阅读 · 2015年12月31日

两类迁移扩散方程组的若干问题研究

国家自然科学基金

0+阅读 · 2013年12月31日

具非线性边界源或加权反应项的扩散模型解的性质研究

国家自然科学基金

0+阅读 · 2013年12月31日

自噬在内质网应激预处理保护脓毒症所致骨骼肌损伤中的作用及其机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

带跳扩散模型的非参数统计推断研究

国家自然科学基金

0+阅读 · 2013年12月31日

microRNA调节肿瘤抑制因子Caliban应答DNA损伤的机制

国家自然科学基金

1+阅读 · 2012年12月31日

小样本空间制图

国家自然科学基金

0+阅读 · 2012年12月31日

有限差分多尺度计算研究

国家自然科学基金

0+阅读 · 2012年12月31日

金字塔形氧化锌纳米阵列的调控制备及敏感性质研究

国家自然科学基金

0+阅读 · 2009年12月31日

微信扫码咨询专知VIP会员