We introduce Palette, a simple and general framework for image-to-image translation using conditional diffusion models. On four challenging image-to-image translation tasks (colorization, inpainting, uncropping, and JPEG decompression), Palette outperforms strong GAN and regression baselines, and establishes a new state of the art. This is accomplished without task-specific hyper-parameter tuning, architecture customization, or any auxiliary loss, demonstrating a desirable degree of generality and flexibility. We uncover the impact of using $L_2$ vs. $L_1$ loss in the denoising diffusion objective on sample diversity, and demonstrate the importance of self-attention through empirical architecture studies. Importantly, we advocate a unified evaluation protocol based on ImageNet, and report several sample quality scores including FID, Inception Score, Classification Accuracy of a pre-trained ResNet-50, and Perceptual Distance against reference images for various baselines. We expect this standardized evaluation protocol to play a critical role in advancing image-to-image translation research. Finally, we show that a single generalist Palette model trained on 3 tasks (colorization, inpainting, JPEG decompression) performs as well or better than task-specific specialist counterparts.


翻译:我们引入了Palette, 这是一个使用有条件的传播模型进行图像到图像翻译的简单和一般框架。 在四项具有挑战性的图像到图像翻译任务(彩色化、油漆、不编织和JPEG decompression)中,Palette优于强大的GAN和回归基线,并建立了新的艺术状态。这是在没有特定任务超参数调、结构定制或任何辅助损失的情况下实现的,显示了一个理想的普遍性和灵活性。我们发现在排除图像到图像多样性的传播目标中使用$_2美元相对于$1美元损失的影响,并通过经验性结构研究表明自我关注的重要性。重要的是,我们倡导基于图像网络的统一评价协议,并报告若干样本质量评分,包括FID、概念评分、预先培训的ResNet-50的分类准确性,以及相对于各种基线参考图像的感官距离。我们期望这一标准化评估协议在推进图像到图像化翻译研究方面发挥关键作用。最后,我们展示了在3项任务上经过更好培训的单一一般的图像到图像模型模型,或者对等任务进行更好的分析。

6
下载
关闭预览

相关内容

图像修复(英语:Inpainting)指重建的图像和视频中丢失或损坏的部分的过程。例如在博物馆中,这项工作常由经验丰富的博物馆管理员或者艺术品修复师来进行。数码世界中,图像修复又称图像插值或视频插值,指利用复杂的算法来替换已丢失、损坏的图像数据,主要替换一些小区域和瑕疵。
专知会员服务
47+阅读 · 2021年4月24日
专知会员服务
52+阅读 · 2020年9月7日
【Google】平滑对抗训练,Smooth Adversarial Training
专知会员服务
48+阅读 · 2020年7月4日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
164+阅读 · 2020年3月18日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
条件GAN重大改进!cGANs with Projection Discriminator
CreateAMind
8+阅读 · 2018年2月7日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
gan生成图像at 1024² 的 代码 论文
CreateAMind
4+阅读 · 2017年10月31日
Adversarial Variational Bayes: Unifying VAE and GAN 代码
CreateAMind
7+阅读 · 2017年10月4日
Arxiv
0+阅读 · 2022年1月13日
Arxiv
4+阅读 · 2019年11月21日
Arxiv
11+阅读 · 2018年5月13日
VIP会员
Top
微信扫码咨询专知VIP会员