Image colorization has been attracting the research interests of the community for decades. However, existing methods still struggle to provide satisfactory colorized results given grayscale images due to a lack of human-like global understanding of colors. Recently, large-scale Text-to-Image (T2I) models have been exploited to transfer the semantic information from the text prompts to the image domain, where text provides a global control for semantic objects in the image. In this work, we introduce a colorization model piggybacking on the existing powerful T2I diffusion model. Our key idea is to exploit the color prior knowledge in the pre-trained T2I diffusion model for realistic and diverse colorization. A diffusion guider is designed to incorporate the pre-trained weights of the latent diffusion model to output a latent color prior that conforms to the visual semantics of the grayscale input. A lightness-aware VQVAE will then generate the colorized result with pixel-perfect alignment to the given grayscale image. Our model can also achieve conditional colorization with additional inputs (e.g. user hints and texts). Extensive experiments show that our method achieves state-of-the-art performance in terms of perceptual quality.


翻译:图像上色技术在过去几十年一直是研究界热议的话题。然而,由于缺乏类人的整体颜色理解能力,现有方法仍然无法提供令人满意的彩色效果。最近,研究者开始利用大规模文本到图像(Text-to-Image,T2I)模型将从文本输入中提取的语义信息转移到图像中,其中文本提供了全局控制语义对象在图像中的位置的手段。本文介绍了一种基于附带于 T2I 扩散模型之上的上色模型。我们的主要思想是利用预先训练的 T2I 扩散模型中的颜色先验知识以实现写实且多样化的上色效果。我们设计了一个扩散引导器,以整合潜在扩散模型的预训练权重,输出符合灰度输入的视觉语义的潜在颜色先验。然后,我们运用一种轻度感知的矢量量化自编码器生成精准对齐给定灰度图像的上色结果。我们的模型还能够实现带附加输入(例如用户提示和文本)的有条件化上色。大量实验表明,我们的方法在感知质量方面达到了最先进水平。

0
下载
关闭预览

相关内容

【CVPR2023】面向自监督视觉表示学习的混合自编码器
专知会员服务
25+阅读 · 2023年4月3日
KDD 2022 | GraphMAE:自监督掩码图自编码器
专知会员服务
20+阅读 · 2022年7月14日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
SRGAN论文笔记
统计学习与视觉计算组
109+阅读 · 2018年4月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Arxiv
0+阅读 · 2023年6月5日
Arxiv
16+阅读 · 2021年3月2日
Exploring Visual Relationship for Image Captioning
Arxiv
15+阅读 · 2018年9月19日
VIP会员
相关VIP内容
【CVPR2023】面向自监督视觉表示学习的混合自编码器
专知会员服务
25+阅读 · 2023年4月3日
KDD 2022 | GraphMAE:自监督掩码图自编码器
专知会员服务
20+阅读 · 2022年7月14日
Keras François Chollet 《Deep Learning with Python 》, 386页pdf
专知会员服务
154+阅读 · 2019年10月12日
【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用
专知会员服务
41+阅读 · 2019年10月9日
相关资讯
vae 相关论文 表示学习 1
CreateAMind
12+阅读 · 2018年9月6日
SRGAN论文笔记
统计学习与视觉计算组
109+阅读 · 2018年4月12日
【推荐】全卷积语义分割综述
机器学习研究会
19+阅读 · 2017年8月31日
Generative Adversarial Text to Image Synthesis论文解读
统计学习与视觉计算组
13+阅读 · 2017年6月9日
相关基金
国家自然科学基金
0+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
1+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
0+阅读 · 2011年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2008年12月31日
Top
微信扫码咨询专知VIP会员