ECCV2022 Oral｜无需前置条件的自动着色算法 - 专知

会员服务 ·

0

ECCV2022 Oral｜无需前置条件的自动着色算法

2022 年 7 月 16 日 极市平台

↑ 点击蓝字关注极市平台

作者丨白乌鸦@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/540726540

编辑丨极市平台

极市导读

本文将介绍一个无需前置条件即可自动着色的算法，实现了目前最好的着色效果，性能在所有指标上打败了标准的CNN colorization方法以及Google在ICLR2021提出的方法。 >>加入极市CV技术交流群，走在计算机视觉的最前沿

论文过段时间会挂到实验室主页上，代码很快也会开源。

实验室主页： https://ci.idm.pku.edu.cn/

模型介绍

我们造了一个自动着色的Transformer模型，以color tokens作为辅助，实现了目前最好的着色效果。这里说的color tokens来自于经典工作《colorful image colorization》（CIC）中量化ab color space的思路，我们将每个格子都当做一个token，借助position embedding得到格子之间的位置关系，从而获得color token的颜色相对关系（离得远的色差大，否则小），从而设计一系列模块来引导color token监督着色。

这里可视化一下我们的Pipeline，可以看到基本上不需要对transformer结构做太多魔改，只需要依靠我们设计的Luminance-selecting module, Color Attention和Color query等模块，依靠ab color space中颜色分布的先验知识，就可以实现好的着色性能。

我们的模型不需要任何前置条件（例如目标检测主要着色物体，或者先用inversion GAN生成个参考图像），就能生成正确颜色语义和丰富饱和度的图像。因为没有前置条件的需求，所以使用场景更广（例如不受限于检测器可以检测的目标的类别，以及GAN可以生成的图像的类别）。

实验结果

下面是我们的分数和user study，我们对比了标准的CNN colorization方法，以及Google在ICLR2021提出的第一个colorization transformer，最终性能在所有指标上都打过了他们；我们额外比较了一些热门的图像修复算法，但显然专门为colorization设计的算法性能更优；我们还比较了著名的预训练模型MAE，并把colorization当做他的一个下游任务来finetune，但他在这个任务上看起来也不是很聪明的样子。

下面展示一些修复老照片的结果

然后是一些灰白图像上色的结果

公众号后台回复“ 项目实践 ”获取50+CV项目实践机会～

△点击卡片关注极市平台，获取最新CV干货

极市干货

最新数据集资源：医学图像开源数据集汇总（二）

技术解读：一文打尽NMS技术的种种｜这是一篇对YOLOv7的详细解读和剖析

极视角动态：青岛日报专访｜极视角陈振杰：创业的每一个决定都要经得起逻辑推演｜启动报名｜2022GCVC全球人工智能视觉产业与技术大会，7月22日青岛见！

# 极市原创作者激励计划 #

极市平台深耕CV开发者领域近5年，拥有一大批优质CV开发者受众，覆盖微信、知乎、B站、微博等多个渠道。通过极市平台，您的文章的观点和看法能分享至更多CV开发者，既能体现文章的价值，又能让文章在视觉圈内得到更大程度上的推广。

对于优质内容开发者，极市可推荐至国内优秀出版社合作出书，同时为开发者引荐行业大牛，组织个人分享交流会，推荐名企就业机会，打造个人品牌 IP。

投稿须知：

1. 作者保证投稿作品为自己的原创作品。

2. 极市平台尊重原作者署名权，并支付相应稿费。文章发布后，版权仍属于原作者。

3.原作者可以将文章发在其他平台的个人账号，但需要在文章顶部标明首发于极市平台

投稿方式：

添加小编微信Fengcall（微信号：fengcall19），备注：姓名-投稿

△长按添加极市平台小编

“

点击阅读原文进入CV社区

收获更多技术干货

登录查看更多

0

相关内容

Color

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

专知会员服务

11+阅读 · 2022年4月10日

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知会员服务

18+阅读 · 2022年2月26日

【ICLR2022】序列生成的目标侧数据增强

【ICLR2022】序列生成的目标侧数据增强

专知会员服务

23+阅读 · 2022年2月14日

【NeurIPS2021】用于物体检测的实例条件知识蒸馏

【NeurIPS2021】用于物体检测的实例条件知识蒸馏

专知会员服务

20+阅读 · 2021年11月10日

[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测（有源码）

专知会员服务

18+阅读 · 2021年5月8日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

ECCV 2022 Oral | 无需微调即可泛化！RegAD：少样本异常检测新框架

ECCV 2022 Oral | 无需微调即可泛化！RegAD：少样本异常检测新框架

极市平台

3+阅读 · 2022年8月3日

CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

PaperWeekly

1+阅读 · 2022年6月11日

ICLR 2022 | 无需训练！As-ViT：自动扩展视觉Transformer

ICLR 2022 | 无需训练！As-ViT：自动扩展视觉Transformer

CVer

0+阅读 · 2022年4月15日

CVPR 2022 | 南大提出：Structured Sparse R-CNN：单阶段端到端场景图生成器

CVPR 2022 | 南大提出：Structured Sparse R-CNN：单阶段端到端场景图生成器

CVer

0+阅读 · 2022年4月13日

两张照片就能转视频！Google提出FLIM帧插值模型

两张照片就能转视频！Google提出FLIM帧插值模型

新智元

1+阅读 · 2022年3月11日

北大/港大/百度提出CAE：自监督学习新范式！用于SSL的上下文自动编码器

北大/港大/百度提出CAE：自监督学习新范式！用于SSL的上下文自动编码器

CVer

0+阅读 · 2022年2月21日

ICLR 2022 Oral | 港大和商汤开源CycleMLP：用于检测与分割任务的MLP架构

ICLR 2022 Oral | 港大和商汤开源CycleMLP：用于检测与分割任务的MLP架构

CVer

0+阅读 · 2022年2月16日

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

专知

19+阅读 · 2020年5月24日

目标检测中边界框的回归策略

目标检测中边界框的回归策略

极市平台

17+阅读 · 2019年9月8日

边界框的回归策略搞不懂？算法太多分不清？看这篇就够了

边界框的回归策略搞不懂？算法太多分不清？看这篇就够了

AI100

10+阅读 · 2019年9月4日

基于相似性的图像特征逆向学习算法与应用

国家自然科学基金

0+阅读 · 2013年12月31日

具有参数不变性质的几何逼近算法和误差控制的研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向低质量图像数据的低秩判别迁移子空间特征抽取研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图理论的图像结构量化描述及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

适用于移动视频分享的数据压缩与质量评价新方法

国家自然科学基金

0+阅读 · 2013年12月31日

欠采样相关图像集重建理论与算法

国家自然科学基金

0+阅读 · 2013年12月31日

弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法

国家自然科学基金

0+阅读 · 2012年12月31日

声纹识别中合成语音的鲁棒性研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于小波变换的仿射不变形状表示算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于核、正则化与多目标优化技术的多标签分类算法及其应用研究

国家自然科学基金

1+阅读 · 2008年12月31日

SeRP: Self-Supervised Representation Learning Using Perturbed Point Clouds

SeRP: Self-Supervised Representation Learning Using Perturbed Point Clouds

Arxiv

0+阅读 · 2022年9月13日

TokenCut: Segmenting Objects in Images and Videos with Self-supervised Transformer and Normalized Cut

TokenCut: Segmenting Objects in Images and Videos with Self-supervised Transformer and Normalized Cut

Arxiv

0+阅读 · 2022年9月13日

Smoothed Contrastive Learning for Unsupervised Sentence Embedding

Arxiv

0+阅读 · 2022年9月12日

Unsupervised Learning of 3D Scene Flow with 3D Odometry Assistance

Arxiv

0+阅读 · 2022年9月11日

An Improved Lightweight YOLOv5 Model Based on Attention Mechanism for Face Mask Detection

Arxiv

0+阅读 · 2022年9月11日

Invariant Information Bottleneck for Domain Generalization

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

Commonsense Knowledge Base Completion with Structural and Semantic Context

Commonsense Knowledge Base Completion with Structural and Semantic Context

Arxiv

20+阅读 · 2019年12月19日

VIP会员

相关主题

词元分析器

相关VIP内容

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

专知会员服务

11+阅读 · 2022年4月10日

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

ICLR 2022 | BEIT论文解读：将MLM无监督预训练应用到CV领域

专知会员服务

33+阅读 · 2022年3月24日

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

【CVPR 2022】基于Transformer的图象风格化，StyTr2: Image Style Transfer with Transformers

专知会员服务

11+阅读 · 2022年3月19日

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

AAAI 2022 | 基于预训练-微调框架的图像差异描述任务

专知会员服务

18+阅读 · 2022年2月26日

【ICLR2022】序列生成的目标侧数据增强

【ICLR2022】序列生成的目标侧数据增强

专知会员服务

23+阅读 · 2022年2月14日

【NeurIPS2021】用于物体检测的实例条件知识蒸馏

【NeurIPS2021】用于物体检测的实例条件知识蒸馏

专知会员服务

20+阅读 · 2021年11月10日

[CVPR 2021] 基于傅里叶轮廓嵌入的任意形状文本检测（有源码）

专知会员服务

18+阅读 · 2021年5月8日

近期必读的5篇顶会CVPR 2021【图像/视频描述生成】相关论文和代码

专知会员服务

48+阅读 · 2021年4月25日

CVPR 2021｜无需干净图像的自监督图像降噪

专知会员服务

39+阅读 · 2021年3月29日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

热门VIP内容

开通专知VIP会员享更多权益服务

《在单一作战合成环境（SSE）中运用人工智能与大型语言模型以提供灵活人文地形及可信角色组》报告

《俄罗斯的未来战争方式第二部分：核威慑》报告

《提示战争：大语言模型如何决定军事干预》报告

《俄罗斯的未来战争方式第三部分：军事改革》报告

相关资讯

ECCV 2022 Oral | 无需微调即可泛化！RegAD：少样本异常检测新框架

ECCV 2022 Oral | 无需微调即可泛化！RegAD：少样本异常检测新框架

极市平台

3+阅读 · 2022年8月3日

CVPR 2022 | 元学习在图像回归任务的表现

CVPR 2022 | 元学习在图像回归任务的表现

PaperWeekly

1+阅读 · 2022年6月11日

ICLR 2022 | 无需训练！As-ViT：自动扩展视觉Transformer

ICLR 2022 | 无需训练！As-ViT：自动扩展视觉Transformer

CVer

0+阅读 · 2022年4月15日

CVPR 2022 | 南大提出：Structured Sparse R-CNN：单阶段端到端场景图生成器

CVPR 2022 | 南大提出：Structured Sparse R-CNN：单阶段端到端场景图生成器

CVer

0+阅读 · 2022年4月13日

两张照片就能转视频！Google提出FLIM帧插值模型

两张照片就能转视频！Google提出FLIM帧插值模型

新智元

1+阅读 · 2022年3月11日

北大/港大/百度提出CAE：自监督学习新范式！用于SSL的上下文自动编码器

北大/港大/百度提出CAE：自监督学习新范式！用于SSL的上下文自动编码器

CVer

0+阅读 · 2022年2月21日

ICLR 2022 Oral | 港大和商汤开源CycleMLP：用于检测与分割任务的MLP架构

ICLR 2022 Oral | 港大和商汤开源CycleMLP：用于检测与分割任务的MLP架构

CVer

0+阅读 · 2022年2月16日

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

论文推荐| [CVPR 2020 Oral] ABCNet:基于自适应贝塞尔曲线的实时端到端自然场景文字检测及识别网络（附代码）

专知

19+阅读 · 2020年5月24日

目标检测中边界框的回归策略

目标检测中边界框的回归策略

极市平台

17+阅读 · 2019年9月8日

边界框的回归策略搞不懂？算法太多分不清？看这篇就够了

边界框的回归策略搞不懂？算法太多分不清？看这篇就够了

AI100

10+阅读 · 2019年9月4日

相关基金

基于相似性的图像特征逆向学习算法与应用

国家自然科学基金

0+阅读 · 2013年12月31日

具有参数不变性质的几何逼近算法和误差控制的研究

国家自然科学基金

0+阅读 · 2013年12月31日

面向低质量图像数据的低秩判别迁移子空间特征抽取研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于图理论的图像结构量化描述及应用研究

国家自然科学基金

0+阅读 · 2013年12月31日

适用于移动视频分享的数据压缩与质量评价新方法

国家自然科学基金

0+阅读 · 2013年12月31日

欠采样相关图像集重建理论与算法

国家自然科学基金

0+阅读 · 2013年12月31日

弱监督条件下RGB-D时序图像的语义分割模型与迁移学习算法

国家自然科学基金

0+阅读 · 2012年12月31日

声纹识别中合成语音的鲁棒性研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于小波变换的仿射不变形状表示算法研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于核、正则化与多目标优化技术的多标签分类算法及其应用研究

国家自然科学基金

1+阅读 · 2008年12月31日

相关论文

SeRP: Self-Supervised Representation Learning Using Perturbed Point Clouds

SeRP: Self-Supervised Representation Learning Using Perturbed Point Clouds

Arxiv

0+阅读 · 2022年9月13日

TokenCut: Segmenting Objects in Images and Videos with Self-supervised Transformer and Normalized Cut

TokenCut: Segmenting Objects in Images and Videos with Self-supervised Transformer and Normalized Cut

Arxiv

0+阅读 · 2022年9月13日

Smoothed Contrastive Learning for Unsupervised Sentence Embedding

Arxiv

0+阅读 · 2022年9月12日

Unsupervised Learning of 3D Scene Flow with 3D Odometry Assistance

Arxiv

0+阅读 · 2022年9月11日

An Improved Lightweight YOLOv5 Model Based on Attention Mechanism for Face Mask Detection

Arxiv

0+阅读 · 2022年9月11日

Invariant Information Bottleneck for Domain Generalization

Invariant Information Bottleneck for Domain Generalization

Arxiv

15+阅读 · 2021年12月10日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Contrastive Triple Extraction with Generative Transformer

Arxiv

13+阅读 · 2021年2月4日

Contrastive Clustering

Arxiv

31+阅读 · 2020年9月21日

Commonsense Knowledge Base Completion with Structural and Semantic Context

Commonsense Knowledge Base Completion with Structural and Semantic Context

Arxiv

20+阅读 · 2019年12月19日

大家都在搜

大型语言模型

生成式人工智能

无人机系统

蓝牙安全攻防

朱克爱德华兹家族

精排模型-从MLP到行为序列：DIN、DIEN、MIMN、SIM、DSIN

微信扫码咨询专知VIP会员