港科大&MSRA新研究：关于图像到图像转换，Fine-tuning is all you need

会员服务 ·

港科大&MSRA新研究：关于图像到图像转换，Fine-tuning is all you need

2022 年 7 月 5 日 PaperWeekly

©作者 | 机器之心编辑部

来源 | 机器之心

在自然语言处理领域，网络微调已经取得了许多进展，现在这一思想延展到了图像到图像转换的领域。

许多内容制作项目需要将简单的草图转换为逼真的图片，这就涉及图像到图像的转换（image-to-image translation），它使用深度生成模型学习给定输入的自然图片的条件分布。

图像到图像转换的基本概念是利用预训练的神经网络来捕捉自然图片流形（manifold）。图像转换类似于遍历流形并定位可行的输入语义点。系统使用许多图片对合成网络进行预训练，以从其潜在空间的任何采样中提供可靠的输出。通过预训练的合成网络，下游训练将用户输入调整为模型的潜在表征。

多年来，我们已经看到许多特定于任务的方法达到了 SOTA 水平，但目前的解决方案还是难以创建用于实际使用的高保真图片。

在最近的一篇论文中，香港科技大学和微软亚洲研究院的研究者认为，对于图像到图像的转换，预训练才是 All you need。以往方法需要专门的架构设计，并从头开始训练单个转换模型，因而难以高质量地生成复杂场景，尤其是在配对训练数据不充足的情况下。

因此，研究者将每个图像到图像的转换问题视为下游任务，并引入了一个简单通用框架，该框架采用预训练的扩散模型来适应各种图像到图像的转换。他们将提出的预训练图像到图像转换模型称为 PITI（pretraining-based image-to-image translation）。此外，研究者还提出用对抗训练来增强扩散模型训练中的纹理合成，并与归一化指导采样结合以提升生成质量。

最后，研究者在 ADE20K、COCO-Stuff 和 DIODE 等具有挑战性的基准上对各种任务进行了广泛的实证比较，表明 PITI 合成的图像显示出了前所未有的真实感和忠实度。

论文标题：

Pretraining is All You Need for Image-to-Image Translation

论文链接：

https://arxiv.org/pdf/2205.12952.pdf

项目主页：

https://tengfei-wang.github.io/PITI/index.html

GAN已死，扩散模型永存

作者没有使用在特定领域表现最佳的 GAN，而是使用了扩散模型，合成了广泛多样的图片。其次，它应该从两种类型的潜在代码中生成图片：一种描述视觉语义，另一种针对图像波动进行调整。语义、低维潜在对于下游任务至关重要。否则，就不可能将模态输入转换为复杂的潜在空间。鉴于此，他们使用 GLIDE 作为预训练的生成先验，这是一种可以生成不同图片的数据驱动模型。由于 GLIDE 使用了潜在的文本，它允许语义潜在空间。

扩散和基于分数的方法表现出跨基准的生成质量。在类条件 ImageNet 上，这些模型在视觉质量和采样多样性方面与基于 GAN 的方法相媲美。最近，用大规模文本图像配对训练的扩散模型显示出惊人的能力。训练有素的扩散模型可以为合成提供通用的生成先验。

框架

作者可以使用前置（pretext）任务对大量数据进行预训练，并开发一个非常有意义的潜在空间来预测图片统计。

对于下游任务，他们有条件地微调语义空间以映射特定于任务的环境。该机器根据预先训练的信息创建可信的视觉效果。

作者建议使用语义输入对扩散模型进行预训练。他们使用文本条件、图像训练的 GLIDE 模型。Transformer 网络对文本输入进行编码，并为扩散模型输出 token。按照计划，文本嵌入空间是有意义的。

上图是作者的作品。与从头开始的技术相比，预训练模型提高了图片质量和多样性。由于 COCO 数据集具有众多类别和组合，因此基本方法无法通过引人注目的架构提供美观的结果。他们的方法可以为困难的场景创建具有精确语义的丰富细节。图片展示了他们方法的多功能性。

实验及影响

表 1 显示，该研究所提方法性能始终优于其他模型。与较为领先的 OASIS 相比，在掩码到图像合成方面，PITI 在 FID 方面获得了显著的改进。此外，该方法在草图到图像和几何到图像合成任务中也显示出良好的性能。

图 3 展示了该研究在不同任务上的可视化结果。实验可得，与从头开始训练的方法相比，预训练模型显著提高了生成图像的质量和多样性。该研究所用方法可以产生生动的细节和正确的语义，即使是具有挑战性的生成任务。

该研究还在 Amazon Mechanical Turk 上的 COCO-Stuff 上进行了一项关于掩码到图像合成的用户研究，获得了 20 名参与者的 3000 票。参与者一次会得到两张图片，并被要求选择一张更真实的进行投票。如表 2 所示，所建议的方法在很大程度上优于从零开始的模型和其他基线。

条件图像合成可创建符合条件的高质量图片。计算机视觉和图形学领域使用它来创建和操作信息。大规模预训练改进了图片分类、对象识别和语义分割。未知的是大规模预训练是否有利于一般生成任务。

能源使用和碳排放是图片预训练的关键问题。预训练是耗能的，但只需要一次。条件微调让下游任务可以使用相同的预训练模型。预训练允许用更少的训练数据训练生成模型，当数据由于隐私问题或昂贵的注释成本而受到限制时，可以提升图像合成效果。

原文链接：https://medium.com/mlearning-ai/finetuning-is-all-you-need-d1b8747a7a98#7015

更多阅读

#投稿通道#

让你的文字被更多人看到

如何才能让更多的优质内容以更短路径到达读者群体，缩短读者寻找优质内容的成本呢？答案就是：你不认识的人。

总有一些你不认识的人，知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁，促使不同背景、不同方向的学者和学术灵感相互碰撞，迸发出更多的可能性。

PaperWeekly 鼓励高校实验室或个人，在我们的平台上分享各类优质内容，可以是最新论文解读，也可以是学术热点剖析、科研心得或竞赛经验讲解等。我们的目的只有一个，让知识真正流动起来。

📝 稿件基本要求：

• 文章确系个人原创作品，未曾在公开渠道发表，如为其他平台已发表或待发表的文章，请明确标注

• 稿件建议以 markdown 格式撰写，文中配图以附件形式发送，要求图片清晰，无版权问题

• PaperWeekly 尊重原作者署名权，并将为每篇被采纳的原创首发稿件，提供业内具有竞争力稿酬，具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道：

• 投稿邮箱：hr@paperweekly.site

• 来稿请备注即时联系方式（微信），以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信（pwbot02）快速投稿，备注：姓名-投稿

△长按添加PaperWeekly小编

🔍

现在，在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

登录查看更多

相关内容

合成

关注 0

多模态图像合成与编辑这么火，马普所、南洋理工等出了份详细综述

专知会员服务

30+阅读 · 2022年8月24日

【CVPR 2022】可控图像合成与编辑的合成生成先验学习，SemanticStyleGAN: Learning Compositonal Generative Priors for Controllable Image Synthesis and Editing

专知会员服务

23+阅读 · 2022年3月3日

【斯坦福&Facebook】生成式对抗变换器，Generative Adversarial Transformers

专知会员服务

21+阅读 · 2021年4月21日

预训练语言模型fine-tuning近期进展概述

专知会员服务

40+阅读 · 2021年4月9日

最新《图像到图像转换:方法与应用》综述论文，19页pdf

专知会员服务

33+阅读 · 2021年1月25日

新杀器来了！Facebook AI提出DETR：用Transformers来进行端到端的目标检测

专知会员服务

51+阅读 · 2020年5月28日

图卷积神经网络蒸馏知识，Distillating Knowledge from GCN

专知会员服务

96+阅读 · 2020年3月25日

谷歌提出“T5” 新NLP模型，突破迁移学习局限，多基准测试达SOTA！

专知会员服务

41+阅读 · 2020年2月26日

【推荐论文】多通道注意力选择GAN的图像到图像转换，Multi-Channel Attention Selection GANs for Guided Image-to-Image Translation

专知会员服务

30+阅读 · 2020年2月6日

【ICIP2019教程-NVIDIA】图像到图像转换，附7份PPT下载

专知会员服务

55+阅读 · 2019年11月20日

港科大&MSRA新研究：关于图像到图像转换，Finetuning is all you need

机器之心

0+阅读 · 2022年6月30日

视频生成无需GAN、VAE，谷歌用扩散模型联合训练视频、图像，实现新SOTA

机器之心

1+阅读 · 2022年4月10日

谷歌提出MaskGIT：掩码生成图像Transformer

CVer

2+阅读 · 2022年3月21日

比MAE更强，FAIR新方法MaskFeat用HOG刷新多个SOTA

机器之心

0+阅读 · 2022年1月6日

视觉Transformer BERT预训练新方式：中科大、MSRA等提出PeCo，优于MAE、BEiT

机器之心

0+阅读 · 2021年12月3日

NLP大火的Prompt能用到其他领域吗？清华孙茂松组的CPT了解一下

PaperWeekly

0+阅读 · 2021年11月18日

NLP大火的prompt能用到其他领域吗？清华孙茂松组的 CPT 了解一下

机器之心

0+阅读 · 2021年11月17日

多模态中的Prompt范式：从CLIP、CoOp到CLIP-adapter

PaperWeekly

5+阅读 · 2021年11月3日

多项NLP任务新SOTA，Facebook提出预训练模型BART

机器之心

22+阅读 · 2019年11月4日

文本+视觉，多篇 Visual/Video BERT 论文介绍

AI科技评论

22+阅读 · 2019年8月30日

GPU加速和风格感知的艺术图像和谐克隆

国家自然科学基金

4+阅读 · 2014年12月31日

融合多尺度上下文的图像标注研究

国家自然科学基金

2+阅读 · 2013年12月31日

纳米银的致毒机制及毒性调控研究

国家自然科学基金

0+阅读 · 2013年12月31日

BK通道和TRPV1通道在小鼠海马神经元中的相互作用机制

国家自然科学基金

0+阅读 · 2013年12月31日

平方本征函数对称与随机矩阵

国家自然科学基金

0+阅读 · 2013年12月31日

序列加工机制对语言偏侧化的影响及其领域特殊性研究

国家自然科学基金

0+阅读 · 2013年12月31日

关于图的集控制问题研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于视频语义理解的艺术风格化研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于内容的流行音乐结构分析的研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于多微电极阵列的神经元网络学习模型建立及机制研究

国家自然科学基金

0+阅读 · 2008年12月31日

Exploiting Pre-trained Feature Networks for Generative Adversarial Networks in Audio-domain Loop Generation

Arxiv

0+阅读 · 2022年9月5日

Student Surpasses Teacher: Imitation Attack for Black-Box NLP APIs

Arxiv

0+阅读 · 2022年9月4日

VL-BEiT: Generative Vision-Language Pretraining

Arxiv

0+阅读 · 2022年9月3日

Extend and Explain: Interpreting Very Long Language Models

Arxiv

0+阅读 · 2022年9月2日

Multimodal Learning with Transformers: A Survey

Arxiv

69+阅读 · 2022年6月13日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

Deformable Style Transfer

Arxiv

14+阅读 · 2020年3月24日

UniViLM: A Unified Video and Language Pre-Training Model for Multimodal Understanding and Generation

Arxiv

19+阅读 · 2020年2月15日

Text Generation from Knowledge Graphs with Graph Transformers

Arxiv

35+阅读 · 2019年4月4日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

VIP会员