作者丨薛洁婷
学校丨北京交通大学硕士生
研究方向丨图像翻译
但是 Pix2Pix 存在的问题是由于在训练模型时使用原域-目标域一对一映射而导致模型的多样性很差,随后 Jun-Yan Zhu 等人提出了 BicycleGAN [2] 来解决这一问题,BicycleGAN 通过引入潜层编码,约束输出和潜层编码的双射一致性来提高模型的多样性,其架构如图 3 所示。
BicycleGAN 结合了 cVAE-GAN 以及 cLR-GAN 来约束输出和潜层编码的双射一致性,其中 cVAE-GAN 在生成器中加入了目标域图像 B 的潜层编码信息来辅助图像翻译,并通过 KL 损失强迫潜层信息满足高斯分布从而最终在测试时直接从高斯分布中采样即可生成多样的输出结果。
但该模型存在的问题是 KL 损失难以优化导致最终采样有困难,cLR-GAN 是在生成器中引入满足高斯分布的潜层变量来提高模型多样性,该模型存在的问题是由于生成器中的潜层变量的随机采样的,因此生成结果不一定和目标域图像 B 一致,也就是完全忽略了成对图像带来的优势。因此作者结合了两个模型来取长补短,最终提高翻译效果。
有监督的图像翻译模型存在的最大问题是现实情况中压根没有那么多的成对数据集来帮助训练,因此最近有越来越多的基于无监督的图像翻译模型被提出,其中最为经典的就是 CycleGAN [3],其设计了循环一致性来代替之前的重建损失从而实现图像翻译。
作者定义了两个生成器 G 和 F,两个鉴别器 Dx 和 Dy,生成器 G 的目的是将 X 域的图像转化为 Y 域,而 F 的目的是将 Y 域的图像转化为 X 域,其中鉴别器 Dx 是用于判断由 F 生成的 X 域图像是否是 X 域内的真实图像,Dy 是判断由 G 生成的 Y 域图像是否是 Y 域内的真实图像,模型架构如图 4 所示。
▲ 图4. CycleGAN架构
▲ 图5. DRIT架构
点击以下标题查看更多往期内容:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 获取更多论文推荐