CVPR 2019 开源论文 | 基于翻译向量的图像翻译

2019 年 10 月 13 日 PaperWeekly


作者丨薛洁婷

学校丨北京交通大学硕士生

研究方向丨图像翻译


图像翻译通常要解决两个问题:将原域图像翻译至目标域并且翻译后的图像和原域图像保持相似性。我们利用 GAN 可以很好的解决第一个问题,而针对第二个问题大多数模型都是通过限制生成器来实现,比如在生成器某层中使用跨域权重耦合或者设计循环一致性损失等。但是限制生成器可能不仅会影响模型的多样性而且还会阻止模型学习某些必要映射。


因此作者提出了利用三个网络来进行图像翻译:Generator, Discriminator 以及 Siamese,其中前两个网络主要解决将原域图像翻译至目标域的问题,Siamese 网络用于学习图像高级语义特征从而保证翻译后的图像与原域图像相似。




模型架构


TraVeLGAN 主要依赖于三个网络,其模型架构如图 1。其中 Generator 和 Discriminator 与之前大多数基于 GAN 的图像翻译模型类似,都是基于 U-Net 架构来将原域图像翻译至目标域图像,Siamese 网络用于提取图像的高级语义特征。


 图1. TraVeLGAN模型架构

对于 Siamese 网络而言其希望可以保证原域任意图像间的高级语义特征差:与对应翻译后图像间的高级语义特征差保持一致,即:



作者将定义为模型的翻译向量,这部分的损失函数如下。不同于 Generator 和 Discriminator 之间互相对抗的关系,这里的 Siamese 和 Generator 是互相协作的,它们都希望能最小化损失。



为了避免 Siamese 网络偏向于学习使损失为 0 的情况,其还必须保证每个点至少与潜在空间中的其他点相距 δ,即,因此模型整体的的损失函数如下,对于鉴别器而言其仅优化对抗损失即可。



实验结果


作者主要针对传统图像翻译模型经常采用的 Apples to oranges, Van Gogh to landscape photo, Sketch to shoe 等异构性不大的数据集进行对比实验,另外也选取了 ImageNet 中 abacus, crossword, volcano, jack-o-lantern 等异构性较大的数据集进行实验。


 图2. 相似域翻译的实验结果

对于相似域间的图像翻译效果的评估,作者使用了 SSIM 结构相似性来衡量,结果如表 1 所示,其中主要的对比实验是 CycleGAN 及其变种,可以看出对于相似域间的图像翻译 TraVeLGAN 可以达到和 CycleGAN 类似的效果,也就是我们完全可以不对生成器进行限制就能达到良好的翻译结果,如图 2 所示。


 表1. 相似域间的 SSIM 得分


对于强异构性的图像翻译,作者发现加入 Siamese 网络后 TraVeLGAN 可以学习到更高级的语义特征。如图 3 所示,TraVeLGAN 可以将算盘中的黑色珠子映射到填字游戏中的黑/白方块中,而 CycelGAN 仅能学习到将黑色珠子映射为白色方块,即在强异构性的图像翻译中 TraVeLGAN 比 CycelGAN 能产生更合理更多样的输出结果。


 图3. TraVeLGAN vs CycelGAN


由于强异构性域图像翻译的目标不再是希望翻译后的图像和原域图像相似,因此作者采用了 FID 得分以及鉴别器得分来衡量模型效果,由表 2 可以看出相比 CycelGAN 及其变种 TraVeLGAN 对于强异构性域的图像翻译效果更好,具体效果如图 4 所示。


 表2. 强异构型域间 FID 得分


 图4. 强异构性域间翻译效果


总结


目前绝大多数的无监督图像翻译都是通过限制生成器来保证翻译后图像与原域图像的相似性,而这种限制可能会影响模型的表达能力,限制其翻译的多样性。 作者发现加入 Siamese 网络可以帮助模型在 不损害原有翻译能力的前提下进行强异构型的图像翻译,并且能有效的指导生成器生成更加合理逼真的结果,这无疑为之后更加灵活的图像翻译模型设计提供了新的思路。




点击以下标题查看更多往期内容: 





#投 稿 通 道#

 让你的论文被更多人看到 



如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。


总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 


PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得技术干货。我们的目的只有一个,让知识真正流动起来。


📝 来稿标准:

• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向) 

• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接 

• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志


📬 投稿邮箱:

• 投稿邮箱:hr@paperweekly.site 

• 所有文章配图,请单独在附件中发送 

• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 下载论文 & 源码

登录查看更多
3

相关内容

CVPR 2020 最佳论文与最佳学生论文!
专知会员服务
35+阅读 · 2020年6月17日
近期必读的7篇 CVPR 2019【视觉问答】相关论文和代码
专知会员服务
35+阅读 · 2020年1月10日
必读的10篇 CVPR 2019【生成对抗网络】相关论文和代码
专知会员服务
32+阅读 · 2020年1月10日
八篇 ICCV 2019 【图神经网络(GNN)+CV】相关论文
专知会员服务
29+阅读 · 2020年1月10日
综述:基于GAN的图像翻译模型盘点
PaperWeekly
13+阅读 · 2019年9月2日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
CycleGAN:图片风格,想换就换 | ICCV 2017论文解读
PaperWeekly
12+阅读 · 2018年3月14日
GAN做图像翻译的一点总结
PaperWeekly
4+阅读 · 2017年12月26日
Arxiv
12+阅读 · 2019年4月9日
Arxiv
12+阅读 · 2019年1月24日
Arxiv
8+阅读 · 2018年5月1日
Arxiv
13+阅读 · 2018年4月6日
VIP会员
相关资讯
综述:基于GAN的图像翻译模型盘点
PaperWeekly
13+阅读 · 2019年9月2日
CVPR 2018 论文解读 | 基于GAN和CNN的图像盲去噪
PaperWeekly
13+阅读 · 2019年1月22日
生成对抗网络在图像翻译上的应用【附PPT与视频资料】
人工智能前沿讲习班
7+阅读 · 2018年11月28日
CycleGAN:图片风格,想换就换 | ICCV 2017论文解读
PaperWeekly
12+阅读 · 2018年3月14日
GAN做图像翻译的一点总结
PaperWeekly
4+阅读 · 2017年12月26日
Top
微信扫码咨询专知VIP会员