NVIDIA/悉尼科技大学/澳洲国立大学新作:用GAN生成高质量行人图像,辅助行人重识别

2019 年 5 月 21 日 极市平台

加入极市专业CV交流群,与6000+来自腾讯,华为,百度,北大,清华,中科院等名企名校视觉开发者互动交流!更有机会与李开复老师等大牛群内互动!

同时提供每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流点击文末“阅读原文”立刻申请入群~


作者 | 郑哲东(Layumi1993) 

https://blog.csdn.net/Layumi1993/article/details/90257375 

已获作者授权,请勿二次转载


今天要介绍的论文是英伟达NVIDIA,悉尼科技大学UTS,澳大利亚国立大学ANU在CVPR19上的Oral文章, Joint Discriminative and Generative Learning for Person Re-identification.


本文生成了高质量的行人图像,将其与行人重识别模型融合,来达到高质量行人生成图像辅助行人重识别训练,提升行人重识别精度的目标。


论文链接:https://arxiv.org/abs/1904.07223

B 站视频: 

https://www.bilibili.com/video/av51439240/

腾讯视频:


Why: (之前论文的痛点有哪些?)

  • 之前工作生成的行人图像质量相对低。(主要体现在两点:1.行人不够真实[1,2],图像模糊[4],背景不真实[3]; 2.需要额外的人体骨架或者属性标注[3,4] )

  • 若使用这些数据来训练行人重识别模型,会引入一些bias。故之前的工作,要么设计smooth的loss [1,2],要么需要训练一个生成图像的模型做融合[3],要么就是完全不用生成的图像去训练[4]。

  • 同时,由于数据集的限制,行人重识别的训练集数据量一般在2W左右,远小于ImageNet等数据集,容易过拟合的问题也一直没有很好解决。


What: (这篇论文提出了什么,解决了什么问题)

  • 不需要额外标注(如pose,attribute,keypoints等),就能生成高质量行人图像。通过交换提取出的特征,来实现两张行人图像的外表互换。这些外表都是训练集中真实存在的变化,而不是随机噪声。




  • 不需要part matching来提升行人重识别的结果。只是让模型看更多训练样本。给定N张图像,可以生成NxN的训练图像来训练。(下图第一行和第一列为真实图像输入,其余都为生成图像)



  • 将生成器中的Encoder 换成reID的模型。通过将reID的特征提供给Decoder,来提升生成质量。同时生成的图像再feed back 给Encoder来微调Encoder。


How:(这篇文章是怎么达到这个目标)

  • 特征的定义:

    在本文中,我们首先定义了两种特征。一种为外表特征,一种为结构特征。外表特征与行人的ID相关,结构特征与low-level的视觉特征相关。


  • 生成的部分:

1.同ID重构:相同人不同照片的appearance code应该是相同的。如下图,

我们可以有一个自我重构的loss(上方,类似auto-encoder),还可以用同ID的postive sample来构建生成图像。这里我们用了pixel-level的L1 Loss。



2.不同ID生成:这是最关键的部分。给定两张输入图像,我们可以交换他们的appearance 和 structure code来生成有意思的两个输出,如下图。对应的损失有: 维持真实性的GAN Loss, 生成图像还能重构出对应的a/s的特征重构损失。


我们的网络中没有随机的部分,所以生成图像的变化都是来自训练集本身。故更接近原始的训练集。



  • reID的部分:

    对于真实图像,我们仍旧使用分类的cross entropy loss。

    对于生成图像,我们使用了两个loss,一个为L_{prime},通过训好的baseline模型当老师,来提供生成图像的soft label,最小化预测结果和老师模型的KL距离。另一个loss,来挖掘一些图像变了appearance后,仍保留的细节信息,为L_{fine}。(具体细节可以见论文。)



Results:

  • 定性指标:

1.外表互换,我们在三个数据集上测试了结果,可以看到对于遮挡/大的光照变化,我们的方法都相对鲁棒。



2.外表插值。网络是不是记住了生成图像的样子。故我们做了一个逐渐改变appearance的实验,可以看到外表是逐渐并且smooth地改变的。



3.失败的案例。不常见的图案如logo无法还原。



  • 定量指标:

4.生成图像的真实度(FID)和多样性(SSIM)比较。FID越小越好,SSIM越大越好。



5.在多个数据集上的reID结果 (Market-1501, DukeMTMC-reID, MSMT17, CUHK03-NP)。



附:视频Demo

B 站视频备份: https://www.bilibili.com/video/av51439240/

腾讯视频备份: https://v.qq.com/x/page/t0867x53ady.html


最后,感谢大家看完。因为我们也处在初步尝试和探索阶段,所以不可避免地会对一些问题思考不够全面。如果大家发现有不清楚的地方,欢迎提出宝贵意见并与我们一起讨论,谢谢!


参考文献

[1] Z. Zheng, L. Zheng, and Y. Yang. Unlabeled samples generated by gan improve the person re-identification baseline in vitro. ICCV, 2017.

[2] Y. Huang, J. Xu, Q. Wu, Z. Zheng, Z. Zhang, and J. Zhang. Multi-pseudo regularized label for generated samples in person reidentification. TIP, 2018.

[3] X. Qian, Y. Fu, T. Xiang, W. Wang, J. Qiu, Y. Wu, Y.-G. Jiang, and X. Xue. Pose-normalized image generation for person reidentification. ECCV, 2018.

[4] Y. Ge, Z. Li, H. Zhao, G. Yin, X. Wang, and H. Li. Fd-gan: Pose-guided feature distilling gan for robust person re-identification. In NIPS, 2018.


作者简介

本文的第一作者郑哲东是悉尼科技大学计算机科学学院的博士生,预计2021年 6 月毕业。该论文是其在英伟达实习期间的成果。


郑哲东目前已经发表8篇论文。其中一篇为ICCV17 spotlight,被引用超过了300次。首次提出了利用GAN生成的图像辅助行人重识别的特征学习。一篇TOMM期刊论文被Web of Science选为2018年高被引论文,被引用超过200次。同时,他还为社区贡献了行人重识别问题的基准代码,在Github上star超过了1000次,被广泛采用。


另外,论文的其他作者包括英伟达研究院的视频领域专家 - 杨晓东、人脸领域专家禹之鼎(Sphere Face,LargeMargin作者)、行人重识别专家郑良博士,郑哲东的导师杨易教授(今年有三篇 CVPR oral 中稿)、和英伟达研究院的VP Jan Kautz等。


郑哲东个人网站:http://zdzheng.xyz/





*延伸阅读



点击左下角阅读原文”,即可申请加入极市目标跟踪、目标检测、工业检测、人脸方向、视觉竞赛等技术交流群,更有每月大咖直播分享、真实项目需求对接、干货资讯汇总,行业技术交流,一起来让思想之光照的更远吧~



觉得有用麻烦给个在看啦~  

登录查看更多
4

相关内容

行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。 由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性 ,外观易受穿着、尺

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等
专知会员服务
108+阅读 · 2020年5月21日
【CVPR2020】MSG-GAN:用于稳定图像合成的多尺度梯度GAN
专知会员服务
28+阅读 · 2020年4月6日
姿势服装随心换-CVPR2019
专知会员服务
34+阅读 · 2020年1月26日
【论文推荐】小样本视频合成,Few-shot Video-to-Video Synthesis
专知会员服务
23+阅读 · 2019年12月15日
基于深度学习的行人重识别研究进展,自动化学报
专知会员服务
38+阅读 · 2019年12月5日
已删除
将门创投
7+阅读 · 2019年10月10日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
CMU论文解读:基于GAN和VAE的跨模态图像生成
PaperWeekly
9+阅读 · 2018年8月20日
StarGAN-多领域图像翻译
CreateAMind
4+阅读 · 2017年12月26日
独家 | 基于深度学习的行人重识别研究综述
AI科技评论
11+阅读 · 2017年12月20日
行人对齐+重识别网络(论文解读)
极市平台
7+阅读 · 2017年10月11日
VIP会员
相关资讯
已删除
将门创投
7+阅读 · 2019年10月10日
PTGAN for Person Re-Identification
统计学习与视觉计算组
4+阅读 · 2018年9月10日
CMU论文解读:基于GAN和VAE的跨模态图像生成
PaperWeekly
9+阅读 · 2018年8月20日
StarGAN-多领域图像翻译
CreateAMind
4+阅读 · 2017年12月26日
独家 | 基于深度学习的行人重识别研究综述
AI科技评论
11+阅读 · 2017年12月20日
行人对齐+重识别网络(论文解读)
极市平台
7+阅读 · 2017年10月11日
Top
微信扫码咨询专知VIP会员