作者丨郑哲东
学校丨悉尼科技大学
研究方向丨行人重识别
全球计算机视觉顶级会议 IEEE CVPR 2019 即将于六月在美国长滩召开,本届大会总共录取来自全球论文 1300 篇。CVPR 作为计算机视觉领域级别最高的研究会议,其录取论文代表了计算机视觉领域在 2019 年最新和最高的科技水平以及未来发展潮流。CVPR 官网显示,今年有超过 5160 篇的大会论文投稿,录取了 1300 篇论文,比去年增长了 32.7%(2018 年论文录取 979 篇)。
悉尼科技大学杨易教授组共有 8 篇论文被本届 CVPR 大会接收,其中包括口头报告论文 4 篇(Oral录取率为 288/5160 = 5.58%)。 录取论文在以下领域实现进展:行人重识别/生成,迁移学习,网络结构搜索,图像生成,网络压缩。
论文:https://arxiv.org/abs/1904.07223
▲ CVPR 19 行人重识别
行人重识别的难点在于不同摄像头下人的类内变化(包括摄像头的视角/光照/人的姿态等)。本文没有使用任何部件匹配的损失,而是仅仅让模型去“看”更多的训练图像来提升行人重识别的效果。而这些训练图像都是由 GAN 生成的。
相比于 ICCV 2017 时第一篇使用 GAN 来生成行人图像的文章 [1],本文不仅在生成图像质量上有了大的提升,同时也将行人重识别的模型与生成模型做了有机的结合。从行人重识别模型提取好的行人特征可以作为 GAN 的 input vector,而 GAN 生成图像可以用来 finetune 行人重识别模型。
[1] Zheng, Zhedong, Liang Zheng, and Yi Yang. "Unlabeled samples generated by gan improve the person re-identification baseline in vitro." In ICCV 2017.
论文:https://arxiv.org/abs/1809.09478
源码:https://github.com/RoyalVane/CLAN
基于深度学习的语义分割方法效果出众,但需要大量的人工标注进行监督训练。借助于计算机虚拟图像技术,如 3D 游戏,可以获得几乎无限的自动标注数据。然而虚拟图像和现实图像间存在严重的视觉差异(域偏移),导致训练出的模型在真实图像数据集上的分割精度很低。
传统方法利用对抗训练减少源域(S)和目标域(T)不同分布之间的差异,以加强网络在域间的泛化能力。然而该类方法只能对齐全局特征分布,忽略了同语义特征之间的语义一致性,在训练过程中容易造成负迁移。
针对这一难点,作者采用了 Co-training + Adversarial Training 的方式,使用两个互斥分类器,根据分类器预测的差值来估计源域和目标域中特征的局部语义对齐程度,以此动态计算针对每类特征的对抗损失权重,解决了域适应语义分割中的语义不一致性问题和负迁移问题。
论文:https://arxiv.org/abs/1811.00250
源码:https://github.com/he-y/filter-pruning-geometric-median
本文提出了新的基于滤波器的几何中心(geometric median)的剪枝算法,来对神经网络进行压缩和加速。现有的剪枝算法普遍认为,范数(Lp-norm)小的滤波器可以被去掉而不影响网络性能。
由此对滤波器的范数有两个要求,一是滤波器范数分布的标准差要大,二是最小的范数要足够小。但是实际的经过预训练神经网络模型并不满足这两个要求,这导致一些重要的滤波器被错误地剪掉,影响了性能。
本文从几何的角度出发,认为滤波器的几何中心含有所有滤波器共同的信息,因此临近几何中心的滤波器是可以被去掉的。这种新的剪枝方法,打破了以前的剪枝算法对滤波器范数的要求,提高了剪枝算法的适应性和并且取得了更好的性能。
论文:https://arxiv.org/abs/1904.01310
基于文本生成图片是近年来新兴的研究领域。当前的方法首先生成比较粗糙的初始图像,然后再优化图像从而生成高分辨率的真实图像。
然而,目前大多数方法仍存在两个问题:(1)当前方法的结果很大程序上取决于初始图像的质量。(2)每个单词对于不同的图片内容都有不同的信息量,但当前方法在两个阶段中仍然保持了相同的单词重要性,导致生成的图像不能反映准确的语义信息。
在本工作中,我们提出动态记忆生成对抗网络(DM-GAN)来生成高质量的图片。我们提出了一个动态记忆模块来优化粗糙的初始图像,即使初始图像生成不良,它也可以生成高质量的图像。DM-GAN 还包括一个基于初始图像选择重要文本信息的记忆写入门和一个自适应融合图片特征和文本信息的反馈门,从而驱动生成的图像反映准确的文本语义信息。
我们在 COCO 和 CUB 数据集上评估了我们的模型。实验结果表明,我们的方法在 FID 和 IS 指标以及真实性上都超过了当前方法。
论文:https://arxiv.org/abs/1904.01990
源码:https://github.com/zhunzhong07/ECN
在跨数据集的场景下,行人再识别模型的性能往往会受到极大的影响,尤其在源数据集和目标数据集差异很大的情况下。当前主流的方法主要通过降低两个数据集之间的特征分布差异以提升模型对新数据集的鲁棒性。然而,这些方法忽略了目标数据集的域内变化,这些变化中包含了影响目标域性能的重要因素。
本篇工作针对目标数据集提出了三种潜在的域内不变性(样例不变性,相机不变性和邻域不变性)。与此同时,作者提出了一个基于样例的记忆模块,使得在模型训练过程中能够有效的引入提出的三种不变性限制。实验表明,该方法在三个行人再识别跨数据集场景下取得了当前最好的结果,并大大的超过了现有的方法。
论文:https://github.com/D-X-Y/GDAS/blob/master/data/GDAS.pdf
神经网络搜索(neural architecture search, NAS)是现在非常热门并且具有挑战性的一个方向。目前大部分 NAS 方法都是基于强化学习或者遗传算法,需要消耗海量的 GPU 资源。这篇论文提出了一种利用可微网络结构采样器的基于梯度的搜索方法(Gradient-based search using Differentiable Architecture Sampler,GDAS)能够有效地减少搜索的GPU资源消耗。
GDAS 将整个搜索空间用一个有向无环图(DAG)来表示。针对这个 DAG,GDAS 设计了一个可微的采样器,GDAS 在训练集上优化 DAG 内每个网络结构的参数,在验证集上优化这个可微的神经网络采样器。实验表明,在一个 GPU 上,通过几个小时的搜索时间,GDAS 就可以在 CIFAR-10 数据集上找到一个高性能的网络结构。
论文:https://arxiv.org/abs/1904.03895
基于强化学习的室内导航是最近的热点问题。机器人从室内随机一点出发,根据指令到达目标位置。由于 3D 重建的数据集相比于计算机图形学渲染的虚拟数据集采集较难而且数据量较小,这篇论文提出了一个端到端的模型,通过迁移学习的方法将虚拟数据集上的强化学习策略迁移到真实数据集上。
论文从对抗学习和模仿学习两方面,分别完成了对底层图像特征和高维强化策略的迁移任务,并获得了比原有方法高 20% 以上的提升。
论文:https://arxiv.org/abs/1901.00976
无监督域适应旨在利用带标签源域数据和无标签目标域数据,获得在目标域数据上的优良的预测性能。以往的方法在消除域差异的过程中没有充分利用类别信息,导致对齐错误,影响泛化性能。
为了解决这些问题,这篇文章提出了新的域差异度量指标 “对比域差异” 来刻画类内和类间域差异,并且提出 “对比适应网络” 来优化这个指标。我们设计了新的类感知采样方法,采用交替更新的方式端到端地优化我们的网络。我们在两个标准数据集上取得了比现有的方法更好的性能。
点击以下标题查看更多往期内容:
#投 稿 通 道#
让你的论文被更多人看到
如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。
总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。
PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学习心得或技术干货。我们的目的只有一个,让知识真正流动起来。
📝 来稿标准:
• 稿件确系个人原创作品,来稿需注明作者个人信息(姓名+学校/工作单位+学历/职位+研究方向)
• 如果文章并非首发,请在投稿时提醒并附上所有已发布链接
• PaperWeekly 默认每篇文章都是首发,均会添加“原创”标志
📬 投稿邮箱:
• 投稿邮箱:hr@paperweekly.site
• 所有文章配图,请单独在附件中发送
• 请留下即时联系方式(微信或手机),以便我们在编辑发布时和作者沟通
🔍
现在,在「知乎」也能找到我们了
进入知乎首页搜索「PaperWeekly」
点击「关注」订阅我们的专栏吧
关于PaperWeekly
PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。
▽ 点击 | 阅读原文 | 获取最新论文推荐