近期必读的六篇 ECCV 2020【行人重识别(ReID)】相关论文

2020 年 8 月 4 日 专知
近期必读的六篇 ECCV 2020【行人重识别(ReID)】相关论文
【导读】作为计算机视觉领域三大会议之一,European Conference on Computer Vision(欧洲计算机视觉大会,ECCV) 备受全球领域众多专业人士关注。几天前,ECCV 2020官方发布接收论文,本次大会共有5025篇投稿,1361篇被接收,接受率27%。受疫情影响,原定于2020年8月23日-28日在英国格拉斯哥举行的ECCV 2020将会以Online方式进行。论文列表已经放出,小编发现行人重识别方向火热,录用了好多篇相关paper,近期一些Paper已经放出来了,为此专知小编整理了六篇ECCV 2020行人重识别(Person Re-identification,ReID)  相关论文供大家参考——无监督ReID、语义解析、跨域ReID、域自适应ReID

ECCV 2020 接受论文列表:
https://eccv2020.eu/accepted-papers/

ECCV2020OD ICML2020GNN_Part1 KDD2020GNN_Part1 CVPR2020SGNN CVPR2020GNN_Part2 CVPR2020GNN_Part1 WWW2020GNN_Part1 AAAI2020GNN ACMMM2019GNN CIKM2019GNN ICLR2020GNN

1、Appearance-Preserving 3D Convolution for Video-based Person Re-identification

作者:Xinqian Gu, Hong Chang, Bingpeng Ma, Hongkai Zhang, Xilin Chen

摘要:由于行人检测结果的不完善和姿态的变化,在基于视频的行人重识别(ReID)中时间表观不对齐(temporal appearance misalignment)是不可避免的。在这种情况下,3D卷积可能会破坏行人视频片段的表观表示,从而对ReID造成损害。针对这一问题,我们提出了表观保留三维卷积算法(Appearance-Preserving 3D Convolution, AP3D),它由表观保持模块(Appearance-Preserving Module, APM)和三维卷积核两部分组成。通过APM在像素级别上对齐相邻的特征图,后续的3D卷积可以在保持表观表示质量的前提下对时间信息进行建模。通过简单地用AP3D替换原始的3D卷积内核,可以很容易地将AP3D与现有的3D ConvNet相结合。大量的实验证明了AP3D对于基于视频的ReID的有效性,并且在三个广泛使用的数据集上的结果都超过了最新水平。

代码:

https://github.com/guxinqian/AP3D

网址:

https://arxiv.org/abs/2007.08434


2、Global Distance-distributions Separation for Unsupervised Person Re-identification

作者:Xin Jin, Cuiling Lan, Wenjun Zeng, Zhibo Chen

摘要:有监督行人重识别(ReID)在实际部署中由于领域差距和缺乏对目标域数据的标注,往往具有较差的可扩展性和可用性。领域自适应的无监督ReID是有吸引力的,但也是具有挑战性的。现有的无监督ReID方法往往不能通过基于距离的匹配/排序来正确识别正样本和负样本。正样本对(Pos-Distr)和负样本对(Neg-Distr)的两个距离分布通常有很大的重叠不能很好地分开。为了解决这个问题,我们在这两个分布上引入了全局距离分布分离(Global Distance-distributions Separation, GDS)约束,以鼓励从全局角度清晰地分离正样本和负样本。我们将两个全局距离分布建模为高斯分布,并将这两个分布分开,同时鼓励它们在无监督训练过程中保持锐化。具体地说,为了从全局角度对分布进行建模,并促进分布和GDS相关损失的及时更新,我们利用动量更新机制来构建和维护分布参数(均值和方差),并在训练期间动态计算损失。我们还提出了基于分布的难例挖掘,以进一步促进两种分布的分离。我们验证了GDS约束在无监督ReID网络中的有效性。在多个ReID基准数据集上的大量实验表明,我们的方法在基线的基础上有了显着的提高,并达到了最先进的性能。

网址:

https://arxiv.org/abs/2006.00752


3、Identity-Guided Human Semantic Parsing for Person Re-Identification

作者:Kuan Zhu, Haiyun Guo, Zhiwei Liu, Ming Tang, Jinqiao Wang

摘要:现有的alignment-based方法必须使用预先训练好的人类解析模型来实现像素级的比对,并且不能识别对个人ReID至关重要的个人物品(例如背包和网签)。在这篇论文中,我们提出了身份指导的人类语义解析方法(ISP),在只有身份标签的情况下,可以在像素级别定位人体部位和个人物品。我们在特征映射上设计了级联聚类(cascaded clustering)来生成人体部位的伪标签。具体地说,对于一个人的所有图像的像素,我们首先将其分组为前景或背景,然后将前景像素分组为人体部分。聚类分配(cluster assignments)随后被用作人体部件的伪标签来监督部件估计,ISP迭代地学习特征映射并对其进行分组。最后,根据自学习的部位估计得到人体部位和个人物品的局部特征,仅利用可见部位的特征进行检索。在三个广泛使用的数据集上的大量实验验证了ISP方法相对于许多最新方法的优越性。

代码:

https://github.com/CASIA-IVA-Lab/ISP-reID

网址:

https://arxiv.org/abs/2007.13467


4、Joint Disentangling and Adaptation for Cross-Domain Person Re-Identification

作者:Yang Zou, Xiaodong Yang, Zhiding Yu, B.V.K. Vijaya Kumar, Jan Kautz

摘要:尽管有监督行人再识别(re-id)已经取得了很大的进展,但由于存在巨大的领域差距,将re-id模型推广到新的领域仍然具有挑战性。最近,人们对使用无监督的域自适应来解决这一问题的兴趣与日俱增。现有的方法通常在既包含id相关因素又包含id无关因素的表示空间上进行自适应,从而不可避免地削弱了id相关特征的适应效果。在本文中,我们试图通过提炼要适应的表示空间来提高适应性。为此,我们提出了一个联合学习框架,该框架将id-相关/无关的特征分离开来,并且强制适应以单独地在与id相关的特征空间上工作。我们的模型包括一个将跨域图像编码到一个共享表观空间和两个独立结构空间的分解(disentangling)模块,以及一个在共享表观空间上执行对抗对齐和自训练的自适应模块。这两个模块经过联合设计,互相提升。大量的实验表明,所提出的联合学习框架在性能上明显优于最新的方法。

网址:

https://arxiv.org/abs/2007.10315


5、Multiple Expert Brainstorming for Domain Adaptive Person Re-identification

作者:Yunpeng Zhai, Qixiang Ye, Shijian Lu, Mengxi Jia, Rongrong Ji, Yonghong Tian

摘要:通常表现最好的深层神经模型是多个基本网络的集成,然而,关于领域自适应行人Re-ID的集成学习仍然没有被探索。本文提出了一种多专家头脑风暴网络(MEB-Net)用于领域自适应行人识别,为研究无监督条件下的模型集成问题开辟了一个很有前途的方向。MEBNet采用相互学习的策略,在一个源域内将多个不同结构的网络预训练成具有特定特征和知识的专家模型,然后通过专家模型之间的头脑风暴(相互学习)来实现自适应。MEB-Net通过引入专家权威的正则化方案,适应了专家在不同体系结构下学习的异构性,增强了改进后的Re-ID模型的识别能力。在大规模数据集(Market-1501和DukeMTMC-Reid)上的广泛实验证明了MEB-NET优于最先进的模型性能。

代码:

https://github.com/YunpengZhai/MEB-Net.

网址:

https://arxiv.org/abs/2007.01546


6、Rethinking the Distribution Gap of Person Re-identification with Camera-based Batch Normalization

作者:Zijie Zhuang, Longhui Wei, Lingxi Xie, Tianyu Zhang, Hengheng Zhang, Haozhe Wu, Haizhou Ai, and Qi Tian

摘要:行人重识别(ReID)的根本困难在于学习单个摄像机之间的对应关系。它强烈要求相机间的注释,但不能保证经过训练的模型能够很好地传输到以前未出现过的相机上。这些问题极大地限制了ReID的应用。本文对传统ReID方法的工作机制进行了重新思考,并提出了新的解决方案。通过一种有效的基于摄像机的批归一化(CBN)算子,强制所有摄像机的图像数据落在同一个子空间上,从而大大缩小了任意摄像机对之间的分布差距。这种调整带来了两个好处。首先,训练后的模型具有更好的跨场景的泛化能力,以及跨多个训练集的传输能力。其次,我们可以依靠相机间注释,这些注释之前由于缺乏跨相机信息而被低估,以实现具有竞争力的ReID性能。在广泛的ReID任务上的实验证明了该方法的有效性。

代码:

https://github.com/automan000/Camera-based-Person-ReID

网址:

https://arxiv.org/abs/2001.08680

请关注专知公众号(点击上方蓝色专知关注

  • 后台回复“ECCV2020REID” 就可以获取《6篇顶会ECCV 2020【行人重识别】相关论文的pdf下载链接~ 

文为专知编译,转载请联系本公众号获得授权

专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

行人重识别(Person re-identification)也称行人再识别,是利用计算机视觉技术判断图像或者视频序列中是否存在特定行人的技术。广泛被认为是一个图像检索的子问题。给定一个监控行人图像,检索跨设备下的该行人图像。旨在弥补目前固定的摄像头的视觉局限,并可与行人检测/行人跟踪技术相结合,可广泛应用于智能视频监控、智能安保等领域。 由于不同摄像设备之间的差异,同时行人兼具刚性和柔性的特性 ,外观易受穿着、尺

知识荟萃

精品入门和进阶教程、论文和代码整理等

更多

查看相关VIP内容、论文、资讯等

【导读】作为计算机视觉领域三大会议之一,European Conference on Computer Vision(欧洲计算机视觉大会,ECCV)备受全球领域众多专业人士关注。几天前,ECCV 2020官方发布接收论文,本次大会共有5025篇投稿,1361篇被接收,接受率27%。ECCV 2020 已经于8月23日-28日Online方式进行。论文列表已经放出,小编发现少样本学习方向火热,录用了好多篇相关paper,为此专知小编整理了七篇 ECCV 2020 少样本学习(Few-Shot Learning,FSL) 相关论文供大家参考——跨域少样本学习、胶囊注意力原型网络、负间隔损失、任务自适应特征学习、自监督

ECCV 2020 接受论文列表和下载地址: https://eccv2020.eu/accepted-papers/ https://www.ecva.net/papers.php

ECCV2020ReID、ECCV2020OD、ICML2020GNN_Part1、KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、

1、A Broader Study of Cross-Domain Few-Shot Learning

作者:Yunhui Guo, Noel C. Codella, Leonid Karlinsky, James V. Codella, John R. Smith, Kate Saenko, Tajana Rosing, Rogerio Feris

摘要:最近在少样本学习方面的进展很大程度上依赖于元学习的标注数据:与新类别相同的域中采样其基类。然而,在许多应用中,为元学习收集数据是不可行或不可能的。这导致了跨域的少样本学习问题,其中在基域和新类别域之间存在很大的Gap。虽然对跨域少样本场景的研究已经存在,但这些工作仅限于视觉相似度很高的自然图像。目前还没有在真实世界场景中看到的不同成像方法(如航空成像和医学成像)之间进行少样本学习的研究。在本文中,我们提出了更广泛的跨域少样本学习(BSCD-FSL)基准研究,该基准由来自各种图像获取方法的图像数据组成。这些图像数据包括自然图像,如作物病害图像,还有那些与自然图像有很大不同的图像,如卫星图像、皮肤病图像和放射学图像。我们在所提出的基准上进行了大量的实验,以评估最新的元学习方法、迁移学习方法和较新的跨域少样本学习方法。结果表明,最新的元学习方法的表现优于早期的元学习方法,并且所有的元学习方法的表现都比简单的精调在平均准确率上要差12.8%。在某些情况下,元学习甚至不如具有随机权重的网络。在这个更具挑战性的基准测试中,以前使用专门用于跨域、少样本学习的方法的性能提升消失得无影无踪。最后,所有方法的准确性往往与数据集与自然图像的相似性相关,我们验证了基准的价值,从而能够更好地代表真实场景数据的多样性,并指导未来的研究。

代码:

https://github.com/IBM/cdfsl-benchmark

网址:

https://www.ecva.net/papers.php

2、Attentive Prototype Few-shot Learning with Capsule Network-based Embedding

作者:Fangyu Wu, Jeremy S.Smith, Wenjin Lu, Chaoyi Pang, Bailing Zhang

摘要:用很少的训练样本识别新的类别的少样本学习,是机器学习研究中一个极具挑战性的领域。传统的深度学习方法需要大量的训练数据来调整数量庞大的参数,这往往是不切实际的,而且容易过拟合。在这项工作中,我们进一步研究了被称为原型网络的少样本学习方法,以获得更好的性能。我们的贡献包括:(1)一种新的嵌入结构,通过应用胶囊网络(capsule network)来编码特征之间的相对空间关系;(2)设计了一种新的三元组损失来增强语义特征的嵌入性,即相似样本之间距离较近,而不同样本之间的距离较远;以及(3)一种有效的非参数分类器,称为注意力原型,取代了目前少样本学习中的简单原型。我们提出的注意力原型聚合了支持类中的所有实例,这些实例根据它们的重要性(由给定查询的重构误差定义)进行加权。重构误差允许估计对应于分类置信度分数的分类后验概率。在三个基准数据集上的大量实验表明,该方法对于少样本分类任务是有效的。

网址:

https://www.ecva.net/papers.php

3、Negative Margin Matters: Understanding Margin in Few-shot Classification

作者:Bin Liu1, Yue Cao, Yutong Lin, Qi Li, Zheng Zhang, Mingsheng Long, Han Hu

摘要:本文介绍了一种基于度量学习的负边距损失(negative margin loss)的少样本学习方法。负边距损失的表现明显优于常规的Softmax损失,并且在三个标准的少样本分类基准上实现了最先进的精确度。这些结果与度量学习领域的通常做法(差值为零或正)相反。为了理解为什么负边距损失在少样本分类中表现良好,我们从经验和理论上分析了训练类和新类中不同边缘的学习特征的可区分性。我们发现,虽然负边距降低了训练类的特征可区分性,但也可以避免将同一新类的样本错误映射到多个峰或簇,从而有利于对新类的区分。

代码:

https://github.com/bl0/negative-margin.few-shot

网址:

https://www.ecva.net/papers.php

4、Prototype Rectification for Few-Shot Learning

作者:Jinlu Liu, Liang Song, Yongqiang Qin

摘要:少样本学习要求识别具有稀缺标签数据的新类。原型网络(prototypical network)在现有的研究中是有用的,然而,对稀缺数据进行窄尺寸分布(narrow-size distribution)的训练往往会得到有偏差的原型。在本文中,我们找出了这一过程的两个关键影响因素:类内偏差和跨类偏差。然后,我们提出了一种简单而有效的方法,用于转导设置(transductive setting)下的原型校正。该方法利用标签传播(label propagation)来减小类内偏差,利用特征迁移来减小跨类偏差。我们还进行了理论分析,推导出其合理性以及性能的下界。在三个少样本基准上的有效性显示,我们的方法在miniImageNet(1-shot 70.31%, 5-shot 81.89%)和tieredImageNet(1-shot 78.74%,5-shot 86.92%)上都获得了最先进的性能。

网址:

https://www.ecva.net/papers.php

5、SEN: A Novel Feature Normalization Dissimilarity Measure for Prototypical Few-Shot Learning Networks

作者:Van Nhan Nguyen, Sigurd Løkse, Kristoffer Wickstrøm, Michael Kampffmeyer, Davide Roverso, Robert Jenssen

摘要:在这篇文章中,我们给原型网络(PNS)配备了一种新的相异度度量,以实现少样本学习的区分特征归一化。嵌入到超球面上不需要直接归一化,易于优化。我们理论分析表明,所提出的欧几里德距离平方根和范数距离(SEN)的相异度测度迫使嵌入点被吸引到其正确的原型上,而排斥所有其他原型,保持所有点的范数相同。所得到的SEN PN在没有附加参数的情况下以相当大的幅度优于常规PN,并且计算开销可以忽略不计。

网址:

https://www.ecva.net/papers.php

6、TAFSSL: Task-Adaptive Feature Sub-Space Learning for few-shot classification

作者:Moshe Lichtenstein, Prasanna Sattigeri, Rogerio Feris, Raja Giryes, Leonid Karlinsky

摘要:近来,少样本学习(FSL),即从非常少的(通常是1到5个)的例子中学习一个新的类别(在训练时候不存在),得到了很多关注和显著的性能进步。虽然已经为FSL提出了许多技术,但有几个因素已经成为影响FSL性能的最重要因素,即使是最简单的技术也可以授予SOTA。它们是:骨干架构(越大越好),预训练类型(元训练与多类别),基类的数量和多样性(越多越好),以及使用辅助自监督任务(增加多样性的代理)。在本文中,我们提出了TAFSSL,这是一种简单的技术,可以在伴随着一些额外的未标记数据的少样本任务中提高少样本性能。TAFSSL的直觉是基于减少预训练期间未见过的由新类别组成的少样本任务所固有的特征和采样噪声。具体地说,在具有挑战性的miniImageNet和tieredImageNet基准测试中,TAFSSL可以将当前最先进的转导和半监督FSL设置提高5%以上,同时将在FSL中使用未标记数据的性能提高到10%以上。

网址:

https://www.ecva.net/papers.php

7、When Does Self-supervision Improve Few-shot Learning?

作者:Jong-Chyi Su, Subhransu Maji, Bharath Hariharan

摘要:我们研究了自监督学习(SSL)在少样本学习环境中的作用。虽然最近的研究已经显示了SSL在大型未标记数据集上的好处,但它在小型数据集上的实用性相对来说还没有被探索过。我们发现,SSL将少样本元学习的相对错误率降低了4%-27%,即使当数据集很小并且只使用数据集中的图像时也是如此。当训练集越小或任务越具挑战性时,改进效果越大。虽然SSL的好处可能会随着训练集的增加而增加,但我们观察到,当用于元学习的图像的分布与SSL不同时,SSL会损害性能。我们通过改变域转移的程度和分析几个元学习在多个领域上的表现来进行系统的研究。基于这一分析,我们提出了一种技术,该技术可以从给定数据集的大型通用未标记图像池中自动选择用于SSL的图像,从而提供进一步的改进。

网址: https://www.ecva.net/papers.php

成为VIP会员查看完整内容
0
36

【导读】作为世界数据挖掘领域的最高级别的学术会议,ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)每年都会吸引全球领域众多专业人士参与。今年的 KDD大会计划将于 2020 年 8 月 23 日 ~27 日在美国美国加利福尼亚州圣地亚哥举行。上周,KDD 2020官方发布接收论文,共有1279篇论文提交到Research Track,共216篇被接收,接收率16.8%。近期一些Paper放出来了,为此,专知小编提前为大家整理了五篇KDD 2020 图神经网络(GNN)相关论文,供大家参考。——图结构学习、多元时间序列预测、负采样、多任务多视角图表示学习、多兴趣推荐

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、

1. Graph Structure Learning for Robust Graph Neural Networks

作者:Wei Jin, Yao Ma, Xiaorui Liu, Xianfeng Tang, Suhang Wang, Jiliang Tang

摘要:图神经网络(GNNs)是图表示学习的有力工具。但是,最近的研究表明,GNN容易受到精心设计的扰动(称为对抗攻击)的攻击。对抗性攻击很容易欺骗GNN来预测下游任务。对于对抗攻击的脆弱性使人们越来越关注在安全关键型应用中应用GNN。因此,开发稳健的算法来防御对抗攻击具有重要意义。防御对抗攻击的一个自然想法是清理受干扰的图。很明显,真实世界的图共享一些内在属性。例如,许多现实世界的图都是低秩和稀疏的,两个相邻节点的特征往往是相似的。事实上,我们发现对抗攻击很可能会违背这些图的性质。因此,在本文中,我们利用这些特性来防御针对图的对抗攻击。特别是,我们提出了一个通用框架Pro-GNN,该框架可以从受这些特性指导的扰动图中联合学习结构图和鲁棒图神经网络模型。在真实图上的大量实验表明,即使在图受到严重干扰的情况下,我们所提出的框架也比现有的防御方法获得了显著更好的性能。我们将Pro-GNN的实现发布到我们的DeepRobust存储库,以进行对抗性攻击和防御。

网址: https://arxiv.org/pdf/2005.10203.pdf

代码链接: https://github.com/ChandlerBang/Pro-GNN

2. Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks

作者:Zonghan Wu, Shirui Pan, Guodong Long, Jing Jiang, Xiaojun Chang, Chengqi Zhang

摘要:多变量时间序列的建模长期以来一直吸引着来自经济、金融和交通等不同领域的研究人员的关注。多变量时间序列预测背后的一个基本假设是其变量之间相互依赖,但现有方法未能充分利用变量对之间的潜在空间相关性。同时,近些年来,图神经网络(GNNs)在处理关系依赖方面表现出了很高的能力。GNN需要定义良好的图结构来进行信息传播,这意味着它们不能直接应用于事先不知道依赖关系的多变量时间序列。本文提出了一种专门针对多变量时间序列数据设计的通用图神经网络框架。该方法通过图学习模块自动提取变量间的单向关系,可以方便地集成变量属性等外部知识。在此基础上,提出了一种新的max-hop传播层和一个dilated inception层来捕捉时间序列中的时间和空间依赖关系。图学习、图卷积和时间卷积模块在端到端框架中联合学习。实验结果表明,我们提出的模型在4个基准数据集中的3个数据上优于最新的基线方法,并且在提供额外结构信息的两个交通数据集上,与其他方法具有同等的性能。

网址: https://shiruipan.github.io/publication/kdd-2020-wu/kdd-2020-wu.pdf

3. Understanding Negative Sampling in Graph Representation Learning

作者:Zhen Yang, Ming Ding, Chang Zhou, Hongxia Yang, Jingren Zhou, Jie Tang

摘要:在最近的几年中,对图表示学习进行了广泛的研究。尽管它有可能为各种网络生成连续的嵌入,但是在大型节点集中得到有效高质量的表示仍然具有挑战性。采样是实现该性能目标的关键点。现有技术通常侧重于正向节点对的采样,而对负向采样的策略探索不够。为了弥补这一差距,我们从目标和风险两个角度系统地分析了负采样的作用,从理论上论证了负采样在确定优化目标和结果方差方面与正采样同等重要。据我们所知,我们是第一个推导该理论并量化负采样分布应与其正采样分布成正相关但亚线性相关的方法。在该理论的指导下,我们提出了MCNS,用自对比度近似法近似正分布,并通过Metropolis-Hastings加速负采样。我们在5个数据集上评估了我们的方法,这些数据集涵盖了19个实验设置,涵盖了广泛的下游图学习任务,包括链接预测,节点分类和个性化推荐。这些相对全面的实验结果证明了其稳健性和优越性。

网址: https://arxiv.org/pdf/2005.09863.pdf

4. M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

作者:Menghan Wang, Yujie Lin, Guli Lin, Keping Yang, Xiao-ming Wu

摘要:将图表示学习与多视图数据(边信息)相结合进行推荐是工业上的一种趋势。现有的大多数方法可以归类为多视图表示融合,它们首先构建一个图,然后将多视图数据集成到图中每个节点的单个紧凑表示中。这些方法在工程和算法方面都引起了人们的关注:1)多视图数据在工业中是丰富而且有用的,并且可能超过单个矢量的容量;2)由于多视图数据往往来自不同的分布,可能会引入归纳偏置(inductive bias)。在本文中,我们使用一种多视图表示对齐方法来解决这个问题。特别地,我们提出了一个多任务多视角图表示学习框架(M2GRL)来学习web级推荐系统中的多视角图节点表示。M2GRL为每个单视图数据构造一个图,从多个图中学习多个单独的表示,并执行对齐以建立模型的交叉视图关系。M2GRL选择了一种多任务学习范式来联合学习视图内表示和交叉视图关系。此外,M2GRL在训练过程中利用同方差不确定性自适应地调整任务的损失权重。我们在淘宝部署了M2GRL,并对570亿个实例进行了训练。根据离线指标和在线A/B测试,M2GRL的性能明显优于其他最先进的算法。对淘宝多样性推荐的进一步研究表明,利用M2GRL产生的多种表征是有效的,对于不同侧重点的各种工业推荐任务来说,M2GRL是一个很有前途的方向。

网址:

https://arxiv.org/pdf/2005.10110.pdf

5. Controllable Multi-Interest Framework for Recommendation

作者:Yukuo Cen, Jianwei Zhang, Xu Zou, Chang Zhou, Hongxia Yang, Jie Tang

摘要:近年来,由于深度学习的快速发展,神经网络在电子商务推荐系统中得到了广泛的应用。我们将推荐系统形式化为一个序列推荐问题,目的是预测可能与用户交互的下一个项目。最近的研究通常从用户的行为序列中给出一个整体的嵌入。然而,统一的用户嵌入不能反映用户在一段时间内的多个兴趣。本文提出了一种新颖的可控多兴趣序列推荐框架,称为ComiRec。我们的多兴趣模块从用户行为序列中捕获多个兴趣,可用于从大规模项目集中检索候选项目。然后将这些项目送入聚合模块以获得总体推荐。聚合模块利用一个可控因素来平衡推荐的准确性和多样性。我们在两个真实的数据集Amazon和Taobao进行序列推荐实验。实验结果表明,我们的框架相对于最新模型取得了重大改进。我们的框架也已成功部署在离线阿里巴巴分布式云平台上。

网址: https://arxiv.org/pdf/2005.09347.pdf

代码链接: https://github.com/cenyk1230/ComiRec

成为VIP会员查看完整内容
0
84

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议 CVPR 每年都会吸引全球领域众多专业人士参与。由于受COVID-19疫情影响,原定于6月16日至20日在华盛顿州西雅图举行的CVPR 2020将全部改为线上举行。今年的CVPR有6656篇有效投稿,最终有1470篇论文被接收,接收率为22%左右。之前小编为大家整理过CVPR 2020 GNN 相关论文,这周小编继续为大家整理了五篇CVPR 2020 图神经网络(GNN)相关论文,供大家参考——行为识别、少样本学习、仿射跳跃连接、多层GCN、3D视频目标检测。

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN

1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

摘要:基于骨架的动作识别算法广泛使用时空图对人体动作动态进行建模。为了从这些图中捕获鲁棒的运动模式,长范围和多尺度的上下文聚合与时空依赖建模是一个强大的特征提取器的关键方面。然而,现有的方法在实现(1)多尺度算子下的无偏差长范围联合关系建模和(2)用于捕捉复杂时空依赖的通畅的跨时空信息流方面存在局限性。在这项工作中,我们提出了(1)一种简单的分解(disentangle)多尺度图卷积的方法和(2)一种统一的时空图卷积算子G3D。所提出的多尺度聚合方法理清了不同邻域中节点对于有效的远程建模的重要性。所提出的G3D模块利用密集的跨时空边作为跳过连接(skip connections),用于在时空图中直接传播信息。通过耦合上述提议,我们开发了一个名为MS-G3D的强大的特征提取器,在此基础上,我们的模型在三个大规模数据集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能优于以前的最先进方法。

网址: https://arxiv.org/pdf/2003.14111.pdf

代码链接: github.com/kenziyuliu/ms-g3d

2. DPGN: Distribution Propagation Graph Network for Few-shot Learning

作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu

摘要:大多数基于图网络的元学习方法都是为实例的instance-level关系进行建模。我们进一步扩展了此思想,以1-vs-N的方式将一个实例与所有其他实例的分布级关系明确建模。我们提出了一种新的少样本学习方法--分布传播图网络(DPGN)。它既表达了每个少样本学习任务中的分布层次关系,又表达了实例层次关系。为了将所有实例的分布层关系和实例层关系结合起来,我们构造了一个由点图和分布图组成的对偶全图网络,其中每个节点代表一个实例。DPGN采用双图结构,在更新时间内将标签信息从带标签的实例传播到未带标签的实例。在少样本学习的大量基准实验中,DPGN在监督设置下以5%∼12%和在半监督设置下以7%∼13%的优势大大超过了最新的结果。

网址: https://arxiv.org/pdf/2003.14247.pdf

代码链接: https://github.com/megvii-research/DPGN

3. Geometrically Principled Connections in Graph Neural Networks

作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou

摘要:图卷积操作为以前认为遥不可及的各种图形和网格处理任务带来了深度学习的优势。随着他们的持续成功,人们希望设计更强大的体系结构,这通常是将现有的深度学习技术应用于非欧几里得数据。在这篇文章中,我们认为几何应该仍然是几何深度学习这一新兴领域创新的主要驱动力。我们将图神经网络与广泛成功的计算机图形和数据近似模型(径向基函数(RBF))相关联。我们推测,与RBF一样,图卷积层将从向功能强大的卷积核中添加简单函数中受益。我们引入了仿射跳跃连接 (affine skip connections),这是一种通过将全连接层与任意图卷积算子相结合而形成的一种新的构建块。通过实验证明了我们的技术的有效性,并表明性能的提高是参数数量增加的结果。采用仿射跳跃连接的算子在形状重建、密集形状对应和图形分类等每一项任务上的表现都明显优于它们的基本性能。我们希望我们简单有效的方法将成为坚实的基准,并有助于简化图神经网络未来的研究。

网址: https://arxiv.org/pdf/2004.02658.pdf

4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen

摘要:图卷积网络(GCN)在许多应用中越来越受欢迎,但在大型图形数据集上的训练仍然是出了名的困难。它们需要递归地计算邻居的节点表示。当前的GCN训练算法要么存在随层数呈指数增长的高计算成本,要么存在加载整个图和节点嵌入的高内存使用率问题。本文提出了一种新的高效的GCN分层训练框架(L-GCN),该框架将训练过程中的特征聚合和特征变换分离开来,从而大大降低了时间和存储复杂度。我们在图同构框架下给出了L-GCN的理论分析,在温和的条件下,与代价更高的传统训练算法相比L-GCN可以产生同样强大的GCN。我们进一步提出了L2-GCN,它为每一层学习一个控制器,该控制器可以自动调整L-GCN中每一层的训练周期。实验表明,L-GCN比现有技术快至少一个数量级,内存使用量的一致性不依赖于数据集的大小,同时保持了还不错的预测性能。通过学习控制器,L2-GCN可以将训练时间进一步减少一半。

网址: https://arxiv.org/pdf/2003.13606.pdf

代码链接: https://github.com/Shen-Lab/L2-GCN

补充材料:

https://slack-files.com/TC7R2EBMJ-F012C60T335-281aabd097

5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang

摘要:现有的基于LiDAR的3D目标检测算法通常侧重于单帧检测,而忽略了连续点云帧中的时空信息。本文提出了一种基于点云序列的端到端在线3D视频对象检测器。该模型包括空间特征编码部分和时空特征聚合部分。在前一个组件中,我们提出了一种新的柱状消息传递网络(Pillar Message Passing Network,PMPNet)来对每个离散点云帧进行编码。它通过迭代信息传递的方式自适应地从相邻节点收集柱节点的信息,有效地扩大了柱节点特征的感受野。在后一组件中,我们提出了一种注意力时空转换GRU(AST-GRU)来聚合时空信息,通过注意力记忆门控机制增强了传统的ConvGRU。AST-GRU包含一个空间Transformer Attention(STA)模块和一个时间Transformer Attention(TTA)模块,分别用于强调前景对象和对齐动态对象。实验结果表明,所提出的3D视频目标检测器在大规模的nuScenes基准测试中达到了最先进的性能。

网址: https://arxiv.org/pdf/2004.01389.pdf

代码链接: https://github.com/yinjunbo/3DVID

成为VIP会员查看完整内容
0
74

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都会吸引全球领域众多专业人士参与。由于受COVID-19疫情影响,原定于6月16日至20日在华盛顿州西雅图举行的CVPR 2020将全部改为线上举行。今年的CVPR有6656篇有效投稿,最终有1470篇论文被接收,接收率为22%左右。为此,专知小编提前为大家整理了五篇CVPR 2020场景图神经网络(SGNN)相关论文,让大家先睹为快——3D语义分割、指代表达式推理、图像描述生成、图像处理、时空图。

WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

1. Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions

作者:Johanna Wald, Helisa Dhamo, Nassir Navab, Federico Tombari

摘要:场景理解(scene understanding)一直是计算机视觉领域的研究热点。它不仅包括识别场景中的对象,还包括识别它们在给定上下文中的关系。基于这一目标,最近的一系列工作解决了3D语义分割和场景布局预测问题。在我们的工作中,我们关注场景图,这是一种在图中组织场景实体的数据结构,其中对象是节点,它们的关系建模为边。我们利用场景图上的推理作为实现3D场景理解、映射对象及其关系的一种方式。特别地,我们提出了一种从场景的点云回归场景图的学习方法。我们的新体系结构是基于PointNet和图卷积网络(GCN)的。此外,我们还介绍了一个半自动生成的数据集3DSSG,它包含了语义丰富的三维场景图。我们展示了我们的方法在一个领域无关的检索任务中的应用,其中图作为3D-3D和2D-3D匹配的中间表示。

网址:

https://arxiv.org/pdf/2004.03967.pdf

2. Graph-Structured Referring Expression Reasoning in The Wild

作者:Sibei Yang, Guanbin Li, Yizhou Yu

摘要:Grounding referring expressions的目标是参照自然语言表达式在图像中定位一个目标。指代表达式(referring expression)的语言结构为视觉内容提供了推理的布局,并且该结构对于校准和共同理解图像与指代表达式是十分重要的。本文提出了一种场景图引导的模块化网络(SGMN),它在表达式的语言结构指导下,用神经模块对语义图和场景图进行推理。特别地,我们将图像(image)建模为结构化语义图,并将表达式解析为语言场景图。语言场景图不仅对表达式的语言结构进行解码,而且与图像语义图具有一致的表示。除了探索指代表达式基础的结构化解决方案外,我们还提出了Ref-Reasning,一个用于结构化指代表达式推理的大规模真实数据集。我们使用不同的表达式模板和函数式程序自动生成图像场景图上的指代表达式。该数据集配备了真实世界的可视化内容以及具有不同推理布局的语义丰富的表达式。实验结果表明,SGMN不仅在新的Ref-Reasning数据集上的性能明显优于现有的算法,而且在常用的基准数据集上也超过了最先进的结构化方法。它还可以为推理提供可解释的可视化证据。

网址:

https://arxiv.org/pdf/2004.08814.pdf

代码链接:

https://github.com/sibeiyang/sgmn

3. Say As Y ou Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

作者:Shizhe Chen, Qin Jin, Peng Wang, Qi Wu

摘要:人类能够随心所欲地用粗到细的细节来描述图像内容。然而,大多数图像字幕模型是意图不可知的(intention-agnostic),不能主动根据不同的用户意图生成各种描述。在这项工作中,我们提出了抽象场景图(ASG)结构来在细粒度层次上表示用户意图,并控制生成的描述应该是什么和有多详细。ASG是一个由三种类型的抽象节点(对象、属性、关系)组成的有向图,它们以图像为基础,没有任何具体的语义标签。因此,这些节点可以很容易通过手动或自动获得。与在VisualGenome和MSCOCO数据集上精心设计的基线相比,我们的模型在ASG上实现了更好的可控性条件。它还通过自动采样不同的ASG作为控制信号,显著提高了字幕多样性。

网址:

https://arxiv.org/pdf/2003.00387.pdf

4. Semantic Image Manipulation Using Scene Graphs

作者:Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D. Hager, Federico Tombari, Christian Rupprecht

摘要:图像处理可以被认为是图像生成的特例,其中要生成的图像是对现有图像的修改。在很大程度上,图像生成和处理都是对原始像素进行操作的任务。然而,在学习丰富的图像和对象表示方面的显著进展已经为主要由语义驱动的诸如文本到图像或布局到图像生成之类的任务开辟了道路。在我们的工作中,我们解决了从场景图进行图像处理的新问题,在该问题中,用户可以仅通过对从图像生成的语义图的节点或边进行修改来编辑图像。我们的目标是对给定constellation中的图像信息进行编码,然后在此基础上生成新的constellation,例如替换对象,甚至改变对象之间的关系,同时尊重原始图像的语义和样式。我们引入了空间语义场景图网络,该网络不需要直接监督constellation变化或图像编辑。这使得从现有的现实世界数据集中训练系统成为可能,而无需额外的注释工作。

网址:

https://www.researchgate.net/publication/340523427_Semantic_Image_Manipulation_Using_Scene_Graphs

代码链接:

https://he-dhamo.github.io/SIMSG/

5. Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

作者:Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli, Juan Carlos Niebles

摘要:视频描述生成是一项具有挑战性的任务,需要对视觉场景有深刻的理解。最先进的方法使用场景级或对象级信息生成字幕,但没有显式建模对象交互。因此,它们通常无法做出基于视觉的预测,并且对虚假相关性敏感。在本文中,我们为视频字幕提出了一种新颖的时空图模型,该模型利用了时空中的对象交互作用。我们的模型建立了可解释的连接,并且能够提供明确的视觉基础。为了避免对象数量变化带来的性能不稳定,我们进一步提出了一种对象感知的知识提炼机制,该机制利用局部对象信息对全局场景特征进行正则化。通过在两个基准上的广泛实验证明了我们的方法的有效性,表明我们的方法在可解释的预测上产生了具有竞争力的性能。

网址:

https://arxiv.org/pdf/2003.13942.pdf

成为VIP会员查看完整内容
0
44

【导读】最近小编推出CVPR2019图卷积网络相关论文、CVPR2019生成对抗网络相关视觉论文和【可解释性】相关论文和代码,反响热烈。最近,视觉目标跟踪领域出现了很多不同的框架和方法,CVPR 2019已经陆续放出十几篇相关文章,这一领域近期也受到大家广泛的关注。今天小编专门整理最新九篇视觉目标跟踪相关应用论文—无监督视觉跟踪、生成对抗网络、三维Siamese跟踪、SiamMask、SiamRPN++、SPM-Tracker等。

1、Unsupervised Deep Tracking (无监督的深度跟踪)

CVPR ’19

作者:Ning Wang, Yibing Song, Chao Ma, Wengang Zhou, Wei Liu, Houqiang Li

摘要:我们在本文中提出了一种无监督视觉跟踪方法。与现有的使用大量标注数据进行监督学习的方法不同,我们的CNN模型是以一种无监督的方式对大规模无标记视频进行训练的。我们的动机是,一个健壮的跟踪器应该在前向和后向预测中都是有效的(即,跟踪器可以在连续帧中对目标对象进行前向定位,并在第一帧中回溯到目标对象的初始位置)。我们在Siamese相关滤波器网络上构建了我们的框架,该网络使用未标记的原始视频进行训练。同时,我们提出了一种多帧验证方法和代价敏感的损失函数,以方便无监督学习。在没有监督信息的情况下(without bells and whistles),所提出的无监督跟踪器达到了完全监督跟踪器的baseline精度,这需要在训练过程中完整且准确的标签。此外,无监督框架显示了利用无标记或弱标记数据进一步提高跟踪精度的潜力。

网址:

https://arxiv.org/abs/1904.01828

代码链接:

https://github.com/594422814/UDT

2、Target-Aware Deep Tracking( 目标感知的深度跟踪)

CVPR ’19

作者:Xin Li, Chao Ma, Baoyuan Wu, Zhenyu He, Ming-Hsuan Yang

摘要:现有的深度跟踪器主要使用卷积神经网络对泛型目标识别任务进行预处理来表示。尽管在许多视觉任务中都取得了成功,但是使用预先训练的深度特征进行视觉跟踪的贡献不如目标识别那么重要。关键问题是,在视觉跟踪中的目标的可以是任意对象类与任意形式。因此,预先训练的深层特征在建模这些任意形式的目标时效果较差,无法将它们从背景中区分出来。在本文中,我们提出了一种新的学习目标感知特征的方法,该方法能够比预训练的深度特征更好地识别发生显著外观变化的目标。为此,我们提出了回归损失和排名损失来指导目标活动和尺度敏感特征的生成。我们根据反向传播的梯度来识别每个卷积滤波器的重要性,并基于用于表示目标的激活来选择目标感知特征。目标感知特征与Siamese匹配网络集成,用于视觉跟踪。大量的实验结果表明,该算法在精度和速度上均优于现有的算法。

网址:

https://arxiv.org/abs/1904.01772

代码链接:

https://github.com/XinLi-zn/TADT

3、MOTS: Multi-Object Tracking and Segmentation(MOTS:多目标跟踪和分割)

CVPR ’19

作者:Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

摘要:本文将多目标跟踪的流行任务扩展到多目标跟踪与分割(MOTS)。为此,我们使用半自动标注程序为两个现有跟踪数据集创建密集的像素级标注。我们的新标注包含了10870个视频帧中977个不同对象(汽车和行人)的65,213个像素掩码。为了进行评估,我们将现有的多对象跟踪指标扩展到这个新任务。此外,我们提出了一种新的baseline方法,该方法通过单个卷积网络共同解决检测,跟踪和分割问题。在对MOTS标注进行训练时,我们通过提高性能来展示数据集的价值。我们相信,我们的数据集、度量metrics和baseline将成为开发超越二维边界框的多对象跟踪方法的宝贵资源。我们的注释,代码和模型可以在 https://www.vision.rwth-aachen.de/page/mots上找到。

网址:

https://arxiv.org/abs/1902.03604

代码链接:

https://www.vision.rwth-aachen.de/page/mots

4、Leveraging Shape Completion for 3D Siamese Tracking(利用形状补全三维Siamese跟踪)

CVPR ’19

作者:Paul Voigtlaender, Michael Krause, Aljosa Osep, Jonathon Luiten, Berin Balachandar Gnana Sekar, Andreas Geiger, Bastian Leibe

摘要:点云由于其稀疏性,处理起来很有挑战性,因此自动驾驶车辆更多地依赖于外观属性,而不是纯粹的几何特征。然而,三维激光雷达感知在具有挑战性的光或天气条件下可以为城市导航提供重要的信息。本文研究了形状补全Shape Completion在LIDAR点云三维目标跟踪中的通用性。我们设计了一个Siamese追踪器,将模型和候选形状编码成一个紧凑的潜在表示。我们通过强制将潜在表示解码为对象模型形状来规范编码。我们观察到,三维物体跟踪和三维形状补全Shape Completion是相辅相成的。学习更有意义的潜在表示可以显示更好的区分能力,从而提高跟踪性能。我们在KITTI Tracking数据集上使用汽车3D bounding boxes测试了我们的方法。我们的模型对三维目标跟踪的成功率为76.94%,精度为81.38%,形状补全Shape Completion正则化使得两种指标都提高了3%。

网址:

https://arxiv.org/abs/1903.01784

代码链接:

https://github.com/SilvioGiancola/ShapeCompletion3DTracking

5、LaSOT: A High-quality Benchmark for Large-scale Single Object Tracking(LaSOT:基于大规模单目标跟踪的高质量基准)

CVPR ’19

作者:Heng Fan, Liting Lin, Fan Yang, Peng Chu, Ge Deng, Sijia Yu, Hexin Bai, Yong Xu, Chunyuan Liao, Haibin Ling

摘要:本文提出了一种用于大规模单目标跟踪的高质量基准LaSOT。LaSOT由1400个序列组成,总帧数超过350万。这些序列中的每一帧都小心翼翼地用一个边界框手工标注,使LaSOT成为我们所知最大的、标注密集的跟踪基准。LaSOT的平均视频长度超过2500帧,每个序列都包含来自野外的各种挑战,在野外,目标对象可能会消失,然后重新出现在视图中。通过发布LaSOT,我们希望为社区提供一个大规模、高质量的专用基准,用于深度跟踪器的训练和跟踪算法的真实评估。此外,考虑到视觉外观与自然语言的紧密联系,我们通过提供额外的语言规范来丰富LaSOT,旨在鼓励探索自然语言特征来进行跟踪。对LaSOT上的35种跟踪算法进行了全面的实验评估,并进行了详细的分析,结果表明,该算法仍有很大的改进空间。

网址:

https://arxiv.org/abs/1809.07845

6、Fast Online Object Tracking and Segmentation: A Unifying Approach(快速在线目标跟踪和分割: 一种统一的方法)

CVPR ’19

作者:Qiang Wang, Li Zhang, Luca Bertinetto, Weiming Hu, Philip H.S. Torr

摘要:在本文中,我们将介绍如何用一种简单的方法实时地执行视觉目标跟踪和半监督视频目标分割。我们的方法,称为SiamMask,改进了流行的全卷积Siamese方法的离线训练过程,通过一个二值分割任务增加了它们的损失。经过训练,SiamMask完全依赖于单个边界框初始化并在线操作,生成与类无关的目标分割掩码,并以每秒35帧的速度旋转边界框。它不仅具有简单性、多功能性和快速性,还使我们能够在VOT-2018上建立一个新的最好的实时跟踪器,同时在DAVIS-2016和DAVIS-2017上展示出具有竞争力的性能和半监督视频对象分割任务的最佳速度。

网址:

https://arxiv.org/abs/1812.05050

代码链接:

http://www.robots.ox.ac.uk/~qwang/SiamMask/

7、SiamRPN++: Evolution of Siamese Visual Tracking with Very Deep Networks(SiamRPN++: 使用深层网络的Siamese视觉跟踪演化)

CVPR ’19

作者:Bo Li, Wei Wu, Qiang Wang, Fangyi Zhang, Junliang Xing, Junjie Yan

摘要:基于Siamese网络的跟踪器将跟踪描述为目标模板与搜索区域之间的卷积特征互相关联。然而,与最先进的算法相比,Siamese跟踪器仍然存在精度上的差距,它们无法利用深度网络(如ResNet-50或更深)的特性。在本文中,我们证明了其核心原因是缺乏严格的翻转不变性。通过全面的理论分析和实验验证,我们通过一种简单有效的空间感知采样策略打破了这一限制,成功地训练了一个性能显著提高的ResNet驱动的Siamese跟踪器。此外,我们提出了一种新的模型架构来执行深度和层次的聚合,这不仅进一步提高了精度,而且减少了模型的大小。我们进行了广泛的消融研究来证明所提出的跟踪器的有效性,该跟踪器目前在OTB2015、VOT2018、UAV123和LaSOT四个大型跟踪基准上获得了最佳结果。我们的模型将会发布,以方便研究人员基于这个问题做进一步的研究。

网址:

https://arxiv.org/abs/1812.11703

代码链接:

http://bo-li.info/SiamRPN++/

8、Deeper and Wider Siamese Networks for Real-Time Visual Tracking(更深入和更广泛的Siamese网络实时视觉跟踪)

CVPR ’19

作者:Zhipeng Zhang, Houwen Peng

摘要:Siamese网络以其均衡的精度和速度在视觉跟踪领域引起了广泛的关注。然而,Siamese跟踪器中使用的主干网络相对较浅,如AlexNet[18],没有充分利用现代深度神经网络的优势。在本文中,我们研究如何利用更深更广的卷积神经网络来提高跟踪的鲁棒性和准确性。我们注意到,用现有的强大架构(如ResNet[14]和Inception[33])直接替换主干网络并不能带来改进。主要原因是1)神经元接受域的大量增加导致特征识别率和定位精度下降;2)卷积的网络padding导致了学习中的位置偏差。为了解决这些问题,我们提出了新的residual模块,以消除padding的负面影响,并进一步设计使用这些模块的新的架构控制感知域大小和网络步长。设计的架构非常轻巧,并且在应用于SiamFC [2]和SiamRPN [20]时保证了实时跟踪速度。实验表明,仅由于提出的网络架构,我们的SiamFC+和SiamRPN+在OTB-15、VOT-16和VOT-17数据集上分别获得了9.8%/5.7% (AUC)、23.3%/8.8% (EAO)和24.4%/25.0% (EAO)的相对改进[2,20]。

网址:

https://arxiv.org/abs/1901.01660

代码链接:

https://github.com/researchmm/SiamDW

9、SPM-Tracker: Series-Parallel Matching for Real-Time Visual Object Tracking(SPM-Tracker: 用于实时视觉目标跟踪的串并联匹配机制)

CVPR ’19

作者:Guangting Wang, Chong Luo, Zhiwei Xiong, Wenjun Zeng

摘要:视觉目标跟踪面临的最大挑战是同时要求鲁棒性和识别能力。为了解决这一问题,本文提出了一种基于SiamFC的跟踪器,SPM-Tracker。基本思想是在两个独立的匹配阶段处理这两个需求。粗匹配(CM)阶段通过广义训练增强了鲁棒性,而精细匹配(FM)阶段通过远程学习网络增强了分辨能力。当CM阶段的输入提议由CM阶段生成时,这两个阶段串联连接。当匹配分数和box位置细化被融合在一起产生最终结果时,它们也被并行连接。这种创新的串并联结构充分利用了两个阶段,从而实现了卓越的性能。该SPM-Tracker在GPU上运行速度为120fps,在OTB-100上的AUC为0.687,在VOT-16上的EAO为0.434,显著超过其他实时跟踪器。

网址:

https://arxiv.org/abs/1904.04452v1

链接:https://pan.baidu.com/s/1Cuomaq3lrB6ub39Xt1Br0g 提取码:ydw4

成为VIP会员查看完整内容
0
21
小贴士
相关论文
Ayush Tewari,Florian Bernard,Pablo Garrido,Gaurav Bharaj,Mohamed Elgharib,Hans-Peter Seidel,Patrick Pérez,Michael Zollhöfer,Christian Theobalt
5+阅读 · 2018年12月18日
Global-and-local attention networks for visual recognition
Drew Linsley,Dan Shiebler,Sven Eberhardt,Thomas Serre
5+阅读 · 2018年9月6日
Jing Xu,Rui Zhao,Feng Zhu,Huaming Wang,Wanli Ouyang
8+阅读 · 2018年5月16日
Jianlou Si,Honggang Zhang,Chun-Guang Li,Jason Kuen,Xiangfei Kong,Alex C. Kot,Gang Wang
5+阅读 · 2018年3月27日
Ju Dai,Pingping Zhang,Huchuan Lu,Hongyu Wang
5+阅读 · 2018年2月22日
Srikrishna Karanam,Mengran Gou,Ziyan Wu,Angels Rates-Borras,Octavia Camps,Richard J. Radke
5+阅读 · 2018年2月14日
Xuelin Qian,Yanwei Fu,Wenxuan Wang,Tao Xiang,Yang Wu,Yu-Gang Jiang,Xiangyang Xue
11+阅读 · 2018年1月18日
Chengyuan Zhang,Lin Wu,Yang Wang
10+阅读 · 2018年1月4日
Lingxiao He,Jian Liang,Haiqing Li,Zhenan Sun
9+阅读 · 2018年1月3日
Limin Wang,Wei Li,Wen Li,Luc Van Gool
3+阅读 · 2017年11月24日
Top
微信扫码咨询专知VIP会员