【导读】作为计算机视觉领域三大会议之一,European Conference on Computer Vision(欧洲计算机视觉大会,ECCV) 备受全球领域众多专业人士关注。几天前,ECCV 2020官方发布接收论文,本次大会共有5025篇投稿,1361篇被接收,接受率27%。受疫情影响,原定于2020年8月23日-28日在英国格拉斯哥举行的ECCV 2020将会以Online方式进行。近期一些Paper已经放出来了,为此专知小编整理了六篇ECCV 2020目标检测(Object Detection,2D or 3D) 相关论文供大家参考——任意方向目标检测、动态R-CNN、3D目标检测、实时3D检测、多类目标检测

ECCV 2020 接受论文列表: https://eccv2020.eu/accepted-papers/

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、

  1. Arbitrary-Oriented Object Detection with Circular Smooth Label

作者:Xue Yang, Junchi Yan

摘要:近年来,面向任意方向的目标检测(Arbitrary-oriented object detection)由于其在航空图像、场景文字、人脸等领域的重要作用,在视觉领域引起了越来越多的关注。本文指出,由于角度周期性或角度的顺序问题,现有的基于回归的旋转检测器存在边界不连续的问题。通过仔细的研究,我们发现根本原因是理想的预测超出了定义的范围。我们设计了一种新的旋转检测基线,通过将角度预测从回归问题转化为精度损失很小的分类任务来解决边界问题,从而与以往使用粗粒度进行旋转检测的工作不同,我们设计了一个高精度的角度分类。我们还提出了一种环形平滑标签(CSL)技术来处理角度的周期性,并提高了对相邻角度的容错性。在此基础上,我们进一步介绍了CSL中的四种窗函数,并探讨了不同窗半径大小对检测性能的影响。在DOTA、HRSC2016这两个大规模航空图像公共数据集以及场景文字数据集ICDAR2015和MLT上的大量实验和可视化分析表明了该方法的有效性。

网址: https://arxiv.org/abs/2003.05597

代码链接:

https://github.com/Thinklab-SJTU/CSL_RetinaNet_Tensorflow

  1. Dynamic R-CNN: Towards High Quality Object Detection via Dynamic Training

作者:Hongkai Zhang, Hong Chang, Bingpeng Ma, Naiyan Wang, Xilin Chen

摘要:虽然two-stage目标检测器近年来不断提升了最先进的性能,但训练过程本身还有很多提升的空间。在这项工作中,我们首先指出了固定网络设置和动态训练过程之间的不一致问题,这对性能有很大的影响。例如,固定标签分配策略和回归损失函数不能适应候选区域(Proposal)的分布变化,不利于训练高质量的检测器。因此,我们提出了动态R-CNN算法,在训练过程中根据候选的统计信息自动调整标签分配标准(IOU阈值)和回归损失函数的形状(SmoothL1损失的参数)。这种动态设计更好地利用了训练样本,并推动检测器拟合更多的高质量样本。具体地说,我们的方法在MS Coco数据集上比ResNet-50-FPN基线在AP上提升了1.9%在AP_{90}上提升了5.5%,并且没有额外的开销。

网址: https://arxiv.org/abs/2004.06002

代码链接:

https://github.com/hkzhang95/DynamicRCNN

  1. Finding Your (3D) Center: 3D Object Detection Using a Learned Loss

作者:David Griffiths, Jan Boehm, Tobias Ritschel

摘要:对于2D图像,海量语义标注很容易实现,但对于3D场景,实现起来要困难得多。像ShapeNet这样的3D存储库中的目标是有标签的,但遗憾的是,这些目标只是孤立的,并没有上下文。3D场景可以通过 city-level 的距离扫描仪获取,但很少带有语义标签。为了解决这一差异,我们引入了一种新的优化程序,它允许使用原始3D扫描进行3D检测训练,同时在只使用5%的目标标签的情况下仍然可以获得相当的性能。我们的优化使用两个网络。场景网络将整个3D场景映射到一组3D目标中心。由于我们假设场景不是由中心标记的,所以没有经典的损失(如:chamfer)可以用来训练它。取而代之的是,我们使用另一个网络来模拟损失。该损失网络在一个小的带标签的子集上进行训练,并且在存在干扰的情况下将非居中的3D目标映射到其自身的中心。该函数非常类似监督损失具有的梯度,因此可以作为损失来替代。我们的评估文档分别在较低级别的监督下达到具有竞争力的准确性,在可比的监督下具有高质量。

网址: https://arxiv.org/abs/2004.02693

代码链接:

https://github.com/dgriffiths3/finding-your-center

  1. H3DNet: 3D Object Detection Using Hybrid Geometric Primitives

作者:Zaiwei Zhang, Bo Sun, Haitao Yang, Qixing Huang

摘要:我们引入了H3DNet,它以一个三维点云作为输入,输出一组面向目标的边界框(BB)集合及其语义标签。H3DNet的关键思想是预测一组混合的几何图元(geometric primitives),即BB中心、BB面中心和BB边中心。通过定义目标与几何图元之间的距离函数,我们展示了如何将预测的几何图元转换为目标候选。此距离函数可实现对目标候选的连续优化,其局部最小值可提供高保真目标候选。然后,H3DNet利用匹配和优化模块将目标候选分类为检测到的目标,并微调检测到的目标的几何参数。与使用单一类型的几何图元相比,混合几何图元集不仅为目标检测提供了更准确的信号,而且它还在所得到的3D布局上提供了过完整的约束集。因此,H3DNet可以容忍预测的几何图元中的异常值。我们的模型在两个具有真实3D扫描的大型数据集ScanNet和SUN RGB-D上实现了最新的3D检测结果。

网址: https://arxiv.org/abs/2006.05682

代码链接:

https://github.com/zaiweizhang/H3DNet

  1. RTM3D: Real-time Monocular 3D Detection from Object Keypoints for Autonomous Driving

作者:Peixuan Li, Huaici Zhao, Pengfei Liu, Feidao Cao

摘要:在这项工作中,我们提出了一种高效、准确的单目3D检测框架。大多数成功的3D检测器都将3D bounding box 到2D bounding box的投影约束作为一个重要组成部分。2D 框的四个边仅提供四个约束,并且随着2D检测器的小误差,检测性能会急剧恶化。与这些方法不同的是,我们的方法预测图像空间中3D bounding box 的九个透视关键点,然后利用3D和2D透视的几何关系来恢复3D空间中的维度、位置和方向。这种方法即使在关键点的估计非常嘈杂的情况下,也可以稳定地预测目标的属性,这使我们能够以较小的架构获得较快的检测速度。我们的方法的训练仅使用目标的3D属性,而无需外部网络或监督数据。我们的方法是第一个单目图像3D检测的实时系统,同时在KITTI基准上实现了最先进的性能。

网址: https://arxiv.org/abs/2001.03343

代码链接:

https://github.com/Banconxuan/RTM3D

  1. SSN: Shape Signature Networks for Multi-class Object Detection from Point Clouds

作者:Xinge Zhu, Yuexin Ma, Tai Wang, Yan Xu, Jianping Shi, Dahua Lin

摘要:多类别3D目标检测的目标是对点云中的多类别目标进行定位和分类。由于点云的非结构化、稀疏性和噪声等特性,一些有利于多类别区分的特征没有得到充分利用,例如形状信息。本文提出了一种新的3D形状特征来探索点云中的形状信息。通过引入对称、凸包(convex hull)和切比雪夫拟合等操作,我们所提出的形状特征不仅紧凑有效,而且对噪声具有较强的鲁棒性,可以作为一个软约束来提高特征的多类别区分能力。基于提出的形状特征,我们开发了用于3D目标检测的形状特征网络(SSN),该网络由金字塔特征编码部分,形状感知分组头(shape-aware grouping heads)和显式形状编码目标组成。实验表明,该方法在两个大规模数据集上的性能明显优于现有方法。此外,我们的形状特征可以作为一个即插即用的组件,消融实验表明它的有效性和良好的可扩展性。

网址: https://arxiv.org/abs/2004.02774 代码链接: https://github.com/xinge008/SSN

成为VIP会员查看完整内容
0
44

相关内容

【导读】作为计算机视觉领域三大会议之一,European Conference on Computer Vision(欧洲计算机视觉大会,ECCV) 备受全球领域众多专业人士关注。几天前,ECCV 2020官方发布接收论文,本次大会共有5025篇投稿,1361篇被接收,接受率27%。受疫情影响,原定于2020年8月23日-28日在英国格拉斯哥举行的ECCV 2020将会以Online方式进行。论文列表已经放出,小编发现行人重识别方向火热,录用了好多篇相关paper,近期一些Paper已经放出来了,为此专知小编整理了六篇ECCV 2020行人重识别(Person Re-identification,ReID) 相关论文供大家参考——无监督ReID、语义解析、跨域ReID、域自适应ReID

ECCV 2020 接受论文列表: https://eccv2020.eu/accepted-papers/

ECCV2020OD、ICML2020GNN_Part1、KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、

1、Appearance-Preserving 3D Convolution for Video-based Person Re-identification

作者:Xinqian Gu, Hong Chang, Bingpeng Ma, Hongkai Zhang, Xilin Chen

摘要:由于行人检测结果的不完善和姿态的变化,在基于视频的行人重识别(ReID)中时间表观不对齐(temporal appearance misalignment)是不可避免的。在这种情况下,3D卷积可能会破坏行人视频片段的表观表示,从而对ReID造成损害。针对这一问题,我们提出了表观保留三维卷积算法(Appearance-Preserving 3D Convolution, AP3D),它由表观保持模块(Appearance-Preserving Module, APM)和三维卷积核两部分组成。通过APM在像素级别上对齐相邻的特征图,后续的3D卷积可以在保持表观表示质量的前提下对时间信息进行建模。通过简单地用AP3D替换原始的3D卷积内核,可以很容易地将AP3D与现有的3D ConvNet相结合。大量的实验证明了AP3D对于基于视频的ReID的有效性,并且在三个广泛使用的数据集上的结果都超过了最新水平。

代码: https://github.com/guxinqian/AP3D

网址:

https://arxiv.org/abs/2007.08434

2、Global Distance-distributions Separation for Unsupervised Person Re-identification

作者:Xin Jin, Cuiling Lan, Wenjun Zeng, Zhibo Chen

摘要:有监督行人重识别(ReID)在实际部署中由于领域差距和缺乏对目标域数据的标注,往往具有较差的可扩展性和可用性。领域自适应的无监督ReID是有吸引力的,但也是具有挑战性的。现有的无监督ReID方法往往不能通过基于距离的匹配/排序来正确识别正样本和负样本。正样本对(Pos-Distr)和负样本对(Neg-Distr)的两个距离分布通常有很大的重叠不能很好地分开。为了解决这个问题,我们在这两个分布上引入了全局距离分布分离(Global Distance-distributions Separation, GDS)约束,以鼓励从全局角度清晰地分离正样本和负样本。我们将两个全局距离分布建模为高斯分布,并将这两个分布分开,同时鼓励它们在无监督训练过程中保持锐化。具体地说,为了从全局角度对分布进行建模,并促进分布和GDS相关损失的及时更新,我们利用动量更新机制来构建和维护分布参数(均值和方差),并在训练期间动态计算损失。我们还提出了基于分布的难例挖掘,以进一步促进两种分布的分离。我们验证了GDS约束在无监督ReID网络中的有效性。在多个ReID基准数据集上的大量实验表明,我们的方法在基线的基础上有了显着的提高,并达到了最先进的性能。

网址:

https://arxiv.org/abs/2006.00752

3、Identity-Guided Human Semantic Parsing for Person Re-Identification

作者:Kuan Zhu, Haiyun Guo, Zhiwei Liu, Ming Tang, Jinqiao Wang

摘要:现有的alignment-based方法必须使用预先训练好的人类解析模型来实现像素级的比对,并且不能识别对个人ReID至关重要的个人物品(例如背包和网签)。在这篇论文中,我们提出了身份指导的人类语义解析方法(ISP),在只有身份标签的情况下,可以在像素级别定位人体部位和个人物品。我们在特征映射上设计了级联聚类(cascaded clustering)来生成人体部位的伪标签。具体地说,对于一个人的所有图像的像素,我们首先将其分组为前景或背景,然后将前景像素分组为人体部分。聚类分配(cluster assignments)随后被用作人体部件的伪标签来监督部件估计,ISP迭代地学习特征映射并对其进行分组。最后,根据自学习的部位估计得到人体部位和个人物品的局部特征,仅利用可见部位的特征进行检索。在三个广泛使用的数据集上的大量实验验证了ISP方法相对于许多最新方法的优越性。

代码:

https://github.com/CASIA-IVA-Lab/ISP-reID

网址:

https://arxiv.org/abs/2007.13467

4、Joint Disentangling and Adaptation for Cross-Domain Person Re-Identification

作者:Yang Zou, Xiaodong Yang, Zhiding Yu, B.V.K. Vijaya Kumar, Jan Kautz

摘要:尽管有监督行人再识别(re-id)已经取得了很大的进展,但由于存在巨大的领域差距,将re-id模型推广到新的领域仍然具有挑战性。最近,人们对使用无监督的域自适应来解决这一问题的兴趣与日俱增。现有的方法通常在既包含id相关因素又包含id无关因素的表示空间上进行自适应,从而不可避免地削弱了id相关特征的适应效果。在本文中,我们试图通过提炼要适应的表示空间来提高适应性。为此,我们提出了一个联合学习框架,该框架将id-相关/无关的特征分离开来,并且强制适应以单独地在与id相关的特征空间上工作。我们的模型包括一个将跨域图像编码到一个共享表观空间和两个独立结构空间的分解(disentangling)模块,以及一个在共享表观空间上执行对抗对齐和自训练的自适应模块。这两个模块经过联合设计,互相提升。大量的实验表明,所提出的联合学习框架在性能上明显优于最新的方法。

网址:

https://arxiv.org/abs/2007.10315

5、Multiple Expert Brainstorming for Domain Adaptive Person Re-identification

作者:Yunpeng Zhai, Qixiang Ye, Shijian Lu, Mengxi Jia, Rongrong Ji, Yonghong Tian

摘要:通常表现最好的深层神经模型是多个基本网络的集成,然而,关于领域自适应行人Re-ID的集成学习仍然没有被探索。本文提出了一种多专家头脑风暴网络(MEB-Net)用于领域自适应行人识别,为研究无监督条件下的模型集成问题开辟了一个很有前途的方向。MEBNet采用相互学习的策略,在一个源域内将多个不同结构的网络预训练成具有特定特征和知识的专家模型,然后通过专家模型之间的头脑风暴(相互学习)来实现自适应。MEB-Net通过引入专家权威的正则化方案,适应了专家在不同体系结构下学习的异构性,增强了改进后的Re-ID模型的识别能力。在大规模数据集(Market-1501和DukeMTMC-Reid)上的广泛实验证明了MEB-NET优于最先进的模型性能。

代码:

https://github.com/YunpengZhai/MEB-Net.

网址:

https://arxiv.org/abs/2007.01546

6、Rethinking the Distribution Gap of Person Re-identification with Camera-based Batch Normalization

作者:Zijie Zhuang, Longhui Wei, Lingxi Xie, Tianyu Zhang, Hengheng Zhang, Haozhe Wu, Haizhou Ai, and Qi Tian

摘要:行人重识别(ReID)的根本困难在于学习单个摄像机之间的对应关系。它强烈要求相机间的注释,但不能保证经过训练的模型能够很好地传输到以前未出现过的相机上。这些问题极大地限制了ReID的应用。本文对传统ReID方法的工作机制进行了重新思考,并提出了新的解决方案。通过一种有效的基于摄像机的批归一化(CBN)算子,强制所有摄像机的图像数据落在同一个子空间上,从而大大缩小了任意摄像机对之间的分布差距。这种调整带来了两个好处。首先,训练后的模型具有更好的跨场景的泛化能力,以及跨多个训练集的传输能力。其次,我们可以依靠相机间注释,这些注释之前由于缺乏跨相机信息而被低估,以实现具有竞争力的ReID性能。在广泛的ReID任务上的实验证明了该方法的有效性。

代码: https://github.com/automan000/Camera-based-Person-ReID 网址: https://arxiv.org/abs/2001.08680

成为VIP会员查看完整内容
0
28

【导读】ICML(International Conference on Machine Learning),即国际机器学习大会, 是机器学习领域全球最具影响力的学术会议之一,因此在该会议上发表论文的研究者也会备受关注。因疫情的影响, 今年第37届ICML大会已于2020年7月13日至18日在线上举行。据官方统计,ICML 2020共提交4990篇论文,接收论文1088篇,接收率为21.8%。与往年相比,接收率逐年走低。ICML官网公布了接受论文列表,小编发现基于Graph相关的paper依然很多,为此,上个月专知小编为大家整理了图神经网络相关的论文,这期小编继续为大家奉上ICML 2020必读的五篇图神经网络(GNN)相关论文-Part 2——贝叶斯GNN、连续GNN、Faster图嵌入、深度GCN、图Pooling、

ICML 2020 Accepted Paper: https://proceedings.icml.cc/book/2020

ICML2020GNN_Part1、KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、

1. Bayesian Graph Neural Networks with Adaptive Connection Sampling

作者:Arman Hasanzadeh, Ehsan Hajiramezanali, Shahin Boluki, Mingyuan Zhou, Nick Duffifield, Krishna Narayanan, Xiaoning Qian

摘要:我们提出了一个用于图神经网络(GNNs)自适应连接采样(connection sampling)的统一框架,该框架概括了现有的用于训练GNN的随机正则化方法。该框架不仅缓解了深层GNNs的过平滑和过拟合趋势,而且使得GNNs在图分析任务中的不确定性学习成为可能。与现有的随机正则化方法那样使用固定的采样率或手动调整它们作为模型超参数不同,我们的自适应连接采样可以与GNN模型参数以全局和局部的方式联合训练。具有自适应连接采样的GNN训练在数学上等价于训练贝叶斯GNN的有效近似。在基准数据集上的消融实验结果验证了自适应学习采样率是在半监督节点分类任务中提高GNNs性能的关键,使其不容易过平滑和过拟合,具有更稳健的预测能力。

网址: https://proceedings.icml.cc/book/4229.pdf

2.Continuous Graph Neural Networks

作者:Louis-Pascal A. C. Xhonneux, Meng Qu, Jian Tang

摘要:本文建立在图神经网络与传统动力系统之间的联系之上。我们提出了连续图神经网络(Continuous Graph Neural Networks, CGNN),由于CGNN可以看作是一种特定的离散化方案,它进一步推广了现有的具有离散动力学的图神经网络。其核心思想是如何刻画节点表示的连续动力学,即节点表示的导数。受现有的基于图扩散的方法(如社会网络上的PageRank模型和流行病模型)的启发,我们将导数定义为当前节点表示、邻居表示和节点初始值的组合。我们提出并分析了图上的两种可能的动力学--包括节点表示的每一维(也称为特征通道)独立改变或者彼此交互-这两者都有理论上的合理性。所提出的连续图神经网络对过于过平滑具有较强的鲁棒性,因此可以建立更深层次的网络,从而能够捕获节点之间的长期依赖关系。在节点分类任务上的实验结果证明了我们提出的方法在与基线模型竞争上的有效性。

网址: https://proceedings.icml.cc/book/3916.pdf

3.Faster Graph Embeddings via Coarsening

作者:Matthew Fahrbach, Gramoz Goranci, Richard Peng, Sushant Sachdeva, Chi Wang

摘要:图嵌入是一种普遍适用于机器学习任务的工具,如图结构数据上的节点分类和连接预测。然而,即使我们只对相关顶点的一小部分感兴趣,计算大规模图嵌入的效率也是很低的。为了解决这个问题,我们提出了一种基于Schur补(Schur complements)的有效图粗化方法,用于计算相关顶点的嵌入。我们证明了这些嵌入被不相关顶点上通过高斯消去法得到的Schur补图精确地保存。由于计算Schur补的代价很高,我们给出了一个近似线性的时间算法,该算法在每次迭代中在相关顶点上生成一个粗化图,该粗化图在期望上与Schur补相匹配。我们在图上进行的预测任务实验表明,计算嵌入到粗化图上,而不是整个图上,在不牺牲精度的情况下,可以节省大量的时间。

网址: https://proceedings.icml.cc/book/4104.pdf

4. Simple and Deep Graph Convolutional Networks

作者:Ming Chen, Zhewei Wei, Zengfeng Huang, Bolin Ding, Yaliang Li

摘要:图卷积网络(GCNS)是一种强大的图结构数据深度学习方法。最近,GCNS及其变体在真实数据集上的各个应用领域都显示出了优异的性能。尽管取得了成功,但由于过平滑的问题,目前的大多数GCN模型都很浅。本文研究了深图卷积网络的设计与分析问题。我们提出了GCNII模型,它是对普通GCN模型的扩展,使用了两个简单而有效的技术:初始残差和恒等映射(Identity mapping)。我们提供了理论和实验证据,证明这两种技术有效地缓解了过平滑问题。我们的实验表明,深度GCNII模型在各种半监督和全监督任务上的性能优于最先进的方法。

网址: https://proceedings.icml.cc/book/3586.pdf

5. Spectral Clustering with Graph Neural Networks for Graph Pooling

作者:Filippo Maria Bianchi, Daniele Grattarola, Cesare Alippi

摘要:谱聚类(SC)是发现图上强连接社区的一种流行的聚类技术。SC可以在图神经网络(GNN)中使用,以实现聚合属于同一集群节点的池化操作。然而,Laplacian特征分解的代价很高,而且由于聚类结果是特定于图的,因此基于SC的池化方法必须对每个新样本执行新的优化。在本文中,我们提出了一种图聚类方法来解决SC的这些局限性。我们建立了归一化minCUT问题的连续松弛(continuous relaxation )公式,并训练GNN来计算最小化这一目标的聚类分配。我们的基于GNN的实现是可微的,不需要计算谱分解,并且学习了一个聚合函数,可以在样本外的图上快速评估。从提出的聚类方法出发,我们设计了一个图池化算子,它克服了现有图池化技术的一些重要局限性,并在多个监督和非监督任务中取得了最好的性能。

网址: https://proceedings.icml.cc/book/3494.pdf

成为VIP会员查看完整内容
0
64

【导读】作为世界数据挖掘领域的最高级别的学术会议,ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)每年都会吸引全球领域众多专业人士参与。今年的 KDD大会计划将于 2020 年 8 月 23 日 ~27 日在美国美国加利福尼亚州圣地亚哥举行。上周,KDD 2020官方发布接收论文,共有1279篇论文提交到Research Track,共216篇被接收,接收率16.8%。近期KDD官网公布了接受论文列表,为此,上个月专知小编为大家整理了图神经网络相关的论文,这期小编继续为大家奉上KDD 2020必读的五篇图神经网络(GNN)相关论文-Part 2——多层次GCN、无监督预训练GCN、图Hash、GCN主题模型、采样

KDD 2020 Accepted Paper: https://www.kdd.org/kdd2020/accepted-papers

KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、

1. Multi-level Graph Convolutional Networks for Cross-platform Anchor Link Prediction

作者:Hongxu Chen, Hongzhi Yin, Xiangguo Sun, Tong Chen, Bogdan Gabrys, Katarzyna Musial

摘要:跨平台的账号匹配在社交网络分析中发挥着重要作用,并且有利于广泛的应用。然而,现有的方法要么严重依赖于高质量的用户生成内容(包括用户兴趣模型),要么只关注网络拓扑结构,存在数据不足的问题,这使得研究这个方向变得很困难。为了解决这一问题,我们提出了一种新的框架,该框架统一考虑了局部网络结构和超图结构上的多级图卷积。该方法克服了现有工作中数据不足的问题,并且不一定依赖于用户的人口统计信息。此外,为了使所提出的方法能够处理大规模社交网络,我们提出了一种两阶段的空间协调机制,在基于网络分区的并行训练和跨不同社交网络的帐户匹配中对齐嵌入空间。我们在两个大规模的真实社交网络上进行了广泛的实验。实验结果表明,该方法的性能比现有的模型有较大幅度的提高。

网址:

https://arxiv.org/abs/2006.01963

2. GCC: Graph Contrastive Coding for Graph Neural Network Pre-Training

作者:Jiezhong Qiu, Qibin Chen, Yuxiao Dong, Jing Zhang, Hongxia Yang, Ming Ding, Kuansan Wang, Jie Tang

摘要:图表示学习已经成为解决现实问题的一种强有力的技术。包括节点分类、相似性搜索、图分类和链接预测在内的各种下游图学习任务都受益于它的最新发展。然而,关于图表示学习的现有技术集中于领域特定的问题,并为每个图训练专用模型,这通常不可转移到领域之外的数据。受自然语言处理和计算机视觉在预训练方面的最新进展的启发,我们设计了图对比编码(Graph Contrastive Coding,GCC)一个无监督的图表示学习框架来捕捉跨多个网络的通用网络拓扑属性。我们将GCC的预训练任务设计为网络内部和网络之间的子图级别的实例判断,并利用对比学习来增强模型学习内在的和可迁移的结构表征能力。我们在三个图学习任务和十个图数据集上进行了广泛的实验。结果表明,GCC在一组不同的数据集上进行预训练,可以获得与从头开始的特定任务训练的方法相媲美或更好的性能。这表明,预训练和微调范式对图表示学习具有巨大的潜力。

网址:

https://arxiv.org/abs/2006.09963

代码链接:

https://github.com/THUDM/GCC

3. GHashing: Semantic Graph Hashing for Approximate Similarity Search in Graph Databases

作者:Zongyue Qin, Yunsheng Bai, Yizhou Sun

摘要:图相似搜索的目的是根据给定的邻近度,即图编辑距离(GED),在图形数据库中找到与查询最相似的图。这是一个被广泛研究但仍具有挑战性的问题。大多数研究都是基于剪枝验证框架,该框架首先对非看好的图进行剪枝,然后在较小的候选集上进行验证。现有的方法能够管理具有数千或数万个图的数据库,但由于其精确的剪枝策略,无法扩展到更大的数据库。受到最近基于深度学习的语义哈希(semantic hashing)在图像和文档检索中的成功应用的启发,我们提出了一种新的基于图神经网络(GNN)的语义哈希,即GHash,用于近似剪枝。我们首先用真实的GED结果训练GNN,以便它学习生成嵌入和哈希码,以保持图之间的GED。然后建立哈希索引以实现恒定时间内的图查找。在回答一个查询时,我们使用哈希码和连续嵌入作为两级剪枝来检索最有希望的候选对象,并将这些候选对象发送到精确的求解器进行最终验证。由于我们的图哈希技术利用了近似剪枝策略,与现有方法相比,我们的方法在保持高召回率的同时,实现了显著更快的查询时间。实验表明,该方法的平均速度是目前唯一适用于百万级数据库的基线算法的20倍,这表明GHash算法成功地为解决大规模图形数据库的图搜索问题提供了新的方向。

网址:

http://web.cs.ucla.edu/~yzsun/papers/2020_KDD_GHashing.pdf

4. Graph Structural-topic Neural Network

作者:Qingqing Long, Yilun Jin, Guojie Song, Yi Li, Wei Lin

摘要:图卷积网络(GCNS)通过有效地收集节点的局部特征,取得了巨大的成功。然而,GCNS通常更多地关注节点特征,而较少关注邻域内的图结构,特别是高阶结构模式。然而,这种局部结构模式被显示为许多领域中的节点属性。此外,由于网络很复杂,每个节点的邻域由各种节点和结构模式的混合组成,不只是单个模式,所有这些模式上的分布都很重要。相应地,在本文中,我们提出了图结构主题神经网络,简称GraphSTONE,这是一种利用图的主题模型的GCN模型,使得结构主题广泛地从概率的角度捕捉指示性的图结构,而不仅仅是几个结构。具体地说,我们使用 anonymous walks和Graph Anchor LDA(一种LDA的变体,首先选择重要的结构模式)在图上建立主题模型,以降低复杂性并高效地生成结构主题。此外,我们设计了多视图GCNS来统一节点特征和结构主题特征,并利用结构主题来指导聚合。我们通过定量和定性实验对我们的模型进行了评估,我们的模型表现出良好的性能、高效率和清晰的可解释性。

网址:

https://arxiv.org/abs/2006.14278

代码链接:

https://github.com/YimiAChack/GraphSTONE/

5. Minimal Variance Sampling with Provable Guarantees for Fast Training of Graph Neural Networks

作者:Weilin Cong, Rana Forsati, Mahmut Kandemir, Mehrdad Mahdavi

摘要:抽样方法(如节点抽样、分层抽样或子图抽样)已成为加速大规模图神经网络(GNNs)训练不可缺少的策略。然而,现有的抽样方法大多基于图的结构信息,忽略了最优化的动态性,导致随机梯度估计的方差较大。高方差问题在非常大的图中可能非常明显,它会导致收敛速度慢和泛化能力差。本文从理论上分析了抽样方法的方差,指出由于经验风险的复合结构,任何抽样方法的方差都可以分解为前向阶段的嵌入近似方差和后向阶段的随机梯度方差,这两种方差都必须减小,才能获得较快的收敛速度。我们提出了一种解耦的方差减小策略,利用(近似)梯度信息自适应地对方差最小的节点进行采样,并显式地减小了嵌入近似引入的方差。理论和实验表明,与现有方法相比,该方法即使在小批量情况下也具有更快的收敛速度和更好的泛化能力。

网址:

https://arxiv.org/abs/2006.13866

成为VIP会员查看完整内容
0
119

【导读】作为世界数据挖掘领域的最高级别的学术会议,ACM SIGKDD(国际数据挖掘与知识发现大会,简称 KDD)每年都会吸引全球领域众多专业人士参与。今年的 KDD大会计划将于 2020 年 8 月 23 日 ~27 日在美国美国加利福尼亚州圣地亚哥举行。上周,KDD 2020官方发布接收论文,共有1279篇论文提交到Research Track,共216篇被接收,接收率16.8%。近期一些Paper放出来了,为此,专知小编提前为大家整理了五篇KDD 2020 图神经网络(GNN)相关论文,供大家参考。——图结构学习、多元时间序列预测、负采样、多任务多视角图表示学习、多兴趣推荐

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、

1. Graph Structure Learning for Robust Graph Neural Networks

作者:Wei Jin, Yao Ma, Xiaorui Liu, Xianfeng Tang, Suhang Wang, Jiliang Tang

摘要:图神经网络(GNNs)是图表示学习的有力工具。但是,最近的研究表明,GNN容易受到精心设计的扰动(称为对抗攻击)的攻击。对抗性攻击很容易欺骗GNN来预测下游任务。对于对抗攻击的脆弱性使人们越来越关注在安全关键型应用中应用GNN。因此,开发稳健的算法来防御对抗攻击具有重要意义。防御对抗攻击的一个自然想法是清理受干扰的图。很明显,真实世界的图共享一些内在属性。例如,许多现实世界的图都是低秩和稀疏的,两个相邻节点的特征往往是相似的。事实上,我们发现对抗攻击很可能会违背这些图的性质。因此,在本文中,我们利用这些特性来防御针对图的对抗攻击。特别是,我们提出了一个通用框架Pro-GNN,该框架可以从受这些特性指导的扰动图中联合学习结构图和鲁棒图神经网络模型。在真实图上的大量实验表明,即使在图受到严重干扰的情况下,我们所提出的框架也比现有的防御方法获得了显著更好的性能。我们将Pro-GNN的实现发布到我们的DeepRobust存储库,以进行对抗性攻击和防御。

网址: https://arxiv.org/pdf/2005.10203.pdf

代码链接: https://github.com/ChandlerBang/Pro-GNN

2. Connecting the Dots: Multivariate Time Series Forecasting with Graph Neural Networks

作者:Zonghan Wu, Shirui Pan, Guodong Long, Jing Jiang, Xiaojun Chang, Chengqi Zhang

摘要:多变量时间序列的建模长期以来一直吸引着来自经济、金融和交通等不同领域的研究人员的关注。多变量时间序列预测背后的一个基本假设是其变量之间相互依赖,但现有方法未能充分利用变量对之间的潜在空间相关性。同时,近些年来,图神经网络(GNNs)在处理关系依赖方面表现出了很高的能力。GNN需要定义良好的图结构来进行信息传播,这意味着它们不能直接应用于事先不知道依赖关系的多变量时间序列。本文提出了一种专门针对多变量时间序列数据设计的通用图神经网络框架。该方法通过图学习模块自动提取变量间的单向关系,可以方便地集成变量属性等外部知识。在此基础上,提出了一种新的max-hop传播层和一个dilated inception层来捕捉时间序列中的时间和空间依赖关系。图学习、图卷积和时间卷积模块在端到端框架中联合学习。实验结果表明,我们提出的模型在4个基准数据集中的3个数据上优于最新的基线方法,并且在提供额外结构信息的两个交通数据集上,与其他方法具有同等的性能。

网址: https://shiruipan.github.io/publication/kdd-2020-wu/kdd-2020-wu.pdf

3. Understanding Negative Sampling in Graph Representation Learning

作者:Zhen Yang, Ming Ding, Chang Zhou, Hongxia Yang, Jingren Zhou, Jie Tang

摘要:在最近的几年中,对图表示学习进行了广泛的研究。尽管它有可能为各种网络生成连续的嵌入,但是在大型节点集中得到有效高质量的表示仍然具有挑战性。采样是实现该性能目标的关键点。现有技术通常侧重于正向节点对的采样,而对负向采样的策略探索不够。为了弥补这一差距,我们从目标和风险两个角度系统地分析了负采样的作用,从理论上论证了负采样在确定优化目标和结果方差方面与正采样同等重要。据我们所知,我们是第一个推导该理论并量化负采样分布应与其正采样分布成正相关但亚线性相关的方法。在该理论的指导下,我们提出了MCNS,用自对比度近似法近似正分布,并通过Metropolis-Hastings加速负采样。我们在5个数据集上评估了我们的方法,这些数据集涵盖了19个实验设置,涵盖了广泛的下游图学习任务,包括链接预测,节点分类和个性化推荐。这些相对全面的实验结果证明了其稳健性和优越性。

网址: https://arxiv.org/pdf/2005.09863.pdf

4. M2GRL: A Multi-task Multi-view Graph Representation Learning Framework for Web-scale Recommender Systems

作者:Menghan Wang, Yujie Lin, Guli Lin, Keping Yang, Xiao-ming Wu

摘要:将图表示学习与多视图数据(边信息)相结合进行推荐是工业上的一种趋势。现有的大多数方法可以归类为多视图表示融合,它们首先构建一个图,然后将多视图数据集成到图中每个节点的单个紧凑表示中。这些方法在工程和算法方面都引起了人们的关注:1)多视图数据在工业中是丰富而且有用的,并且可能超过单个矢量的容量;2)由于多视图数据往往来自不同的分布,可能会引入归纳偏置(inductive bias)。在本文中,我们使用一种多视图表示对齐方法来解决这个问题。特别地,我们提出了一个多任务多视角图表示学习框架(M2GRL)来学习web级推荐系统中的多视角图节点表示。M2GRL为每个单视图数据构造一个图,从多个图中学习多个单独的表示,并执行对齐以建立模型的交叉视图关系。M2GRL选择了一种多任务学习范式来联合学习视图内表示和交叉视图关系。此外,M2GRL在训练过程中利用同方差不确定性自适应地调整任务的损失权重。我们在淘宝部署了M2GRL,并对570亿个实例进行了训练。根据离线指标和在线A/B测试,M2GRL的性能明显优于其他最先进的算法。对淘宝多样性推荐的进一步研究表明,利用M2GRL产生的多种表征是有效的,对于不同侧重点的各种工业推荐任务来说,M2GRL是一个很有前途的方向。

网址:

https://arxiv.org/pdf/2005.10110.pdf

5. Controllable Multi-Interest Framework for Recommendation

作者:Yukuo Cen, Jianwei Zhang, Xu Zou, Chang Zhou, Hongxia Yang, Jie Tang

摘要:近年来,由于深度学习的快速发展,神经网络在电子商务推荐系统中得到了广泛的应用。我们将推荐系统形式化为一个序列推荐问题,目的是预测可能与用户交互的下一个项目。最近的研究通常从用户的行为序列中给出一个整体的嵌入。然而,统一的用户嵌入不能反映用户在一段时间内的多个兴趣。本文提出了一种新颖的可控多兴趣序列推荐框架,称为ComiRec。我们的多兴趣模块从用户行为序列中捕获多个兴趣,可用于从大规模项目集中检索候选项目。然后将这些项目送入聚合模块以获得总体推荐。聚合模块利用一个可控因素来平衡推荐的准确性和多样性。我们在两个真实的数据集Amazon和Taobao进行序列推荐实验。实验结果表明,我们的框架相对于最新模型取得了重大改进。我们的框架也已成功部署在离线阿里巴巴分布式云平台上。

网址: https://arxiv.org/pdf/2005.09347.pdf

代码链接: https://github.com/cenyk1230/ComiRec

成为VIP会员查看完整内容
0
76

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议 CVPR 每年都会吸引全球领域众多专业人士参与。由于受COVID-19疫情影响,原定于6月16日至20日在华盛顿州西雅图举行的CVPR 2020将全部改为线上举行。今年的CVPR有6656篇有效投稿,最终有1470篇论文被接收,接收率为22%左右。之前小编为大家整理过CVPR 2020 GNN 相关论文,这周小编继续为大家整理了五篇CVPR 2020 图神经网络(GNN)相关论文,供大家参考——行为识别、少样本学习、仿射跳跃连接、多层GCN、3D视频目标检测。

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN

1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

摘要:基于骨架的动作识别算法广泛使用时空图对人体动作动态进行建模。为了从这些图中捕获鲁棒的运动模式,长范围和多尺度的上下文聚合与时空依赖建模是一个强大的特征提取器的关键方面。然而,现有的方法在实现(1)多尺度算子下的无偏差长范围联合关系建模和(2)用于捕捉复杂时空依赖的通畅的跨时空信息流方面存在局限性。在这项工作中,我们提出了(1)一种简单的分解(disentangle)多尺度图卷积的方法和(2)一种统一的时空图卷积算子G3D。所提出的多尺度聚合方法理清了不同邻域中节点对于有效的远程建模的重要性。所提出的G3D模块利用密集的跨时空边作为跳过连接(skip connections),用于在时空图中直接传播信息。通过耦合上述提议,我们开发了一个名为MS-G3D的强大的特征提取器,在此基础上,我们的模型在三个大规模数据集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能优于以前的最先进方法。

网址: https://arxiv.org/pdf/2003.14111.pdf

代码链接: github.com/kenziyuliu/ms-g3d

2. DPGN: Distribution Propagation Graph Network for Few-shot Learning

作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu

摘要:大多数基于图网络的元学习方法都是为实例的instance-level关系进行建模。我们进一步扩展了此思想,以1-vs-N的方式将一个实例与所有其他实例的分布级关系明确建模。我们提出了一种新的少样本学习方法--分布传播图网络(DPGN)。它既表达了每个少样本学习任务中的分布层次关系,又表达了实例层次关系。为了将所有实例的分布层关系和实例层关系结合起来,我们构造了一个由点图和分布图组成的对偶全图网络,其中每个节点代表一个实例。DPGN采用双图结构,在更新时间内将标签信息从带标签的实例传播到未带标签的实例。在少样本学习的大量基准实验中,DPGN在监督设置下以5%∼12%和在半监督设置下以7%∼13%的优势大大超过了最新的结果。

网址: https://arxiv.org/pdf/2003.14247.pdf

代码链接: https://github.com/megvii-research/DPGN

3. Geometrically Principled Connections in Graph Neural Networks

作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou

摘要:图卷积操作为以前认为遥不可及的各种图形和网格处理任务带来了深度学习的优势。随着他们的持续成功,人们希望设计更强大的体系结构,这通常是将现有的深度学习技术应用于非欧几里得数据。在这篇文章中,我们认为几何应该仍然是几何深度学习这一新兴领域创新的主要驱动力。我们将图神经网络与广泛成功的计算机图形和数据近似模型(径向基函数(RBF))相关联。我们推测,与RBF一样,图卷积层将从向功能强大的卷积核中添加简单函数中受益。我们引入了仿射跳跃连接 (affine skip connections),这是一种通过将全连接层与任意图卷积算子相结合而形成的一种新的构建块。通过实验证明了我们的技术的有效性,并表明性能的提高是参数数量增加的结果。采用仿射跳跃连接的算子在形状重建、密集形状对应和图形分类等每一项任务上的表现都明显优于它们的基本性能。我们希望我们简单有效的方法将成为坚实的基准,并有助于简化图神经网络未来的研究。

网址: https://arxiv.org/pdf/2004.02658.pdf

4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen

摘要:图卷积网络(GCN)在许多应用中越来越受欢迎,但在大型图形数据集上的训练仍然是出了名的困难。它们需要递归地计算邻居的节点表示。当前的GCN训练算法要么存在随层数呈指数增长的高计算成本,要么存在加载整个图和节点嵌入的高内存使用率问题。本文提出了一种新的高效的GCN分层训练框架(L-GCN),该框架将训练过程中的特征聚合和特征变换分离开来,从而大大降低了时间和存储复杂度。我们在图同构框架下给出了L-GCN的理论分析,在温和的条件下,与代价更高的传统训练算法相比L-GCN可以产生同样强大的GCN。我们进一步提出了L2-GCN,它为每一层学习一个控制器,该控制器可以自动调整L-GCN中每一层的训练周期。实验表明,L-GCN比现有技术快至少一个数量级,内存使用量的一致性不依赖于数据集的大小,同时保持了还不错的预测性能。通过学习控制器,L2-GCN可以将训练时间进一步减少一半。

网址: https://arxiv.org/pdf/2003.13606.pdf

代码链接: https://github.com/Shen-Lab/L2-GCN

补充材料:

https://slack-files.com/TC7R2EBMJ-F012C60T335-281aabd097

5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang

摘要:现有的基于LiDAR的3D目标检测算法通常侧重于单帧检测,而忽略了连续点云帧中的时空信息。本文提出了一种基于点云序列的端到端在线3D视频对象检测器。该模型包括空间特征编码部分和时空特征聚合部分。在前一个组件中,我们提出了一种新的柱状消息传递网络(Pillar Message Passing Network,PMPNet)来对每个离散点云帧进行编码。它通过迭代信息传递的方式自适应地从相邻节点收集柱节点的信息,有效地扩大了柱节点特征的感受野。在后一组件中,我们提出了一种注意力时空转换GRU(AST-GRU)来聚合时空信息,通过注意力记忆门控机制增强了传统的ConvGRU。AST-GRU包含一个空间Transformer Attention(STA)模块和一个时间Transformer Attention(TTA)模块,分别用于强调前景对象和对齐动态对象。实验结果表明,所提出的3D视频目标检测器在大规模的nuScenes基准测试中达到了最先进的性能。

网址: https://arxiv.org/pdf/2004.01389.pdf

代码链接: https://github.com/yinjunbo/3DVID

成为VIP会员查看完整内容
0
71

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都会吸引全球领域众多专业人士参与。由于受COVID-19疫情影响,原定于6月16日至20日在华盛顿州西雅图举行的CVPR 2020将全部改为线上举行。今年的CVPR有6656篇有效投稿,最终有1470篇论文被接收,接收率为22%左右。为此,专知小编提前为大家整理了五篇CVPR 2020场景图神经网络(SGNN)相关论文,让大家先睹为快——3D语义分割、指代表达式推理、图像描述生成、图像处理、时空图。

WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN、ICML2019GNN

1. Learning 3D Semantic Scene Graphs from 3D Indoor Reconstructions

作者:Johanna Wald, Helisa Dhamo, Nassir Navab, Federico Tombari

摘要:场景理解(scene understanding)一直是计算机视觉领域的研究热点。它不仅包括识别场景中的对象,还包括识别它们在给定上下文中的关系。基于这一目标,最近的一系列工作解决了3D语义分割和场景布局预测问题。在我们的工作中,我们关注场景图,这是一种在图中组织场景实体的数据结构,其中对象是节点,它们的关系建模为边。我们利用场景图上的推理作为实现3D场景理解、映射对象及其关系的一种方式。特别地,我们提出了一种从场景的点云回归场景图的学习方法。我们的新体系结构是基于PointNet和图卷积网络(GCN)的。此外,我们还介绍了一个半自动生成的数据集3DSSG,它包含了语义丰富的三维场景图。我们展示了我们的方法在一个领域无关的检索任务中的应用,其中图作为3D-3D和2D-3D匹配的中间表示。

网址:

https://arxiv.org/pdf/2004.03967.pdf

2. Graph-Structured Referring Expression Reasoning in The Wild

作者:Sibei Yang, Guanbin Li, Yizhou Yu

摘要:Grounding referring expressions的目标是参照自然语言表达式在图像中定位一个目标。指代表达式(referring expression)的语言结构为视觉内容提供了推理的布局,并且该结构对于校准和共同理解图像与指代表达式是十分重要的。本文提出了一种场景图引导的模块化网络(SGMN),它在表达式的语言结构指导下,用神经模块对语义图和场景图进行推理。特别地,我们将图像(image)建模为结构化语义图,并将表达式解析为语言场景图。语言场景图不仅对表达式的语言结构进行解码,而且与图像语义图具有一致的表示。除了探索指代表达式基础的结构化解决方案外,我们还提出了Ref-Reasning,一个用于结构化指代表达式推理的大规模真实数据集。我们使用不同的表达式模板和函数式程序自动生成图像场景图上的指代表达式。该数据集配备了真实世界的可视化内容以及具有不同推理布局的语义丰富的表达式。实验结果表明,SGMN不仅在新的Ref-Reasning数据集上的性能明显优于现有的算法,而且在常用的基准数据集上也超过了最先进的结构化方法。它还可以为推理提供可解释的可视化证据。

网址:

https://arxiv.org/pdf/2004.08814.pdf

代码链接:

https://github.com/sibeiyang/sgmn

3. Say As Y ou Wish: Fine-grained Control of Image Caption Generation with Abstract Scene Graphs

作者:Shizhe Chen, Qin Jin, Peng Wang, Qi Wu

摘要:人类能够随心所欲地用粗到细的细节来描述图像内容。然而,大多数图像字幕模型是意图不可知的(intention-agnostic),不能主动根据不同的用户意图生成各种描述。在这项工作中,我们提出了抽象场景图(ASG)结构来在细粒度层次上表示用户意图,并控制生成的描述应该是什么和有多详细。ASG是一个由三种类型的抽象节点(对象、属性、关系)组成的有向图,它们以图像为基础,没有任何具体的语义标签。因此,这些节点可以很容易通过手动或自动获得。与在VisualGenome和MSCOCO数据集上精心设计的基线相比,我们的模型在ASG上实现了更好的可控性条件。它还通过自动采样不同的ASG作为控制信号,显著提高了字幕多样性。

网址:

https://arxiv.org/pdf/2003.00387.pdf

4. Semantic Image Manipulation Using Scene Graphs

作者:Helisa Dhamo, Azade Farshad, Iro Laina, Nassir Navab, Gregory D. Hager, Federico Tombari, Christian Rupprecht

摘要:图像处理可以被认为是图像生成的特例,其中要生成的图像是对现有图像的修改。在很大程度上,图像生成和处理都是对原始像素进行操作的任务。然而,在学习丰富的图像和对象表示方面的显著进展已经为主要由语义驱动的诸如文本到图像或布局到图像生成之类的任务开辟了道路。在我们的工作中,我们解决了从场景图进行图像处理的新问题,在该问题中,用户可以仅通过对从图像生成的语义图的节点或边进行修改来编辑图像。我们的目标是对给定constellation中的图像信息进行编码,然后在此基础上生成新的constellation,例如替换对象,甚至改变对象之间的关系,同时尊重原始图像的语义和样式。我们引入了空间语义场景图网络,该网络不需要直接监督constellation变化或图像编辑。这使得从现有的现实世界数据集中训练系统成为可能,而无需额外的注释工作。

网址:

https://www.researchgate.net/publication/340523427_Semantic_Image_Manipulation_Using_Scene_Graphs

代码链接:

https://he-dhamo.github.io/SIMSG/

5. Spatio-Temporal Graph for Video Captioning with Knowledge Distillation

作者:Boxiao Pan, Haoye Cai, De-An Huang, Kuan-Hui Lee, Adrien Gaidon, Ehsan Adeli, Juan Carlos Niebles

摘要:视频描述生成是一项具有挑战性的任务,需要对视觉场景有深刻的理解。最先进的方法使用场景级或对象级信息生成字幕,但没有显式建模对象交互。因此,它们通常无法做出基于视觉的预测,并且对虚假相关性敏感。在本文中,我们为视频字幕提出了一种新颖的时空图模型,该模型利用了时空中的对象交互作用。我们的模型建立了可解释的连接,并且能够提供明确的视觉基础。为了避免对象数量变化带来的性能不稳定,我们进一步提出了一种对象感知的知识提炼机制,该机制利用局部对象信息对全局场景特征进行正则化。通过在两个基准上的广泛实验证明了我们的方法的有效性,表明我们的方法在可解释的预测上产生了具有竞争力的性能。

网址:

https://arxiv.org/pdf/2003.13942.pdf

成为VIP会员查看完整内容
0
43

【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。近期,一些Paper放出来,Domain Adaptation(域自适应)相关研究非常火热,特别是基于Domain Adaptation的视觉应用在今年的CVPR中有不少,专知小编整理了CVPR 2020 域自适应(DA)相关的比较有意思的值得阅读的六篇论文,供大家参考—行为分割、语义分割、目标检测、行为识别、域自适应检索。

  1. Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

作者:Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira

摘要:尽管最近在全监督行为分割(action segmentation)技术方面取得了一些进展,但性能仍然不尽如人意。一个主要挑战是时空变化问题(例如,不同的人可能以不同的方式进行相同的活动)。因此,我们利用无标签视频将行为分割任务重新表述为一个具有时空变化引起的域差异的跨域问题来解决上述时空变化问题。为了减少这种域差异,我们提出了自监督时域自适应(SSTDA),它包含两个自监督辅助任务(二进制和序列域预测)来联合对齐嵌入局部和全局时间动态的跨域特征空间,取得了比其他域自适应(DA)方法更好的性能。在三个具有挑战性的基准数据集(GTEA、50Salads和Breakfast)上,SSTDA的表现远远超过当前最先进的方法(在Breakfas上F1@25得分从59.6%到69.1%,在50Salads上F1@25得分从73.4%到81.5%,在GTEA上F1@25得分从83.6%到89.1%),并且只需要65%的标记训练数据来就实现了该性能,这表明了SSTDA在各种变化中适应未标记目标视频的有效性。

网址:https://arxiv.org/abs/2003.02824

代码链接:https://github.com/cmhungsteve/SSTDA

  1. Differential Treatment for Stuff and Things:A Simple Unsupervised Domain Adaptation Method for Semantic Segmentation

作者:Zhonghao Wang, Mo Yu, Yunchao Wei, Rogerior Feris, Jinjun Xiong, Wen-mei Hwu, Thomas S. Huang, Honghui Shi

摘要:本文通过缓解源域(合成数据)和目标域(真实数据)之间的域转换(domain shift),研究语义分割中的无监督域自适应问题。之前的方法证明,执行语义级对齐有助于解决域转换问题。我们观察到事物类别通常在不同域的图像之间具有相似的外观,而事物(即目标实例)具有更大的差异,我们提出使用针对填充(stuff)区域和事物的不同策略来改进语义级别的对齐方式:1)对于填充类别,我们为每一类生成特征表示,并进行从目标域到源域的对齐操作;2)对于事物(thing)类别,我们为每个单独的实例生成特征表示,并鼓励目标域中的实例与源域中最相似的实例对齐。以这种方式,事物类别内的个体差异也将被考虑,以减轻过度校准。除了我们提出的方法之外,我们还进一步揭示了当前对抗损失在最小化分布差异方面经常不稳定的原因,并表明我们的方法可以通过最小化源域和目标域之间最相似的内容和实例特征来帮助缓解这个问题。

网址:https://arxiv.org/abs/2003.08040

  1. Exploring Categorical Regularization for Domain Adaptive Object Detection

作者:Chang-Dong Xu, Xing-Ran Zhao, Xin Jin, Xiu-Shen Wei

摘要:在本文中,我们解决了域自适应目标检测问题,其中的主要挑战在于源域和目标域之间存在明显的域差距。以前的工作试图明确地对齐图像级和实例级的移位,以最小化域差异。然而,它们仍然忽略了去匹配关键图像区域和重要的跨域实例,这将严重影响域偏移缓解。在这项工作中,我们提出了一个简单有效的分类正则化框架来缓解这个问题。它可以作为一个即插即用(plug-and-play)组件应用于一系列域自适应Faster R-CNN方法,这些方法在处理域自适应检测方面表现突出。具体地说,由于分类方式的定位能力较弱,通过在检测主干上集成图像级多标签分类器,可以获得与分类信息相对应的稀疏但关键的图像区域。同时,在实例级,我们利用图像级预测(分类器)和实例级预测(检测头)之间的分类一致性作为正则化因子,自动寻找目标域的硬对齐实例。各种域转移场景的大量实验表明,与原有的域自适应Faster R-CNN检测器相比,我们的方法获得了显着的性能提升。此外,定性的可视化和分析可以证明我们的方法能够关注针对领域适配的关键区域/实例。

网址:https://arxiv.org/abs/2003.09152

代码链接:https://github.com/Megvii-Nanjing/CR-DA-DET

  1. Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

作者:Jonathan Munro, Dima Damen

摘要:细粒度行为识别数据集存在出环境偏差,多个视频序列是从有限数量的环境中捕获的。在一个环境中训练模型并在另一个环境中部署会由于不可避免的域转换而导致性能下降。无监督域适应(UDA)方法经常利用源域和目标域之间进行对抗性训练。然而,这些方法并没有探索视频在每个域中的多模式特性。在这项工作中,除了对抗性校准之外,我们还利用模态之间的对应关系作为UDA的一种自监督校准方法。

我们在大规模数据集EPIC-Kitchens中的三个kitchens上使用行为识别的两种模式:RGB和光学流(Optical Flow)测试了我们的方法。结果显示,仅多模态自监督比仅进行源训练的性能平均提高了2.4%。然后,我们将对抗训练与多模态自监督相结合,表明我们的方法比其他UDA方法要好3%。

网址:https://arxiv.org/abs/2001.09691

  1. Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation

作者:Myeongjin Kim, Hyeran Byun

摘要:由于用于语义分割的像素级标签标注很费力,因此利用合成数据是一种更好的解决方案。然而,由于合成域和实域之间存在领域鸿沟,用合成数据训练的模型很难推广到真实数据。本文将这两个领域之间的根本差异作为纹理,提出了一种自适应目标域纹理的方法。首先,我们使用样式转移算法使合成图像的纹理多样化。合成图像的各种纹理防止分割模型过拟合到一个特定(合成)纹理。然后,通过自训练对模型进行微调,得到对目标纹理的直接监督。我们的结果达到了最先进的性能,并通过大量的实验分析了在多样化数据集上训练的模型的性质。

网址:https://arxiv.org/abs/2003.00867

  1. Probability Weighted Compact Feature for Domain Adaptive Retrieval

作者:Fuxiang Huang, Lei Zhang, Yang Yang, Xichuan Zhou

摘要:域自适应图像检索包括单域检索和跨域检索。现有的图像检索方法大多只关注单个域的检索,假设检索数据库和查询的分布是相似的。然而,在实际应用中,通常在理想光照/姿态/背景/摄像机条件下获取的检索数据库与在非受控条件下获得的查询之间的差异很大。本文从实际应用的角度出发,重点研究跨域检索的挑战性问题。针对这一问题,我们提出了一种有效的概率加权紧凑特征学习(PWCF)方法,它提供域间相关性指导以提高跨域检索的精度,并学习一系列紧凑二进制码(compact binary codes)来提高检索速度。首先,我们通过最大后验估计(MAP)推导出我们的损失函数:贝叶斯(BP)诱发的focal-triplet损失、BP诱发的quantization损失和BP诱发的分类损失。其次,我们提出了一个通用的域间复合结构来探索域间的潜在相关性。考虑到原始特征表示因域间差异而存在偏差,复合结构难以构造。因此,我们从样本统计的角度提出了一种新的特征—邻域直方图特征(HFON)。在不同的基准数据库上进行了大量的实验,验证了我们的方法在领域自适应图像检索中的性能优于许多最先进的图像检索方法。

网址:https://arxiv.org/abs/2003.03293

代码链接:https://github.com/fuxianghuang1/PWCF

成为VIP会员查看完整内容
0
72
小贴士
相关论文
Text Level Graph Neural Network for Text Classification
Lianzhe Huang,Dehong Ma,Sujian Li,Xiaodong Zhang,Houfeng WANG
7+阅读 · 2019年10月6日
Scene Text Detection and Recognition: The Deep Learning Era
Shangbang Long,Xin He,Cong Yao
15+阅读 · 2019年9月5日
Factor Graph Attention
Idan Schwartz,Seunghak Yu,Tamir Hazan,Alexander Schwing
5+阅读 · 2019年4月11日
Nocaps: novel object captioning at scale
Harsh Agrawal,Karan Desai,Xinlei Chen,Rishabh Jain,Dhruv Batra,Devi Parikh,Stefan Lee,Peter Anderson
6+阅读 · 2018年12月20日
Exploring Visual Relationship for Image Captioning
Ting Yao,Yingwei Pan,Yehao Li,Tao Mei
14+阅读 · 2018年9月19日
Michael Motro,Joydeep Ghosh
3+阅读 · 2018年5月21日
Yuxin Wu,Kaiming He
7+阅读 · 2018年3月22日
Kuang-Huei Lee,Xi Chen,Gang Hua,Houdong Hu,Xiaodong He
3+阅读 · 2018年3月21日
Hyeonwoo Noh,Andre Araujo,Jack Sim,Tobias Weyand,Bohyung Han
3+阅读 · 2018年2月3日
Hiroya Maeda,Yoshihide Sekimoto,Toshikazu Seto,Takehiro Kashiyama,Hiroshi Omata
8+阅读 · 2018年1月29日
Top