最近计算机视觉三大顶会之一ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文,其中有 1617 篇论文被接收,接收率为25.9%。专知在这里整理来自Twitter、arXiv、知乎放出来的20篇最新ICCV Oral论文,方便大家抢先阅览!这些论文包括目标检测、域自适应、因果推理、语义分割等。

  1. BARF:束调整神经辐射场,BARF: Bundle-Adjusting Neural Radiance Fields

https://www.zhuanzhi.ai/paper/b63a7cac32419f3d5cd9601cc0f41cff https://chenhsuanlin.bitbucket.io/bundle-adjusting-NeRF/

  1. 端到端多模态理解的调制检测,MDETR : Modulated Detection for End-to-End Multi-Modal Understanding

https://www.zhuanzhi.ai/paper/945f0402f0332c41872bb7869e490be3

  1. 稠密对应无监督学习,Warp Consistency for Unsupervised Learning of Dense Correspondences

https://www.zhuanzhi.ai/paper/678dd14c5c3ed4b6ab0c4c782ed0f135

  1. 目标检测和实例分割的Rank & Sort损失,Rank & Sort Loss for Object Detection and Instance Segmentation

https://arxiv.org/abs/2002.12213

  1. 递归条件高斯的有序无监督域自适应, Recursively Conditional Gaussian for Ordinal Unsupervised Domain Adaptation

https://www.zhuanzhi.ai/paper/64e91d0014516f1556b0b8101808d141

  1. SimROD:一种简单的鲁棒目标检测自适应方法,SimROD: A Simple Adaptation Method for Robust Object Detection

https://www.zhuanzhi.ai/paper/5ddf35892e95179e384ff22f84e52821

  1. 残差对数似然估计的人体姿态回归,Human Pose Regression with Residual Log-likelihood Estimation

https://www.zhuanzhi.ai/paper/e029b16a9f5bdfbf2b83993a1e4d3be2

  1. 无监督域适应的运输因果机制,Transporting Causal Mechanisms for Unsupervised Domain Adaptation

https://www.zhuanzhi.ai/paper/57f86ec4e25735fa6a744ec9d1747851

  1. 深度假检测的自一致性学习,Learning Self-Consistency for Deepfake Detection

https://www.zhuanzhi.ai/paper/5115974ee34bc53b0e76fce5b5f5b264

  1. 自监督对应学习,Rethinking Self-supervised Correspondence Learning: A Video Frame-level Similarity Perspective

https://www.zhuanzhi.ai/paper/57095349f92f887dd0c496af3986197e

  1. 研究语义分割中无监督领域自适应的鲁棒性,Exploring Robustness of Unsupervised Domain Adaptation in Semantic Segmentation

https://www.zhuanzhi.ai/paper/0b6a434549580ea778cdf816522b5784

  1. 用于稳健姿态估计的三维人体运动模型,HuMoR: 3D Human Motion Model for Robust Pose Estimation

https://www.zhuanzhi.ai/paper/9f76eaa62f8a456a6acddb107e1c1569

  1. 半监督语义分割,Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation

https://www.zhuanzhi.ai/paper/8400abaa3b0718f15fdf5b531c86eeda

  1. 通过跨域集成的鲁棒性,Robustness via Cross-Domain Ensembles https://www.zhuanzhi.ai/paper/2ab2815739ff76f5e17ac41dbb537175

  2. 弱监督物体定位路由再思考,Just Ask: Learning to Answer Questions from Millions of Narrated Videos

https://www.zhuanzhi.ai/paper/fe5d9d7861cec92597a33dbf3178d776

成为VIP会员查看完整内容
0
31

相关内容

【导读】作为计算机视觉领域的三大国际顶会之一,ICCV 每年都会吸引全球领域众多专业人士参与。不久前,ICCV2021接收结果已经公布,本次ICCV共计 6236 篇有效提交论文,其中有 1617 篇论文被接收,接收率为25.9%。

为此,专知小编为大家整理了五篇 ICCV 2021 语义分割(Semantic Segmentation)相关研究和应用,这块这几年一直比较受关注——弱监督语义分割、半监督语义分割、无监督语义分割、少样本语义分割、实例分割

CVPR2021CL、CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Leveraging Auxiliary Tasks with Affinity Learning for Weakly Supervised Semantic Segmentation

作者:Lian Xu, Wanli Ouyang, Mohammed Bennamoun, Farid Boussaid, Ferdous Sohel, Dan Xu

摘要:在缺乏大量标记数据的情况下,语义分割是一项具有挑战性的任务。仅依靠具有图像级标签的类激活图 (CAM) 作为语义分割的监督信息是远远不够的。因此,先前的工作用预训练的模型来生成粗粒度的显著图(Saliency Map),以指导伪分割标签的生成。然而,常用的离线启发式生成过程不能充分利用这些粗显著图的优点。受显著的任务间相关性的启发,本文提出了一种新的弱监督多任务框架,称为AuxSegNet,利用显著性检测和多标签图像分类作为辅助任务,仅使用图像级真实标签来改进语义分割的主要任务。受它们相似的结构化语义的启发,本文还提出从显著性和分割表示中学习跨任务全局像素级亲和图。学习到的跨任务亲和性可用于改进显著性预测,并传播 CAM 映射,从而为这两个任务提供改进的伪标签。伪标签更新和跨任务亲和学习之间的相互促进,使得分割性能得到迭代改进。大量实验证明了本文所提出的辅助学习网络结构和跨任务亲和学习方法的有效性。该方法在具有挑战性的PASCAL VOC 2012和MS COCO基准测试中达到了最先进的弱监督分割性能。

论文: https://arxiv.org/abs/2107.11787

代码: https://github.com/xulianuwa/AuxSegNet

2. Re-distributing Biased Pseudo Labels for Semi-supervised Semantic Segmentation: A Baseline Investigation

作者:Ruifei He, Jihan Yang, Xiaojuan Qi

摘要:虽然自训练具有先进的半监督语义分割,但它严重受到现实世界语义分割数据集上的长尾类分布的影响,导致伪标记数据偏向于多数类。本文提出了一种简单而有效的分布对齐和随机采样 (DARS) 方法,来生成无偏伪标签,来与标记数据中估计的真实类别分布匹配。此外,本文还提供了渐进式数据增强和标记策略,以促进使用伪标记数据进行模型训练。Cityscapes 和 PASCAL VOC 2012 数据集的实验证明了本文方法的有效性。尽管很简单,但与最先进的方法相比,本文的方法表现不错。

论文: https://arxiv.org/abs/2107.11279

代码: https://github.com/CVMI-Lab/DARS

3. Labels4Free: Unsupervised Segmentation using StyleGAN

作者:Rameen Abdal, Peihao Zhu, Niloy Mitra, Peter Wonka

摘要:

本文为StyleGAN生成的目标对象提出了一个无监督的分割框架。本文基于两个主要观察结果。首先,StyleGAN生成的特征包含有价值的信息,可用于训练分割网络。其次,前景和背景通常可以被视为在很大程度上是独立的,并以不同的方式合成。对于本文的解决方案,本文提出使用分割分支来增强StyleGAN2生成器架构,并将生成器拆分为前景和背景网络。这使本文能够以无监督的方式为前景对象生成软分割掩码。在多个对象类别上,本文报告了与最先进的监督分割网络的可比结果,而与最佳的无监督分割方法相比,本文在定性和定量指标上都表现出了明显的改进。

论文: https://arxiv.org/abs/2103.14968

4. Mining Latent Classes for Few-shot Segmentation

作者:Lihe Yang, Wei Zhuo, Lei Qi, Yinghuan Shi, Yang Gao

摘要:少样本分割(FSS)旨在仅在给定几个带注释的样本的情况下分割不可见的类。现有方法存在特征破坏的问题,即在训练阶段将潜在的新类作为背景。本文的方法旨在缓解这个问题并增强潜在新类的特征嵌入。在本文的工作中,本文提出了一种新颖的联合训练框架。基于对支持-查询对的常规情景训练,本文添加了一个额外的挖掘分支,该分支通过可转移的子集群利用潜在的新类,并在背景和前景类别上采用新校正技术,以得到更稳定的原型。除此之外,本文的可转移子集群能够利用额外的未标记数据来进一步增强特征。在两个 FSS 基准测试中的大量实验表明,本文的方法在PASCAL-5i上mIOU提升3.7%,在COCO-20i上的mIOU提升7.0%,大幅优于以前的最先进技术,参数减少了74%,推理速度提升2.5 倍。

论文: https://arxiv.org/abs/2103.15402

5. Rank & Sort Loss for Object Detection and Instance Segmentation

作者:Kemal Oksuz, Baris Can Cam, Emre Akbas, Sinan Kalkan

摘要:本文提出Rank & Sort (RS) Loss,作为基于排序的损失函数来训练深度目标检测和实例分割方法(即视觉检测器)。RS Loss监督分类器,分类器是这些方法的一个子网络,来将每个正例排在所有负例之上,并根据(wrt.)它们的连续定位质量(例如 Intersection-over-Union - IoU)在它们之间对正例进行排序。为了解决排序和排序的不可区分性,本文将错误驱动更新与反向传播的结合重新制定为Identity Update,这使本文能够对正样本中的新排序错误进行建模。使用 RS Loss,本文显著地简化了训练:(i)由于本文的排序目标,分类器优先考虑正例,而无需额外的辅助头(例如,centerness、IoU、mask-IoU),(ii)由于基于排序的性质,RS Loss对类不平衡具有鲁棒性,因此,不需要采样启发式(iii)本文使用无微调任务平衡系数来解决视觉检测器的多任务性质。使用 RS Loss,本文仅通过调整学习率来训练七个不同的视觉检测器,并表明它始终优于基线:例如本文的 RS Loss将 (i) 在 COCO 数据集上,Faster R-CNN 上box AP提高了3,而 aLRP Loss(基于排名的基线)提高了2,(ii)LVIS 数据集上,具有重复因子采样(RFS)的 Mask R-CNN 上mask AP提高了 3.5(稀有类约为 7);并且也优于所有同行。

论文: https://arxiv.org/abs/2107.11669

代码: https://github.com/kemaloksuz/RankSortLoss

成为VIP会员查看完整内容
0
12

最近人工智能顶级会议AAAI2021接收结果已经公布,一共有1692篇论文被接收,接收率为21%,相比去年的20.6%高0.4%,竞争越来越激烈。专知在这里整理来自Twitter、arXiv、知乎放出来的30篇最新AAAI2021论文,方便大家抢先阅览!这些论文包括自监督学习、知识蒸馏、对抗攻击、领域自适应等。

最新AAAI 2021论文接收列表已经公布!

成为VIP会员查看完整内容
0
51

最近人工智能顶级会议AAAI2021接收结果已经公布,一共有1692篇论文被接收,接收率为21%,相比去年的20.6%高0.4%,竞争越来越激烈。专知在这里整理来自Twitter、arXiv、知乎放出来的30篇最新AAAI2021论文,方便大家抢先阅览!这些论文包括自监督学习、知识蒸馏、对抗攻击、领域自适应等。

【快讯】AAAI2021结果出炉,1692篇上榜, 你的paper中了吗?

1. 解耦场景和运动的无监督视频表征学习 Enhancing Unsupervised Video Representation Learning by Decoupling the Scene and the Motion 图片

https://www.zhuanzhi.ai/paper/42ddafb6945128ad5addba30e924f401

相比于图像表征学习,视频表征学习中的一个重要因素是物体运动信息(Object Motion)。然而我们发现, 在当前主流的视频数据集中, 一些动作类别会和发生的场景强相关, 导致模型往往只关注了场景信息。比如,模型可能仅仅因为发生的场景是足球场,就将拉拉队员在足球场上跳舞的视频判断成了踢足球。这违背了视频表征学习最初的目的,即学习物体运动信息,并且不容忽视的是,不同的数据集可能会带来不同的场景偏见(Scene Bias)。为了解决这个问题, 我们提出了用两个简单的操作来解耦合场景和运动(Decoupling the Scene and the Motion, DSM),以此来到达让模型更加关注运动信息的目的。具体来说, 我们为每段视频都会构造一个正样本和一个负样本,相比于原始视频, 正样本的运动信息没有发生变化,但场景被破坏掉了,而负样本的运动信息发生了改变,但场景信息基本被保留了下来。构造正负样本的操作分别叫做Spatial Local Disturbance和Temporal Local Disturbance。我们的优化目标是在隐空间在拉近正样本和原始视频的同时,推远负样本。用这种方式,场景带来的负面影响被削弱掉了,而模型对时序也变得更加敏感。我们在两个任务上,用不同的网络结构、不同的预训练数据集进行了实验验证,发现我们方法在动作识别任务上,在UCF101以及HMDB51数据集上分别超越当前学界领先水平8.1%以及8.8%。

2. 基于可泛化样本选择的行人重识别方法,One for More: Selecting Generalizable Samples for Generalizable ReID Model 图片

https://www.zhuanzhi.ai/paper/df9fd0ff594591c5d35b4b679836d2ff

现有行人重新识别(ReID)模型的训练目标是在当前批次样本上模型的损失减少,而与其他批次样本的性能无关。它将不可避免地导致模型过拟合到某些样本(例如,不平衡类中的头部数据,简单样本或噪声样本)。目前有基于采样的方法通过设计特定准则来选择特定样本来解决该问题,这些方法对某些类型的数据(例如难样本,尾部数据)施加了更多的关注,这不适用于真实的ReID数据分布。因此,本文将所选样本的泛化能力作为损失函数,并学习一个采样器来自动选择可泛化样本,而不是简单地推测哪些样本更有意义。更重要的是,我们提出的基于可泛化能力的采样器可以无缝集成到ReID训练框架中,该框架能够以端到端的方式同时训练ReID模型和采样器。实验结果表明,该方法可以有效地改善ReID模型的训练,提高ReID模型的性能。

3. 自监督对应学习的对比转换,Contrastive Transformation for Self-supervised Correspondence Learning

图片

https://www.zhuanzhi.ai/paper/449c58a142a4110ee7f089d12b51fdac

图片

4. 小样本学习多标签意图检测

图片

小样本学习(Few-shot Learning)近年来吸引了大量的关注,但是针对多标签问题(Multi-label)的研究还相对较少。在本文中,我们以用户意图检测任务为切入口,研究了的小样本多标签分类问题。对于多标签分类的SOTA方法往往会先估计标签-样本相关性得分,然后使用阈值来选择多个关联的标签。 为了在只有几个样本的Few-shot场景下确定合适的阈值,我们首先在数据丰富的多个领域上学习通用阈值设置经验,然后采用一种基于非参数学习的校准(Calibration)将阈值适配到Few-shot的领域上。 为了更好地计算标签-样本相关性得分,我们将标签名称嵌入作为表示(Embedding)空间中的锚点,以优化不同类别的表示,使它们在表示空间中更好的彼此分离。 在两个数据集上进行的实验表明,所提出的模型在1-shot和5-shot实验均明显优于最强的基线模型(baseline)。

https://www.zhuanzhi.ai/paper/caf3b2b72106ee93d00ddbe2416c4e1a

5. 组合对抗攻击,Composite Adversarial Attacks

https://www.zhuanzhi.ai/paper/4594af42d79efb3a1090149653d332e6

6. 元学习器的冷启动序列推荐,Cold-start Sequential Recommendation via Meta Learner

https://www.zhuanzhi.ai/paper/9e994364361a8060ccdd8be25b4398fd

7. 基于时空图神经网络的视频对象分割掩模重构,Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation

地址: https://www.zhuanzhi.ai/paper/9e3f128d37d0f1d1ae98fbcc2214944c

8. 领域自适应分割,Exploiting Diverse Characteristics and Adversarial Ambivalence for Domain Adaptive Segmentation

https://www.zhuanzhi.ai/paper/6a312cb480135d0521a9d9f5f6bbdc7c

9. 将神经网络解释为定量论证框架,Interpreting Neural Networks as Quantitative Argumentation Frameworks

https://www.zhuanzhi.ai/paper/13e1eff13ab19fb000dd1c601b6b2972

10. “可瘦身”的生成式对抗网络,Slimmable Generative Adversarial Networks

生成式对抗网络(GANs)近年来取得了显著的进展,但模型规模的不断扩大使其难以在实际应用中广泛应用。特别是对于实时任务,由于不同的计算能力,不同的设备需要不同大小的模型。在本文中,我们引入了“可瘦身”的GANs (slimmable GANs),它可以在运行时灵活地切换生成器的宽度(层的通道)以适应各种质量和效率的权衡。具体地说,我们利用多个部分参数共享判别器来训练“可瘦身”的生成器。为了促进不同宽度的生成器之间的一致性,我们提出了一种逐步替代蒸馏技术,鼓励窄的生成器向宽的生成器学习。至于类条件生成,我们提出了一种可分割的条件批处理规范化,它将标签信息合并到不同的宽度中。我们的方法通过大量的实验和详细的消融研究得到了定量和定性的验证。

https://www.zhuanzhi.ai/paper/fa7ad514cd791febd587068de1a7a6f5

11. 少样本知识蒸馏,Progressive Network Grafting for Few-Shot Knowledge Distillation

https://www.zhuanzhi.ai/paper/63f75c9b913c204181b495ba440cc9f5

12. 用异构图神经网络注入多源知识进行情感会话生成,Infusing Multi-Source Knowledge with Heterogeneous Graph Neural Network for Emotional Conversation Generation

https://www.zhuanzhi.ai/paper/27a8426b488cac9202ac642ce0625318

13. 自然语言处理中经典的主题模型LDA针对规避攻击的脆弱性,EvaLDA: Efficient Evasion Attacks Towards Latent Dirichlet Allocation

https://www.zhuanzhi.ai/paper/cd0c035fe877c46be9ae21fdce3f5963

14. 非可见区域分割,Amodal Segmentation Based on Visible Region Segmentation and Shape Prior

https://www.zhuanzhi.ai/paper/25abd8be695165f479e9abd9305fd2fa

本文针对非可见区域分割问题,我们提出在粗糙可见光和非可见掩模的基础上,引入可见光区域和形状先验来推理非可见区域的统一框架。形状先验的引入使得非可见分割更加稳健。我们提出的模型在三个数据集上均优于现有方法。

15. 非重复多模态Transformer,Confidence-aware Non-repetitive Multimodal Transformers for TextCaps

https://www.zhuanzhi.ai/paper/5e39735d44cf3e82c8738e4da7e2840a

16. 带变分贝叶斯推理和最大不确定性正则化的半监督学习,Semi-Supervised Learning with Variational Bayesian Inference and Maximum Uncertainty Regularization

https://www.zhuanzhi.ai/paper/03927342b31ecbd7143b07c7b5c26614

17. 近似梯度下降的学习图神经网络,Learning Graph Neural Networks with Approximate Gradient Descent

本文首先给出了一种学习节点信息卷积隐含层的图网学习算法。根据标签是附着在节点上还是附着在图上,研究了两种类型的GNN。在此基础上,提出了一个完整的GNN训练算法收敛性设计和分析框架。该算法适用于广泛的激活函数,包括ReLU、Leaky ReLU、Sigmod、Softplus和Swish。实验表明,该算法保证了对基本真实参数的线性收敛速度。对于这两种类型的GNN,都用节点数或图数来表征样本复杂度。从理论上分析了特征维数和GNN结构对收敛率的影响。数值实验进一步验证了理论分析的正确性。

https://arxiv.org/pdf/2012.03429.pdf

18. 协同挖掘:用于稀疏注释目标检测的自监督学习,Co-mining: Self-Supervised Learning for Sparsely Annotated Object Detection

目标检测器通常在完全标注实例的监督学习情况下获得很好的结果。但是,对于稀疏实例注释,它们的性能远远不能令人满意。现有的稀疏标注目标检测方法主要是对难的负样本的损失进行重加权,或者将未标注的实例转换为忽略区域,以减少假阴性的干扰。我们认为这些策略是不够的,因为它们最多可以减轻由于缺少注释而造成的负面影响。在本文中,我们提出了一个简单而有效的机制,称为协同挖掘,稀疏标注的目标检测。在协同挖掘中,一个连体网络的两个分支相互预测伪标签集。为了增强多视图学习和更好地挖掘未标记实例,将原始图像和相应的增强图像分别作为Siamese网络的两个分支的输入。协同挖掘可以作为一种通用的训练机制,应用于大多数现代目标检测器。在三种不同稀疏注释设置的MS COCO数据集上进行了实验,使用两种典型的框架:基于锚的检测器RetinaNet和无锚检测器FCOS。实验结果表明,与RetinaNet的协同挖掘方法相比,在相同的稀疏标注设置下,相比于不同的基线,改进了1.4%~2.1%,超过了现有的方法。

https://www.zhuanzhi.ai/paper/26fe94a8c64fbb5140619ab72ed036d1

成为VIP会员查看完整内容
0
44

【导读】IJCAI(国际人工智能联合会议,International Joint Conferences on Artificial Intelligence)作为人工智能领域最顶级的国际学术会议之一,IJCAI 的举办自然备受瞩目。第29届国际人工智能联合会议和第17届环太平洋国际人工智能会议原定于2020年7月11日在日本横滨召开,但由于疫情影响,将延期半年,至 2021年1月召开。近期,IJCAI 2020 论文集已经放出来。在 4717 份有效投稿中,最终仅有 592 篇被接收,接收率为 12.6%,这也是 IJCAI 史上最低的接收率。我们发现在今年的IJCAI 2020会议上图神经网络相关的论文非常多,所以今天小编专门整理最新6篇图神经网络(GNN)应用在计算机视觉上的相关论文——直推式关系传播网络、3D姿态估计、跨模态Hash、时空图序列学习、关系推理网络、图交互推理

IJCAI 2020 Accepted Paper: https://www.ijcai.org/Proceedings/2020/

ICML2020GNN_Part1、KDD2020GNN_Part1、CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、

1、Transductive Relation-Propagation Network for Few-shot Learning

作者:Yuqing Ma, Shihao Bai, Shan An, Wei Liu, Aishan Liu, Xiantong Zhen, Xianglong Liu

摘要:少样本学习(Few-shot learning)是一个有趣且极具挑战性的问题,其目的是从较少的标注样本中学习新的概念,具有许多实用的优点。要完成这一任务,应该集中精力揭示支撑-查询(support-query)对之间的准确关系。我们提出了一个直推式关系(transductive relation)-传播图神经网络(TRPN),以在支撑-查询对之间显式建模和传播这种关系。我们的TRPN将每个支撑-查询对之间的关系视为一个图节点,称为关系节点,并利用支撑样本之间的已知关系(包括类内共性和类间唯一性)来指导关系在图中的传播,生成支撑-查询对的判别关系嵌入。在此基础上引入伪关系节点来传播查询特征,并设计了一种快速有效的传导学习策略来充分利用不同查询之间的关系信息。据我们所知,这是首次在少样本学习中明确考虑支撑-查询对之间的关系,为解决少样本学习问题提供了一条新的途径。在几个基准数据集上进行的广泛实验表明,我们的方法可以明显优于各种最先进的小样本学习方法。

网址:

https://www.ijcai.org/Proceedings/2020/0112.pdf

2、Semi-Dynamic Hypergraph Neural Network for 3D Pose Estimation

作者:Shengyuan Liu, Pei Lv, Yuzhen Zhang, Jie Fu, Junjin Cheng, Wanqing Li, Bing Zhou, Mingliang Xu

摘要:本文提出了一种新颖的半动态超图神经网络(SD-HNN),可以从单个图像估计3D人体姿态。SD-HNN采用超图来表示人体,以有效利用相邻关节和非相邻关节之间的运动学约束。具体而言,SD-HNN中的姿态超图具有两个组成部分。一种是根据常规树体结构构造的静态超图。另一个是半动态超图,表示不同关节之间的动态运动约束。将这两个超图组合在一起,以端到端的方式进行训练。与基于固定树结构的传统图卷积网络(GCN)不同,SD-HNN可以处理人体姿态估计中的歧义。实验结果表明,所提方法在Human3.6M和MPI-INF-3DHP数据集上均达到了最先进的性能。

网址:

https://www.ijcai.org/Proceedings/2020/0109.pdf

3、Set and Rebase: Determining the Semantic Graph Connectivity for Unsupervised Cross-Modal Hashing

作者:Weiwei Wang, Yuming Shen, Haofeng Zhang, Yazhou Yao, Li Liu

摘要:无监督的跨模态哈希的无标签性质阻碍了模型利用精确的语义数据相似性。现有研究通常在原始特征空间中通过启发式几何先验来模拟语义。但是,由于原始特征不能完全代表基础的多视图数据关系,因此这会给模型带来严重偏差。为了解决上述问题,在本文中,我们提出了一种新的无监督哈希方法,称为基于语义的跨模态哈希(SRCH)。我们定义了一种新颖的“Set-and Rebase”过程来初始化和更新训练数据的跨模态相似度图。特别是,我们根据模态内特征的几何基础设置图形,然后根据哈希结果交替对其rebase以更新其中的边。我们开发了一种交替优化,以对图进行基础化,并使用封闭形式(closed-form )解决方案训练哈希自动编码器从而有效地训练了整个框架。我们在基准数据集上的实验结果证明了我们的模型相对于最新算法的优越性。

网址:

https://www.ijcai.org/Proceedings/2020/0119.pdf

4、Hierarchical Attention Based Spatial-Temporal Graph-to-Sequence Learning for Grounded Video Description

作者:Kai Shen, Lingfei Wu, Fangli Xu, Siliang Tang, Jun Xiao, Yueting Zhuang

摘要:Grounded Video Description(GVD)的任务是生成句子,这些对象可以通过视频帧中的边界框进行grounded。现有的工作在建模候选区域之间的关系以及参与文本生成时常常无法利用结构信息。为了解决这些问题,我们将GVD任务转换为时空图到序列学习问题,其中将视频帧建模为时空序列图,以便更好地捕获隐式结构关系。特别是,我们采用两种方式来构建一个序列图,该序列图捕获每个帧中不同对象之间的空间时间相关性,并进一步提出一种新颖的图拓扑细化技术以发现最佳的基础图结构。此外,我们还提出了分层注意力机制,以不同分辨率级别(resolution levels)参与序列图,以更好地生成句子。与最先进的方法相比,我们广泛的实验证明了我们提出的方法的有效性。

网址:

https://www.ijcai.org/Proceedings/2020/0131.pdf

5、Action-Guided Attention Mining and Relation Reasoning Network for Human-Object Interaction Detection

作者:Xue Lin, Qi Zou, Xixia Xu

摘要:人与物体之间的交互(HOI)检测对于理解以人为中心的场景非常重要,并且由于细粒度动作与多个同时发生的交互之间的细微差异,因此具有挑战性。大多数方法通过考虑多流信息甚至引入额外的知识来解决这些问题,这些问题遭受着巨大的组合空间和非交互式对控制问题。在本文中,我们提出了一种行动导向的注意力挖掘和关系推理(Action-Guided attention mining and Relation Reasoning ,AGRR)网络来解决该问题。对人-对象对的关系推理是通过利用对之间的上下文兼容一致性来过滤掉非交互式组合而进行的。为了更好地区分细粒度动作之间的细微差别,我们提出了一种基于类激活图(class activation map )的动作感知注意力,以挖掘最相关的特征来识别HOI。在V-COCO和HICO-DET数据集上进行的大量实验表明,与最新方法相比该模型十分有效。

网址:

https://www.ijcai.org/Proceedings/2020/0154.pdf

6、A Graph-based Interactive Reasoning for Human-Object Interaction Detection

作者:Dongming Yang, Yuexian Zou

摘要:人与物体交互(HOI)检测致力于通过推断三元组(人类,动词,物体)来学习人类与周围物体的交互方式。然而,最近的HOI检测方法主要依赖于附加注释(例如,人的姿势),并且忽略了卷积之外的强大的交互推理。在本文中,我们提出了一种新颖的基于图的交互式推理模型,称为交互式图(in-Graph)来推断HOI,其有效地利用了视觉目标之间的交互语义。所提出的模型包括如下三方面:1)将相关目标从卷积空间映射到基于图的语义空间的项目函数(project function); 2)在所有节点之间传播语义的消息传递过程; 3)将推理节点转换回卷积空间的更新函数。此外,我们构建了一个新的框架来组装用于检测HOI的In-Graph模型,即In-GraphNet。除了分别使用实例特征来推断HOI之外,该框架还通过集成两级in-Graphs(即场景范围和实例范围in-Graphs)来动态解析视觉目标之间的成对交互语义。我们的框架是端到端可训练的,并且没有像人体姿态这样的昂贵注释。大量实验表明,我们提出的框架在V-COCO和HICO-DET基准上均优于现有的HOI检测方法,并且相对提高了基准线约9.4%和15%,从而验证了其检测HOI的有效性。

网址:

https://www.ijcai.org/Proceedings/2020/0155.pdf

成为VIP会员查看完整内容
0
28

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议 CVPR 每年都会吸引全球领域众多专业人士参与。由于受COVID-19疫情影响,原定于6月16日至20日在华盛顿州西雅图举行的CVPR 2020将全部改为线上举行。今年的CVPR有6656篇有效投稿,最终有1470篇论文被接收,接收率为22%左右。之前小编为大家整理过CVPR 2020 GNN 相关论文,这周小编继续为大家整理了五篇CVPR 2020 图神经网络(GNN)相关论文,供大家参考——行为识别、少样本学习、仿射跳跃连接、多层GCN、3D视频目标检测。

CVPR2020SGNN、CVPR2020GNN_Part2、CVPR2020GNN_Part1、WWW2020GNN_Part1、AAAI2020GNN、ACMMM2019GNN、CIKM2019GNN、ICLR2020GNN、EMNLP2019GNN、ICCV2019GNN_Part2、ICCV2019GNN_Part1、NIPS2019GNN、IJCAI2019GNN_Part1、IJCAI2019GNN_Part2、KDD2019GNN、ACL2019GNN、CVPR2019GNN

1. Disentangling and Unifying Graph Convolutions for Skeleton-Based Action Recognition

作者:Ziyu Liu, Hongwen Zhang, Zhenghao Chen, Zhiyong Wang, Wanli Ouyang

摘要:基于骨架的动作识别算法广泛使用时空图对人体动作动态进行建模。为了从这些图中捕获鲁棒的运动模式,长范围和多尺度的上下文聚合与时空依赖建模是一个强大的特征提取器的关键方面。然而,现有的方法在实现(1)多尺度算子下的无偏差长范围联合关系建模和(2)用于捕捉复杂时空依赖的通畅的跨时空信息流方面存在局限性。在这项工作中,我们提出了(1)一种简单的分解(disentangle)多尺度图卷积的方法和(2)一种统一的时空图卷积算子G3D。所提出的多尺度聚合方法理清了不同邻域中节点对于有效的远程建模的重要性。所提出的G3D模块利用密集的跨时空边作为跳过连接(skip connections),用于在时空图中直接传播信息。通过耦合上述提议,我们开发了一个名为MS-G3D的强大的特征提取器,在此基础上,我们的模型在三个大规模数据集NTU RGB+D60,NTU RGB+D120和Kinetics Skeleton 400上的性能优于以前的最先进方法。

网址: https://arxiv.org/pdf/2003.14111.pdf

代码链接: github.com/kenziyuliu/ms-g3d

2. DPGN: Distribution Propagation Graph Network for Few-shot Learning

作者:Ling Yang, Liangliang Li, Zilun Zhang, Xinyu Zhou, Erjin Zhou, Yu Liu

摘要:大多数基于图网络的元学习方法都是为实例的instance-level关系进行建模。我们进一步扩展了此思想,以1-vs-N的方式将一个实例与所有其他实例的分布级关系明确建模。我们提出了一种新的少样本学习方法--分布传播图网络(DPGN)。它既表达了每个少样本学习任务中的分布层次关系,又表达了实例层次关系。为了将所有实例的分布层关系和实例层关系结合起来,我们构造了一个由点图和分布图组成的对偶全图网络,其中每个节点代表一个实例。DPGN采用双图结构,在更新时间内将标签信息从带标签的实例传播到未带标签的实例。在少样本学习的大量基准实验中,DPGN在监督设置下以5%∼12%和在半监督设置下以7%∼13%的优势大大超过了最新的结果。

网址: https://arxiv.org/pdf/2003.14247.pdf

代码链接: https://github.com/megvii-research/DPGN

3. Geometrically Principled Connections in Graph Neural Networks

作者:Shunwang Gong, Mehdi Bahri, Michael M. Bronstein, Stefanos Zafeiriou

摘要:图卷积操作为以前认为遥不可及的各种图形和网格处理任务带来了深度学习的优势。随着他们的持续成功,人们希望设计更强大的体系结构,这通常是将现有的深度学习技术应用于非欧几里得数据。在这篇文章中,我们认为几何应该仍然是几何深度学习这一新兴领域创新的主要驱动力。我们将图神经网络与广泛成功的计算机图形和数据近似模型(径向基函数(RBF))相关联。我们推测,与RBF一样,图卷积层将从向功能强大的卷积核中添加简单函数中受益。我们引入了仿射跳跃连接 (affine skip connections),这是一种通过将全连接层与任意图卷积算子相结合而形成的一种新的构建块。通过实验证明了我们的技术的有效性,并表明性能的提高是参数数量增加的结果。采用仿射跳跃连接的算子在形状重建、密集形状对应和图形分类等每一项任务上的表现都明显优于它们的基本性能。我们希望我们简单有效的方法将成为坚实的基准,并有助于简化图神经网络未来的研究。

网址: https://arxiv.org/pdf/2004.02658.pdf

4. L^2-GCN: Layer-Wise and Learned Efficient Training of Graph Convolutional Networks

作者:Yuning You, Tianlong Chen, Zhangyang Wang, Yang Shen

摘要:图卷积网络(GCN)在许多应用中越来越受欢迎,但在大型图形数据集上的训练仍然是出了名的困难。它们需要递归地计算邻居的节点表示。当前的GCN训练算法要么存在随层数呈指数增长的高计算成本,要么存在加载整个图和节点嵌入的高内存使用率问题。本文提出了一种新的高效的GCN分层训练框架(L-GCN),该框架将训练过程中的特征聚合和特征变换分离开来,从而大大降低了时间和存储复杂度。我们在图同构框架下给出了L-GCN的理论分析,在温和的条件下,与代价更高的传统训练算法相比L-GCN可以产生同样强大的GCN。我们进一步提出了L2-GCN,它为每一层学习一个控制器,该控制器可以自动调整L-GCN中每一层的训练周期。实验表明,L-GCN比现有技术快至少一个数量级,内存使用量的一致性不依赖于数据集的大小,同时保持了还不错的预测性能。通过学习控制器,L2-GCN可以将训练时间进一步减少一半。

网址: https://arxiv.org/pdf/2003.13606.pdf

代码链接: https://github.com/Shen-Lab/L2-GCN

补充材料:

https://slack-files.com/TC7R2EBMJ-F012C60T335-281aabd097

5. LiDAR-based Online 3D Video Object Detection with Graph-based Message Passing and Spatiotemporal Transformer Attention

作者:Junbo Yin, Jianbing Shen, Chenye Guan, Dingfu Zhou, Ruigang Yang

摘要:现有的基于LiDAR的3D目标检测算法通常侧重于单帧检测,而忽略了连续点云帧中的时空信息。本文提出了一种基于点云序列的端到端在线3D视频对象检测器。该模型包括空间特征编码部分和时空特征聚合部分。在前一个组件中,我们提出了一种新的柱状消息传递网络(Pillar Message Passing Network,PMPNet)来对每个离散点云帧进行编码。它通过迭代信息传递的方式自适应地从相邻节点收集柱节点的信息,有效地扩大了柱节点特征的感受野。在后一组件中,我们提出了一种注意力时空转换GRU(AST-GRU)来聚合时空信息,通过注意力记忆门控机制增强了传统的ConvGRU。AST-GRU包含一个空间Transformer Attention(STA)模块和一个时间Transformer Attention(TTA)模块,分别用于强调前景对象和对齐动态对象。实验结果表明,所提出的3D视频目标检测器在大规模的nuScenes基准测试中达到了最先进的性能。

网址: https://arxiv.org/pdf/2004.01389.pdf

代码链接: https://github.com/yinjunbo/3DVID

成为VIP会员查看完整内容
0
69

最近计算机视觉三大顶会之一CVPR2020接收结果已经公布,一共有1470篇论文被接收,接收率为22%,相比去年降低3个百分点,竞争越来越激烈。专知在这里整理来自Twitter、arXiv、知乎放出来的30篇最新CVPR论文,方便大家抢先阅览!这些论文包括视觉常识、​视频超分处理、图像分类、目标跟踪等。

成为VIP会员查看完整内容
0
44
小贴士
相关VIP内容
相关论文
Hao Xu,Shuaicheng Liu,Guangfu Wang,Guanghui Liu,Bing Zeng
0+阅读 · 9月13日
Shuang Li,Kaixiong Gong,Chi Harold Liu,Yulin Wang,Feng Qiao,Xinjing Cheng
4+阅读 · 3月25日
Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context
Zihang Dai,Zhilin Yang,Yiming Yang,Jaime Carbonell,Quoc V. Le,Ruslan Salakhutdinov
10+阅读 · 2019年6月2日
A Comprehensive Survey on Graph Neural Networks
Zonghan Wu,Shirui Pan,Fengwen Chen,Guodong Long,Chengqi Zhang,Philip S. Yu
10+阅读 · 2019年3月10日
Rakesh Mehta,Cemalettin Ozturk
5+阅读 · 2018年5月16日
Hoel Kervadec,Jose Dolz,Meng Tang,Eric Granger,Yuri Boykov,Ismail Ben Ayed
4+阅读 · 2018年5月12日
Yan Li,Junge Zhang,Kaiqi Huang,Jianguo Zhang
5+阅读 · 2018年3月13日
Antoine Miech,Ivan Laptev,Josef Sivic
3+阅读 · 2018年3月5日
Ju Yong Chang,Kyoung Mu Lee
3+阅读 · 2017年12月28日
Top