计算机视觉

01 基于再查询机制的一体化多目标跟踪算法 One More Check: Making “Fake Background” Be Tracked Again

研究简介 近年来,将检测和ReID统一到一个网络之中来完成多目标跟踪的方法取得了巨大的突破,且引起了研究人员的广泛关注。然而当前的一体化跟踪器仅依赖于单帧图片进行目标检测,在遇到一些现实场景的干扰,如运动模糊、目标相互遮挡时,往往容易失效。一旦检测方法因为特征的不可靠而将当前帧的目标错判成背景时,难免会破坏目标所对应的轨迹的连贯性。

在本文中,我们提出了一个再查询网络来召回被错分为“假背景”的目标框。该再查询网络创新性地将ID向量的功能从匹配扩展到运动预测,从而实现以较小的计算开销将已有目标的轨迹有效地传播到当前帧。而通过ID向量为媒介进行时序信息传播,所生成的迁移信息有效地防止了模型过度依赖于检测结果。因此,再查询网络有助于一体化方法召回“假背景”同时修复破碎的轨迹。

基于已有的一体化方法CSTrack,本文构建了一个新颖且高性能的一体化跟踪器,其在MOT16和MOT17两个基准上分别取得了巨大的增益,即相比于CSTrack,MOTA分数从70.7/70.6提高到76.4/76.3。此外,它还取得了新SOTA的MOTA和IDF1性能。

其代码已开源在: https://github.com/JudasDie/SOTS

作者:Chao Liang , Zhipeng Zhang , Xue Zhou, Bing Li, Weiming Hu

02 从目标中学习: 用于小样本语义分割的双原型网络 Learning from the Target: Dual Prototype Network for Few Shot Semantic Segmentation

研究简介 由于标注样本的稀缺,支持集和查询集之间的样本差异(目标的外观,尺寸,视角等)成为小样本语义分割的主要难点。现有的基于原型的方法大多只从支持集特征中挖掘原型,而忽略了利用来自查询集样本的信息,因此无法解决这个由样本间差异带来的痛点。

在本文中,我们提出了一种双原型网络 (DPNet),它从一个新颖的角度来处理小样本语义分割问题,即在从支持集中提取原型的基础上,进一步提出了从查询图像中提取可靠的前景信息作为伪原型。

为了实现这一目的,我们设计了循环比较模块,通过两次匹配过程筛选出符合要求的前景查询特征,并利用这些前景特征生成伪原型。然后根据原型与伪原型之间的内在关联,利用原型交互模块对原型与伪原型的信息进行交互整合。最后,引入一个多尺度融合模块,在原型(伪原型)与查询特征的密集比较过程中引入上下文信息,以获得更好的分割结果。

在两个标准数据集 (PASCAL-5i, COCO-20i)上进行的大量实验表明,我们的方法取得了优越的性能,证明了提出方法的有效性。

作者:Binjie Mao,Xinbang Zhang,Lingfeng Wang,Qian Zhang, Shiming Xiang, Chunhong Pan

03 基于模态特定信息增强的多模态行人重识别

Interact, Embed, and EnlargE (IEEE): Boosting Modality-specific Representations for Multi-Modal Person Re-identification

研究简介 多模态行人重识别通过引入模态互补信息来辅助传统的单模态重识别任务。现有的多模态方法在融合不同模态特征的过程中忽略模态特异信息的重要性。为此,我们提出了一种新方法来增强多模态行人重识别的模态特定信息表示 (IEEE) :交互 (Interact) 、嵌入 (Embed) 和扩大 (EnlargE) 。

首先,提出了一种新颖的跨模态交互模块,用于在特征提取阶段在不同模态之间交换有用的信息。其次,提出了一种基于关系的嵌入模块,通过将全局特征嵌入到细粒度的局部信息中来增强模态特异特征的丰富度。最后,提出了一种新颖的多模态边界损失,通过扩大类内不同模态的差异来迫使网络学习每种模态的模态特定信息。在真实的和构建的行人重识别数据集上优越性验证了所提出方法的有效性。

作者:Zi Wang, Chenglong Li, Aihua Zheng, Ran He, Jin Tang

04 面向人体活动识别的跨模态联邦学习

Cross-Modal Federated Human Activity Recognition via Modality-Agnostic and Modality-Specific Representation Learning

研究简介 为了在更多本地客户端上进行人体活动识别,我们提出一个新的面向人体活动识别的跨模态联邦学习任务。为了解决这一新问题,我们提出一种特征解纠缠的活动识别网络(FDARN),模型由共有特征编码器、私有特征编码器、模态判别器、共享活动分类器和私有活动分类器五个模块组成。

共有特征编码器的目标是协同学习不同客户端样本的模态无关特征;私有特征编码器旨在学习不能在客户端之间共享的模态独有特征;模态鉴别器的作用是以对抗学习的方式指导共有特征编码器和私有特征编码器的参数学习。

通过采用球面模态判别损失的去中心化优化,我们提出的方法可以综合利用模态无关的客户端共享特征以及模态特有的判别特征,因此可以得到在不同客户端上具有更强泛化能力的模型。在四个数据集上的实验结果充分表明了该方法的有效性。

作者:Xiaoshan Yang, Baochen Xiong, Yi Huang, Changsheng Xu

05 Evo-ViT:基于快速-慢速双流更新的视觉Transformer动态加速策略

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

研究简介 视觉Transformer通过自注意力机制捕获长程视觉依赖的能力使其在各种计算机视觉任务中显示出巨大的潜力,但是长程感受野同样带来了巨大的计算开销,特别是对于高分辨率视觉任务。为了能够在尽量保持原有模型准确率的前提下,降低模型计算复杂度,从而使得视觉 Transformer成为一种更加通用、高效、低廉的解决框架,目前工作分为基于空间结构先验的结构化压缩和非结构化特征裁剪两个主流方向。其中,非结构化的特征裁剪破坏了二维空间结构,使得这类裁剪方法不能适用于基于空间结构先验的结构化压缩的模型,而目前主流的先进视觉Transformer都应用了结构化压缩。此外,直接裁剪带来的不完整的信息流使得目前的特征裁剪方法无法直接训练得到很好的效果,而要依赖于未裁剪的预训练模型。

为了解决这些问题,我们提出了快速-慢速双流标识更新策略,在保持了完整空间结构的同时给高信息量标识和低信息量标识分配不同的计算通道,从而在不改变网络结构的情况下,以极低的精度损失大幅提升直筒状和金字塔压缩型的Transformer模型推理性能。不同于以往方法需要依靠外部的可学习网络来对每一层的标识进行选择,我们进一步提出了基于Transformer原生的全局类注意力的标识选择策略来增强层间的通信联系,从而使得我们的方法可以在稳定标识选择的同时去除了外部可学习参数带来的直接训练难的问题。

该算法能够在保证分类准确率损失较小的情况下,大幅提升各种结构Transformer的推理速度,如在ImageNet-1K数据集下,Evo-ViT可以提升DeiT-S 60%推理速度的同时仅仅损失0.4%的精度。

作者:Yifan Xu, Zhijie Zhang, Mengdan Zhang, Kekai Sheng, Ke Li, Weiming Dong, Liqing Zhang, Changsheng Xu, Xing Sun

06 基于图卷积网络及热力图回归的3D人脸关键点检测

Learning to detect 3D facial landmarks via heatmap regression with Graph Convolutional Network

研究简介 三维人脸关键点检测广泛应用于人脸配准、人脸形状分析、人脸识别等多个研究领域。现有的关键点检测方法大多涉及传统特征和三维人脸模型(3DMM),其性能受限于手工制作的中间表征量。

本文提出了一种新的三维人脸关键点检测的方法,该方法利用精心设计的图卷积网络,直接从三维点云中定位关键点的坐标。热力图是三维人脸上每个地标距离的高斯函数,图卷积网络在构建的三维热力图的帮助下可以自适应学习几何特征,用于三维人脸关键点检测。在此基础上,我们进一步探索了局部曲面展开与曲面配准模块,从3D热力图中直接回归3D坐标。

实验证明,该方法在BU-3DFE和FRGC数据集上的关键点定位精度和稳定性明显优于现有方法,并在最近的大规模数据集FaceScape上取得了较高的检测精度。

作者:YuanWang, Min Cao, Zhenfeng Fan, Silong Peng

07 基于因果关联及混杂因子传递解耦物理动力学的反事实预测

Deconfounding Physical Dynamics with Global Causal Relation and Confounder Transmission for Counterfactual Prediction

研究简介 发现潜在的因果关系是推理周围环境和预测物理世界未来状态的基础能力。基于视觉输入的反事实预测根据过去未出现的情况推断未来状态,是因果关系任务中的重要组成部分。

本文研究了物理动力学中的混杂影响因子,包括质量、摩擦系数等,建立干预变量和未来状态之间的关联关系,进而提出了一种包含全局因果关系注意力(GCRA)和混杂因子传输结构(CTS)的神经网络框架。GCRA寻找不同变量之间的潜在因果关联,通过捕获空域和时序信息来估计混杂因子。CTS以残差的方式整合和传输学习到的混杂因子,在反事实预测过程中,通过编码对网络中对象位置进行约束。

实验证明,在混杂因子真实值未知的情况下,本文的方法能够充分学习并利用混杂因子形成的约束,在相关数据集的预测任务上取得了目前最优的性能,并可以较好地泛化到新的环境,实现良好的预测精度。

作者:Zongzhao Li, Xiangyu Zhu, Zhen Lei(Corresponding author), Zhaoxiang Zhang

08 基于多相机系统的全局运动平均算法

MMA: Multi-camera Based Global Motion Averaging

研究简介 为了实现三维场景的完全感知,在自动驾驶汽车和智能机器人等设备中通常会安装多相机系统以观察周围360度的场景。基于多相机之间刚性固定的约束,我们提出了一种全局式的多相机运动平均算法,以实现全自动的大规模场景快速鲁棒建模和多相机标定。

首先,根据拍摄相机的不同将图像分为参考图像和非参考图像,进而将场景图中的边划分成四类。针对每一类边上的多相机相对极几何约束,我们进行了重新的推导和展示。基于相对旋转和绝对旋转之间的约束,我们提出了一种基于多相机的旋转平均算法,并通过一种两阶段(L1+IRLS)的方式对它进行求解。基于相对平移和绝对位置之间的约束,我们提出了一种基于多相机的平移平均算法,通过求解L1范数下的优化方程获得所有的摄像机位姿。

我们在公开的自动驾驶数据集和多组自采的多相机数据集上进行了广泛的测试和对比,显示我们的建模精度和鲁棒性要远远好于传统方法。

作者:Hainan Cui, Shuhan Shen

09 基于解耦的属性特征的鲁棒的行人属性识别

Learning Disentangled Attribute Representations for Robust Pedestrian Attribute Recognition

研究简介 尽管学界已经提出了各种行人属性识别的方法,但大多数研究都遵循相同的特征学习机制,即学习一个共享的行人图像特征来对多个属性进行分类。然而,这种机制导致了推理阶段的低可信度预测和模型的非稳健性。

在本文中,我们研究了为什么会出现这种情况。我们从数学上发现,核心原因是在最小化分类损失的情况下,最佳共享特征不能同时与多个分类器保持高相似度。此外,这种特征学习机制忽略了不同属性之间的空间和语义区别。

为了解决这些局限性,我们提出了一个新颖的分离属性特征学习(DAFL)框架,为每个属性学习一个分离的特征,该框架利用了属性的语义和空间特征。该框架主要由可学习的语义查询、级联式语义空间交叉注意(SSCA)模块和群体注意合并(GAM)模块组成。具体来说,基于可学习语义查询,级联式SSCA模块迭代地增强了属性相关区域的空间定位,并将区域特征聚合为多个分解的属性特征,用于分类和更新可学习语义查询。GAM模块根据空间分布将属性分成小组,并利用可靠的小组注意力来监督查询注意力图。在PETA、RAPv1、PA100k和RAPv2上的实验表明,所提出的方法与最先进的方法相比表现良好。

作者:Jian Jia, Naiyu Gao, Fei He, Xiaotang Chen, Kaiqi Huang

10 基于对象查询传播的高性能视频物体检测

QueryProp: Object Query Propagation for High-Performance Video Object Detection

研究简介 视频物体检测旨找出视频每一帧中包含物体的位置和类别,是一个重要且具有挑战性的任务。传统方法主要聚焦于设计图像级别或者物体框级别的相邻帧信息传播方法,以利用视频时序信息来提升检测器。本文认为,通过更有效和高效的特征传播框架,视频物体检测器可以在准确性和速度方面获得提升。

为此,本文研究了对象级特征传播,并提出了一种用于高性能视频物体检测的对象查询传播(QueryProp)框架。提出的QueryProp包含两种传播策略:1)对象查询从稀疏关键帧传播至密集非关键帧,以减少对非关键帧的冗余计算;2)对象查询从之前的关键帧传播至当前关键帧,以建模时间上下文来提升特征表示。

为了进一步提升查询传播的质量,我们设计了自适应传播门以实现灵活的关键帧选择。我们在视频物体检测的大规模数据集 ImageNet VID 上进行了大量实验。QueryProp 与当前最先进的方法实现了可比的准确性,并在准确性/速度之间取得了不错的平衡。

作者:Fei He, Naiyu Gao, Jian Jia, Xin Zhao, Kaiqi Huang

11 基于空间相似性的完全稀疏训练加速

Towards Fully Sparse Training: Information Restoration with Spatial Similarity

研究简介 英伟达安培架构发布的2:4结构化稀疏模式,要求连续的四个值至少包含两个零元素,可以使得矩阵乘法的计算吞吐量翻倍。最近的工作主要集中在通过2:4稀疏性来提高推理速度,而忽视了其在训练加速方面的潜力,因为反向传播占据了大约70%的训练时间。然而,与推理阶段不同,由于需要保持梯度的保真度并减少在线执行2:4稀疏的额外开销,用结构化剪枝来提高训练速度是不容易的。

本文首次提出了完全稀疏训练,其中"完全"是指在保持精度的同时,对前向和后向传播的所有矩阵乘法进行结构化修剪。为此,我们从显著性分析开始,研究不同的稀疏对象对结构化修剪的敏感性。基于对激活的空间相似性的观察,我们提出用固定的2:4掩码来修剪激活。此外,我们还提出了一个信息恢复模块来恢复丢失的信息,该模块可以通过有效的梯度移位操作来实现。对准确性和效率的评估表明,在具有挑战性的大规模分类和检测任务中,我们可以实现2倍的训练加速,而准确性的下降可以忽略不计。

作者:Weixiang Xu, Xiangyu He, Ke Cheng, Peisong Wang, Jian Cheng

12 通过学习深度神经网络在语义分割中学习噪声标签的元结构

Deep Neural Networks Learn Meta-Structures from Noisy Labels in Semantic Segmentatio

研究简介 关于深度神经网络(DNN)如何从带噪标签中进行学习,大部分研究聚焦于图像分类而不是语义分割。迄今为止,我们对于深度神经网络在噪声分割标签下的学习行为仍然知之甚少。

在本研究中,为填补这一空白,我们研究了生物显微图像的二类语义分割和自然场景图像下的多类语义分割。通过从干净标签中随机抽样一小部分(例如10%)或随机翻转一大部分(例如90%)像素标签,我们合成了信噪比极低的噪声标签。当使用这些低信噪比标签训练DNN时,我们发现模型的分割性能几乎没有下降。这表明DNN在基于监督学习的语义分割中是从标签中学习语义类别的结构信息,而不仅仅是像素信息。我们将上述标签中隐含的结构信息称为元结构。当我们对标签中的元结构进行不同程度的扰动,我们发现模型的分割性能出现不同程度的下降。而当我们在标签中融入元结构时,可以极大提高基于无监督学习的二类语义分割模型的性能。我们将元结构在数学上定义为点集的空间分布函数,并在理论上和实验中证明该数学模型可以很好的解释我们在本研究中观察到的深度神经网络的学习行为。

作者:Yaoru Luo, Guole Liu, Yuanhao Guo, Ge Yang

自然语言处理

01 基于参数分化的多语言神经机器翻译

Parameter Differentiation based Multilingual Neural Machine Translation

研究简介 多语言神经机器翻译旨在通过一个共享的模型同时处理多个语言的翻译,并通过共享的参数实现不同语言之间的知识迁移。但是,模型中哪些参数需要共享,哪些参数是语言独有的,仍是一个开放性问题。目前,通常的做法是启发式地设计或者搜索语言特定地模块,但很难找到一个最优的参数共享策略。

在本文中,我们提出一个新颖的基于参数分化的方法,该方法允许模型在训练的过程中决定哪些参数应该是语言特定的。受到细胞分化的启发,在我们的方法中,每个通用的参数都可以动态分化为语言特定的参数。我们进一步将参数分化准则定义为任务间梯度相似性。如果一个参数上不同任务的梯度出现冲突,那么这个参数更有可能分化为语言特定的类型。在多语言数据集上的实验表明我们的方法相比于基线方法取得了较大的提升。分析实验进一步揭示了我们的方法生成的参数共享策略和语言学特征的相似性具有紧密的关系。

作者:Qian Wang, Jiajun Zhang

02 基于特征消除方法的大脑词汇语法表征研究

Probing Word Syntactic Representations in the Brain by a Feature Elimination Method

研究简介 神经影像研究发现大脑在理解语言时,多个脑区与语义和语法处理相关。然而,现有的方法不能探索词性和依存关系等细粒度词汇语法特征的神经基础。

本文提出了一种新的框架来研究不同词汇语法特征在大脑中的表征。为了分离不同句法特征,我们提出了一种特征消除方法——均值向量零空间投影(MVNP),来消除词向量中的某一特征。然后,我们分别将消除某一特征的词向量和原始词向量与大脑成像数据联系起来,以探索大脑如何表示被消除的特征。本文首次在同一实验中同时研究了多个细粒度语法特征的皮层表征,并提出了多个脑区在语法处理分工中的可能贡献。这些发现表明,语法信息处理的大脑基础可能比经典研究所涉及的更为广泛。

作者:Xiaohan Zhang, Shaonan Wang, Nan Lin, Jiajun Zhang, Chengqing Zong

机器学习

01 多尺度动态编码助力脉冲网络实现高效强化学习

Multi-scale Dynamic Coding improved Spiking Actor Network for Reinforcement Learning

研究简介 在深度神经网络(DNN)的帮助下,深度强化学习 (DRL) 在许多复杂任务上取得了巨大成功,如游戏任务和机器人控制任务。DNN被认为只是部分受到了大脑结构和功能的启发,与之相比,脉冲神经网络 (Spiking Neural Network,SNN) 考虑了更多的生物细节,包括具有复杂动力学的脉冲神经元和生物合理的可塑性学习方法。

受生物大脑中细胞集群(Cell Assembly)高效计算的启发,我们提出了一种多尺度动态编码方法来提升脉冲人工网络(MDC-SAN)模型,并应用于强化学习以实现高效决策。多尺度表现为网络尺度的群体编码和神经元尺度的动态神经元编码(包含二阶神经元动力学),可以帮助SNN形成更加强大的时空状态空间表示。大量实验结果表明,我们的 MDC-SAN 在 OpenAI Gym的四个连续控制任务上取得了相比无编码SNN和相同参数下DNN更好的性能。

我们认为这是一次从生物高效编码角度探讨网络性能提升的有效尝试,就像在生物网络中一样,前期的复杂化信息编码可以让后期的智能决策变得更简单。

作者:Duzhen Zhang, Tielin Zhang, Shuncheng Jia, Bo Xu

AAAI 2022 | 多尺度动态编码助力脉冲网络实现高效强化学习

02 AlphaHoldem: 端到端强化学习驱动的高性能两人无限注扑克人工智能

AlphaHoldem: High-Performance Artificial Intelligence for Heads-Up No-Limit Poker via End-to-End Reinforcement Learning

研究简介 无限注德州扑克(HUNL)是一个典型的不完美信息博弈。之前的代表性工作如DeepStack和Libratus严重依赖于反事实遗憾最小化(CFR)算法及其变体来求解。然而,由于CFR迭代的计算成本高昂,使得后续研究人员很难在HUNL中学习CFR模型,并将该算法应用于其他实际问题。

在这项工作中,我们提出了一个高性能和轻量级的德州扑克人工智能AlphaHoldem。AlphaHolddem是一种端到端的自学习强化学习框架,采用了一种伪孪生网络结构,通过将学习到的模型与不同的历史版本进行对打,直接从输入状态信息学习到输出的动作。

文章的主要技术贡献包括一种新的手牌和投注信息的状态表示、一种多任务的自我游戏训练损失函数,以及一种新的模型评估和选择度量来生成最终的模型。在10万手扑克的研究中,AlphaHoldem只用了三天的训练就击败了Slumbot和DeepStack。与此同时,AlphaHoldem只使用一个CPU核心进行每个决策仅需要4毫秒,比DeepStack快1000多倍。我们将提供一个在线开放测试平台,以促进在这个方向上的进一步研究。

作者:Enmin Zhao, Renye Yan, Jinqiu Li, Kai Li, Junliang Xing

03 AutoCFR:通过学习设计反事实后悔值最小化算法

AutoCFR: Learning to Design Counterfactual Regret Minimization Algorithms

研究简介 反事实遗憾最小化(Counterfactual Regret Minimization, CFR)算法是最常用的近似求解两人零和不完美信息博弈的算法。近年来,人们提出了一系列新的CFR变体如CFR+、Lienar CFR、DCFR,显著提高了朴素CFR算法的收敛速度。然而,这些新的变体大多是由研究人员基于不同的动机通过反复试错来手工设计的,通常需要花费大量和时间精力和洞察力。

这项工作提出采用演化学习来元学习新的CFR算法,从而减轻人工设计算法的负担。我们首先设计了一种丰富的搜素语言来表示现有的手工设计的CFR变体。然后我们利用可扩展的演化算法以及一系列加速技术,在这种语言所定义的算法的组合空间中进行高效地搜索。学习到的新的CFR算法可以泛化到训练期间没有见过的新的不完美信息博弈游戏下,并与现有的的最先进的CFR变体表现相当或更好。

作者:Hang Xu, Kai Li, Haobo Fu, Qiang Fu, Junliang Xing

04 基于对战老虎机方法学习顶级Elo评级 Learning to Identify Top Elo Ratings as A Dueling Bandits Problem

研究简介 Elo 评分系统被广泛用于评估(国际象棋)游戏和体育竞技中玩家的技能。最近,它还被集成到机器学习算法中,用于评估计算机化的 AI 智能体的性能。然而,准确估计 Elo 等级分(对于顶级玩家)通常需要较多轮比赛,而采集多轮对战信息的代价可能是昂贵的。

在本文中,为了尽量减少比较次数并提高 Elo 评估的样本效率(针对顶级玩家),我们提出了一种高效的在线匹配调度算法。具体来说,我们通过对战老虎机(dueling bandits)框架识别和匹配顶级玩家,并根据 Elo 基于梯度的更新方式来设计老虎机算法。我们表明,与传统的需要 O(t) 时间的最大似然估计相比,我们能够将每步内存和时间复杂度降低到常数。我们的算法有一个遗憾(regret)保证 O ̃(√T) (O ̃忽略对数因子),与比赛轮数是次线性相关。并且算法已经被扩展到处理非传递性游戏的多维 Elo 评级。实验结果证明我们的方法在各种游戏任务上实现了较优的收敛速度和时间效率。

作者:Xue Yan, Yali Du, Binxin Ru, Jun Wang, Haifeng Zhang, Xu Chen

05 DPNAS:面向差分隐私深度学习的神经网络结构搜索

DPNAS:Neural Architecture Search for Deep Learning with Differential Privacy

研究简介 在保证有意义的差分隐私(DP)条件下训练深度神经网络(DNN)通常会严重降低模型的精度。在本文中我们指出,在面向隐私保护的深度学习中,DNN的拓扑结构对训练得到的模型精度有显著影响,而这种影响在以前的研究中基本未被探索。

鉴于这一缺失,我们提出了第一个面向隐私保护深度学习的神经网络设计框架DPNAS。该框架采用神经网络架构搜索来自动设计隐私保护深度学习模型。为了将隐私保护学习方法与网络架构搜索相结合,我们精心设计了一个新的搜索空间,并提出了一种基于DP的候选模型训练方法。我们通过实验证明了所提出框架的有效性。搜索得到的模型DPNASNet实现了最先进的隐私/效用权衡,例如,在(ϵ,δ)=(3,1×10^-5)的隐私预算下,我们的模型在MNIST上的测试准确率为98.57%,在FashionMNIST上的测试准确率为88.09%,在CIFAR-10上的测试准确率为68.33%。此外,通过研究生成的网络结构,我们提供了一些关于隐私保护学习友好的DNN的有趣发现,这可以为满足差分隐私的深度学习模型设计提供新的思路。

作者:Anda Cheng, Jiaxing Wang, Xi Sheryl Zhang, Qiang Chen, Peisong Wang, Jian Cheng

图片

成为VIP会员查看完整内容
0
29

相关内容

  中国科学院自动化研究所(以下简称自动化所)成立于195610月,是我国最早成立的国立自动化研究机构和最早开展类脑智能研究的国立研究机构。自动化所同时是中国科学院率先布局成立的“人工智能创新研究院”的总体牵头单位,“脑科学与智能技术卓越创新中心”的依托单位之一,也是国内外首个“人工智能学院”牵头承办单位,具有从智能机理、智能芯片、智能算法到智能系统完整的学科分布和优势领域。    

  六十多年来,自动化所为我国国民经济建设、社会进步、科技发展和国家安全做出了重要的贡献。建国发展初期,自动化所开拓了我国的控制科学,为“两弹一星”做出了历史性的贡献;改革开放年代,自动化所开创了我国模式识别智能信息处理的新领域;1990年代,自动化所以控制科学为基础,率先布局了人工智能研究;2010年起,自动化所率先布局类脑智能研究;2018年,自动化所开启自主进化智能研究的新格局。 

  自动化所现设科研开发部门14个,包括模式识别国家重点实验室、复杂系统管理与控制国家重点实验室、国家专用集成电路设计工程技术研究中心、中国科学院分子影像重点实验室、脑网络组研究中心等科研部门。还有若干与国际和社会其他创新单元共建的各类联合实验室和工程中心。 

  2018年底,自动化所共有在职职工898人。其中科技人员696人,包括中国科学院院士2人、发展中国家科学院院士1人、研究员及正高级工程技术人员103人、副研究员及高级工程技术人员221人;共有国家海外高层次人才引进计划(“千人计划”)入选者1人,青年千人计划入选者1人;中国科学院“百人计划”入选者23人(新增2人);IEEE Fellow9人(新增3人);国家杰出青年科学基金获得者14人,“万人计划”入选者11人(新增5人);百千万人才工程入选者10人,科技部中青年科技领军人才5人(新增3人),国家优秀青年基金获得者5人。 

  自动化研究所是1981年国务院学位委员会批准的博士、硕士学位授予权单位之一,现设有控制科学与工程等1个一级学科博士研究生培养点,计算机应用技术等1个二级学科博士研究生培养点,并设有控制科学与工程等1个一级学科博士后流动站,共有在学研究生722人(其中硕士生273人、博士生449人)。在站博士后81人。 

  自动化所长期坚持“智能科学与技术”研究,在生物特征识别、机器学习、视觉计算、自然语言处理、智能机器人和智能芯片等领域形成了系统的理论方法和体系,并取得丰富的研究成果;已形成从原始创新、核心关键技术研发到技术转移转化的智能技术生态,正在迈入国际上智能科学与技术领域具有重要影响的战略高技术研究机构。

   近年来,自动化所共获得省部级以上奖励30余项。发表论文数量逐年增加,质量不断提高;专利申请和授权量连年攀升,多年位居北京市科研系统前十名。绘制的“脑网络组图谱”第一次建立了宏观尺度上的活体全脑连接图谱,获得国际同行的广泛关注和好评;量化神经处理器(QNPU)通过自主创新的架构设计和神经网络优化技术,首次在资源受限的芯片上实现了大规模深度神经网络的独立计算,处于业界领先水平。生物特征识别技术实现了从中距离到远距离的可识别生物特征信息(虹膜-人脸-步态)全覆盖,研制成功一系列自主知识产权的远距离虹膜人脸多模态身份识别产品,在国家重要安全领域推广应用,相关技术入选2018年度“十大技术突破”;音智能处理整体解决方案已经受过大规模实际应用检验,系统接口已成为行业标准;基于自动化所语音识别技术的“紫冬语音云”在淘宝、来往等阿里巴巴旗下移动客户端产品中得到推广;“分子影像手术导航系统”通过国家药监局医疗器械安全性及有效性检测认证并进入临床应用;“仿生机器鱼高效与高机动控制的理论与方法”获得2017年度国家自然科学奖二等奖,研制的机器海豚实现了1.5倍体长的最高直线游速,并在国际上首次实现了机器海豚完全跃出水面;“智能视频监控技术”和“人脸识别技术”分别成功应用于2008年北京奥运会、2010年上海世博会的安保工作中,为社会安全贡献自己的力量;研制的AI程序“CASIA-先知1.0”采用知识和数据混合驱动的体系架构,在2017首届全国兵棋推演大赛总决赛中71的悬殊比分战胜人类顶级选手,展示了人工智能技术在博弈对抗领域的强大实力;与中国日报社合作构建“全球媒体云”综合平台,受到广泛好评;研制的电子光学玻璃印刷全自动AOI智能检测设备,可全面监控丝印关键制程品质情况,实现整个丝印工艺的全自动化生产,该技术一举填补了电子玻璃行业空白;“基于ACP方法的石化企业智能管理系统及应用”先后应用于茂名石化、齐鲁石化,为实现企业生产管理的精细化提供了有效的工具,并荣获“中国石油与化工自动化行业科技进步一等奖”……  

  新的征程上,中国科学院自动化研究所努力创建规范高效、民主和谐、环境优美、具有强大科技创新和可持续发展能力的国际知名的国家研究所,为我国科技事业的发展、为全面建设小康社会做出新的更大的贡献! 

【导读】作为计算机视觉领域的三大国际顶会之一,IEEE国际计算机视觉与模式识别会议CVPR(IEEE Conference on Computer Vision and Pattern Recognition) 每年都会吸引全球领域众多专业人士参与。CVPR 2021将在线举行, 中国科学院院士、中科院自动化所智能感知与计算研究中心主任谭铁牛将出任大会主席(General Chair,GC),上海科技大学的虞晶怡教授将任程序主席(Program Chair,PC)。今年的CVPR有效投稿多达7500篇,一共有1663篇论文被接收,接收率为27%。

为此,专知小编提前为大家整理了五篇CVPR 2021对比学习(Contrastive Learning)在计算机视觉上的应用,这块这几年一直比较受关注,特别是具体领域应用等等?大家先睹为快——图像去雾、少样本学习、多模态视频学习、密集CL、对抗CL

CVPR2021DA、CVPR2021IVC、CVPR2021PID、CVPR2021IC、CVPR2021VU、CVPR2021OD、CVPR2021OT、CVPR2021AR

1. Contrastive Learning for Compact Single Image Dehazing

作者:Haiyan Wu, Yanyun Qu, Shaohui Lin, Jian Zhou, Ruizhi Qiao, Zhizhong Zhang, Yuan Xie , Lizhuang Ma

摘要:由于严重的信息退化,单图像去雾是一个具有挑战性的问题。然而,现有的基于深度学习的除雾方法仅采用清晰的图像作为正样本来指导除雾网络的训练,而未利用负样本信息。而且,它们中的大多数集中在通过增加深度和宽度来增强除雾网络,从而导致大量的计算和内存需求。在本文中,我们提出了一种基于对比学习的新颖对比正则化(CR)技术,以利用模糊图像和清晰图像的信息分别作为负样本和正样本。CR确保在表示空间中将还原后的图像拉到更接近清晰图像,并推到远离朦胧图像的位置。此外,考虑到性能和内存存储之间的权衡,我们基于类自动编码器(AE)框架开发了一个紧凑的除雾网络。它涉及自适应混合操作和动态特征增强模块,分别受益于自适应地保存信息流和扩展接收域以提高网络的转换能力。我们将具有自动编码器和对比正则化功能的除雾网络称为AECR-Net。在合成和真实数据集上进行的广泛实验表明,我们的AECR-Net超越了最新技术。

论文: https://arxiv.org/abs/2104.09367

代码: https://github.com/GlassyWu/AECR-Net

2. Fine-grained Angular Contrastive Learning with Coarse Labels

作者:Guy Bukchin, Eli Schwartz, Kate Saenko, Ori Shahar, Rogerio Feris, Raja Giryes, Leonid Karlinsky

摘要:Few-shot学习方法会提供经过优化的预训练技术,以便使用一个或几个示例轻松地将模型适应新类(在训练过程中看不见)。这种对不可见类别的适应性对于许多实际应用尤为重要,在这些实际应用中,预先训练的标签空间无法保持固定以有效使用,并且模型需要“特殊化”以支持动态的新类别。粗粒度到细粒度(Coarse-to-Fine)Few-Shot(C2FS)是一种特别有趣的场景,基本上被Few-Shot文献所忽略,其中训练(train)类(例如,动物)的粒度比目标(test)类的“粒度”粗得多(例如品种)。C2FS的一个非常实际的示例是目标类是训练类的子类。直观地讲,这是特别具有挑战性的,因为包括regular and few-shot的有监督的预训练往往会学会忽略类内差异性,这对于分离子类至关重要。在本文中,我们介绍了一种新颖的“角度归一化(Angular normalization)”模块,该模块可以有效地结合监督和自监督的对比预训练来解决C2FS任务,从而证明了在多个基准和数据集的广泛研究中所取得的显著成果。我们希望这项工作将有助于为有关C2FS分类这一新的,具有挑战性且非常实用的主题的未来研究铺平道路。

论文: https://arxiv.org/abs/2012.03515

3. Distilling Audio-Visual Knowledge by Compositional Contrastive Learning

作者:Yanbei Chen, Yongqin Xian, A.Sophia Koepke, Ying Shan, Zeynep Akata

摘要:与从单模态学习相比,获得多模态线索,(例如,视觉和音频)可以更快地完成某些认知任务。在这项工作中,我们建议在跨模态中传输知识,即使这些数据模态在语义上可能不相关。与直接对齐不同模态的表示不同,我们组合音频,图像和视频的跨模态表示,以发现更丰富的多模态知识。我们的主要思想是学习一种组合嵌入表示,这种嵌入可以缩小跨模态语义鸿沟并捕获与任务相关的语义,这有助于通过组合对比学习将跨模态的表示整合在一起。我们在三个视频数据集(UCF101,ActivityNet和VG-GSound)上建立了一个新的,全面的多模态蒸馏基准。此外,我们证明了我们的模型在传输视听知识以改善视频表示学习方面,明显优于各种现有的知识蒸馏方法。

论文: https://arxiv.org/abs/2104.10955

代码: https://github.com/yanbeic/CCL

4. Dense Contrastive Learning for Self-Supervised Visual Pre-Training

作者:Xinlong Wang, Rufeng Zhang, Chunhua Shen, Tao Kong, Lei Li

摘要:迄今为止,大多数现有的自监督学习方法都是针对图像分类进行设计和优化的。由于图像级预测和像素级预测之间的差异,这些预训练的模型对于密集的预测任务可能不是最佳的。为了解决这个问题,我们旨在设计一种有效,密集的自监督学习方法,通过考虑局部特征之间的对应关系,直接在像素(或局部特征)级别上起作用。我们提出了密集的对比学习(DenseCL),该算法通过在输入图像的两个视图之间的像素级别上优化成对的对比(不相似)损失来实现自监督学习。

与基准方法MoCo-v2相比,我们的方法引入的计算开销(仅慢了1%)可忽略不计,但是在转移到下游密集的预测任务(包括目标检测,语义分割和实例分割)时,始终表现出优异的性能;并大大领先于最新技术。具体而言,在强大的MoCo-v2基线上,我们的方法在PASCAL VOC数据集对象检测任务上的AP显著提升2.0%,COCO数据集对象检测任务上的AP显著提升1.1%,COCO数据集实例分割任务上的AP提升0.9%,PASCAL VOC数据集语义分割任务上的AP提升3.0% Cityscapes数据集语义分割任务上mIoU显著提升1.8%。

论文: https://arxiv.org/abs/2011.09157

代码: https://git.io/DenseCL

5. AdCo: Adversarial Contrast for Efficient Learning of Unsupervised Representations from Self-Trained Negative Adversaries

作者:Qianjiang Hu, Xiao Wang, Wei Hu, Guo-Jun Qi

摘要:对比学习依赖于构建一个负样本集合,当负样本的表示是经过自训练时,负样本很难与正样本的查询(query)区分开来。现有的对比学习方法要么在小批量样本中含有负样本队列,而只有一小部分在迭代中被更新,要么只使用当前小批量样本中的其他样本作为负样本。他们无法通过更新整个队列来密切跟踪迭代过程中学习到的表示的变化,也无法从使用过的小批量样本中剔除有用信息。或者,我们提出直接学习一组负样本来对抗自我训练的表示。两个角色,表示网络和负样本对抗,交替更新来获取最具挑战性的负样本,以区分正样本查询的表示。我们进一步表明,通过最大化对抗性对比损失,负样本被更新为正样本查询的加权组合,从而他们能够随着时间密切跟踪表示的变化。实验结果表明,本文所提出的对抗对比模型(AdCo)不仅具有出色的性能(在ImageNet上进行线性评估,200个epoch时 top-1准确度为73.2%,800个epoch时为75.7%),而且可以在更短的GPU时间和更少的epoch条件下进行更有效的预训练。

论文: https://arxiv.org/abs/2011.08435

代码: https://github.com/maple-research-lab/AdCo

成为VIP会员查看完整内容
0
34

【导读】人工智能顶级会议AAAI2021接收结果已经公布,本次AAAI 2021一共收到9034篇论文提交,其中有效审稿的只有7911篇,最终录取的数量为1692篇,接收率为21.4%,相比去年的20.6%高0.8%,竞争越来越激烈。近期,所有paper list 放出,小编发现基于视频理解(Video Understanding)相关的接受paper很多,视频理解,比如视频分割、视频分类以及视频描述生成等等一些列前沿的方法和应用受到了很多人的关注。

为此,这期小编为大家奉上AAAI 2021必读的六篇视频理解相关论文——视频实例分割、无监督视频目标分割、粗到细视频描述生成、时空图神经网络视频目标分割、视频情感分析

AAAI 2021 Accepted Papers : https://aaai.org/Conferences/AAAI-21/wp-content/uploads/2020/12/AAAI-21_Accepted-Paper-List.Main_.Technical.Track_.pdf

AAAI2021CI、AAAI2021CL、ICLR2020CI、ICML2020CI

1. CompFeat: Comprehensive Feature Aggregation for Video Instance Segmentatio

作者:Yang Fu, Linjie Yang, Ding Liu, Thomas S. Huang, Humphrey Shi

摘要:视频实例分割是一项复杂的任务,我们需要针对任何给定视频对每个目标进行检测,分割和跟踪。先前的方法仅将单帧特征用于目标的检测,分割和跟踪,并且当遇到诸如运动模糊和剧烈的外观变化之类情形,它们在视频场景中会遭受损失。为了消除仅通过使用单帧特征引入的歧义,我们提出了一种新颖的综合特征聚合方法(comprehensive feature aggregation, CompFeat),以利用时间和空间上下文信息在帧级和目标级完善特征。我们使用新的注意力机制精心设计了聚合过程,该机制会显着提高学习特征的判别力。通过合并特征相似性和空间相似性,我们通过siamese设计进一步提高了模型的跟踪能力。在YouTubeVIS数据集上进行的实验验证了我们提出的CompFeat的有效性。

图片 代码:

https://github.com/SHI-Labs/CompFeat-for-Video-Instance-Segmentation.

网址:

https://arxiv.org/abs/2012.03400

2. F2Net: Learning to Focus on the Foreground for Unsupervised Video Object Segmentation

作者:Daizong Liu, Dongdong Yu, Changhu Wang, Pan Zhou

摘要:尽管基于深度学习的方法在无监督的视频目标分割中取得了很大的进步,但是仍然不能很好地处理困难的场景(例如,视觉相似性,遮挡和外观变化)。为了缓解这些问题,我们提出了一种新颖的Focus on Foreground Network(F2Net),该框架深入研究了前景目标的帧间细节,从而有效地提高了分割性能。具体来说,我们提出的网络由三个主要部分组成:siamese编码器模块,中心指导外观扩散( Center Guiding Appearance Diffusion)模块和动态信息融合模块。首先,我们使用siamese编码器提取成对帧(参考帧和当前帧)的特征表示。然后,设计了中心指导外观扩散方式,以捕获帧间特征(参考帧与当前帧之间的密集对应关系),帧内特征(当前帧中的密集对应关系)以及当前帧的原始语义特征。具体来说,我们建立了一个中心预测分支来预测当前目标在当前帧中的中心位置,并在增强帧间和帧内特征提取之前利用中心点信息作为空间指导,因此特征表示相当集中在前景目标上。最后,我们提出了一种动态信息融合模块,可以通过上述三个不同级别的特征自动选择相对重要的特征。在DAVIS2016,Youtube-object和FBMS数据集上进行的大量实验表明,我们提出的F2Net可以实现最先进的性能,并且具有显着的改进。

图片 网址:

https://arxiv.org/abs/2012.02534

3. Non-Autoregressive Coarse-to-Fine Video Captioning

作者:Bang Yang, Yuexian Zou, Fenglin Liu, Can Zhang

摘要:目前在桥接视频(bridge videos)和自然语言方面取得了很不错的进展。然而,由于自动回归解码的顺序方式,主流视频字幕生成方法的推理速度较慢,并且由于对视觉单词(例如,名词和动词)的训练不足和解码范式不足,更倾向于生成一般描述。在本文中,我们提出了一种基于非自回归解码的模型,该模型具有从粗到精的字幕处理程序,可以缓解这些缺陷。在实现中,我们采用基于双向自注意力的网络作为我们的语言模型,以实现推理速度的提高,在此基础上,我们将视频描述生成过程分解为两个阶段,其中模型具有不同的聚焦点。具体而言,鉴于视觉单词决定字幕的语义正确性,我们设计了一种生成视觉单词的机制,不仅可以促进与场景相关的单词的训练,而且可以从视频中捕获相关细节以构建粗粒度的句子“模板”。此后,我们设计了专用的解码算法,该算法用合适的词填充“模板”,并通过迭代细化修改不适当的措词以获得细粒度的描述。在两个主流视频字幕基准(即MSVD和MSR-VTT)上进行的大量实验表明,我们的方法可实现最先进的性能,生成多种描述并获得较高的推理效率。

图片 网址:

https://arxiv.org/abs/1911.12018

4. Spatiotemporal Graph Neural Network based Mask Reconstruction for Video Object Segmentation

作者:Daizong Liu, Shuangjie Xu, Xiao-Yang Liu, Zichuan Xu, Wei Wei, Pan Zhou

摘要:本文解决了在半监督环境中分割与类无关的目标的任务。尽管以前的基于检测的方法实现了相对较好的性能,但是这些方法通过贪婪策略提取了最佳proposal,这可能会丢失所选候选目标之外的局部patch的详细信息。在本文中,我们提出了一种新颖的时空图神经网络(STG-Net),以重建用于视频目标分割的更准确的掩码(masks),该掩码通过利用所有proposal来捕获局部上下文。在空间图中,我们将一帧的目标proposal作为节点对待,并使用用于掩码上下文聚合的边缘权重策略表示它们的相关性。为了从先前的帧中捕获时间信息,我们使用记忆网络通过检索时间图中的历史掩码来细化当前帧的掩码。局部补丁细节和时间关系的共同使用使我们能够更好地解决诸如目标遮挡和丢失之类的挑战。在没有在线学习和微调的情况下,我们的STG网络在四个大型基准(DAVIS,YouTube-VOS,SegTrackv2和YouTube-Objects)上实现了最先进的性能,证明了该方法的有效性。

网址:

https://arxiv.org/abs/2012.05499

5. Quantum Cognitively Motivated Decision Fusion for Video Sentiment Analysis

作者:Dimitris Gkoumas, Qiuchi Li, Shahram Dehdashti, Massimo Melucci, Yijun Yu, Dawei Song

摘要:视频情感分析作为一个决策过程,其本质是复杂的,涉及多种模态的决策和由此引起的认知偏差的融合。受量子认知(quantum cognition)最新进展的启发,我们表明一种模态的情感判断可能与另一种模态的判断不兼容,即顺序很重要,无法共同衡量它们以做出最终决定。因此,认知过程表现出经典概率理论无法捕捉到的“量子式”偏见。因此,我们提出了一种根本上新颖的,量子认知动机的融合策略,用于预测情感判断。特别地,我们在具有正算子值测度的复值希尔伯特空间上,将话语表述为正负情绪判断的量子叠加状态,将单模态分类器表述为互不相容的可观测量。在两个基准数据集上进行的实验表明,我们的模型明显优于各种现有决策级别和一系列最新的内容级别融合方法。结果还表明,不兼容的概念允许有效处理所有组合模态,包括所有单峰分类器错误预测的极端情况。

图片 网址:

https://arxiv.org/abs/2101.04406

成为VIP会员查看完整内容
0
39

【导读】机器学习顶会 NeurIPS 2020, 是人工智能领域全球最具影响力的学术会议之一,因此在该会议上发表论文的研究者也会备受关注。据官方统计,今年NeurIPS 2020 共收到论文投稿 9454 篇,接收 1900 篇(其中 oral 论文 105 篇、spotlight 论文 280 篇),论文接收率为 20.1%。近期,NeurIPS 2020快开会了,小编发现域自适应(Domain Adaptation)相关的接受paper很多,这块研究方向近几年一直很火,并且各个CV和NLP的域自适应任务也非常多。

为此,这期小编为大家奉上NeurIPS 2020必读的六篇域自适应(Domain Adaptation)相关论文——One-shot 无监督域自适应、图模型、启发式域自适应、自监督、多源域自适应

NeurIPS 2020 Accepted Papers : https://proceedings.neurips.cc/paper/2020

NIPS2020CI、ICLR2020CI、ICML2020CI

1. Adversarial Style Mining for One-Shot Unsupervised Domain Adaptation

作者:Yawei Luo, Ping Liu, Tao Guan, Junqing Yu, Yi Yang

摘要:我们针对One-Shot无监督域自适应的问题。与传统的无监督域适应不同,它假定学习适应时只能使用一个未标记的目标样本。这种设置是现实的,但更具挑战性,在这种情况下,传统的自适应方法由于缺少未标记的目标数据而容易失败。为此,我们提出了一种新颖的对抗式风格挖掘方法,该方法将风格迁移模块和特定于任务模块组合成对抗的方式。具体来说,风格迁移模块会根据当前的学习状态,迭代搜索One-Shot目标样本周围的较难的风格化图像,从而使任务模型探索在不可知的目标领域中难以解决的潜在风格,从而增强了数据稀缺情况下的适应性能。对抗学习框架使风格迁移模块和特定于任务模块在竞争中彼此受益。在跨域分类和分割基准方面的大量实验证明,ASM在具有挑战性的One-Shot设置下达到了最新的自适应性能。

网址:

https://www.zhuanzhi.ai/paper/a17a6668db3b566cb625eb7ac40e87c7

https://proceedings.neurips.cc/paper/2020/hash/ed265bc903a5a097f61d3ec064d96d2e-Abstract.html

2. Domain Adaptation as a Problem of Inference on Graphical Models

作者:Kun Zhang, Mingming Gong, Petar Stojanov, Biwei Huang, QINGSONG LIU, Clark Glymour

摘要:本文涉及数据驱动的无监督域自适应,在这种情况下,事先不知道跨域的联合分布如何变化,即数据分布的哪些因素或模块保持不变或跨域变化。为了研究具有多个源域的域自适应方法,我们提出使用图模型作为一种紧凑(compact)的方式来编码联合分布的变化属性,该属性可以从数据中学习,然后将域自适应视为一个关于图模型的贝叶斯推断问题。这种图模型区分了分布的恒定和变化模块,并指定了跨域变化的特性,这是变化模块的先验知识,目的是得出目标域中目标变量Y的后验。这提供了域自适应的端到端框架,可以将关于联合分布如何变化的其他知识(如果可用)直接合并以改善图表示。我们讨论如何将基于因果关系的域适应置于此保护之下。和真实数据的实验结果证明了所提出的域适应框架的功效。

代码:

https://github.com/mgong2/DA_Infer

网址:

https://www.zhuanzhi.ai/paper/0818d6de3a6b41761d811cadd46688c2

3. Heuristic Domain Adaptation

作者:shuhao cui, Xuan Jin, Shuhui Wang, Yuan He, Qingming Huang

摘要:在视觉域自适应(DA)中,将特定于域的特征与不依赖于域的表示形式分开是一个病态(ill-posed)问题。现有方法采用不同的先验方法或直接最小化域差异来解决此问题,这在处理实际情况时缺乏灵活性。另一个研究方向是将特定域的信息表示为逐步迁移的过程,这在准确删除特定域的属性方面往往不是最佳选择。在本文中,我们从启发式搜索的角度解决了域不变和域特定信息的建模问题。我们将现有的特征标识为启发式表示形式,从而导致更大的域差异。在启发式表示的指导下,我们制定了一个具有良好理论依据的启发式域自适应(HDA)原则框架。为了执行HDA,在学习过程中,将域不变和域特定表示之间的余弦相似性评分和独立性度量放入初始和最终状态的约束中。类似于启发式搜索的最终条件,我们进一步推导出一个约束,以强制约束启发式网络输出的最终范围较小。因此,我们提出了启发式域自适应网络(HDAN),该网络明确学习了具有上述约束的域不变和域特定表示。大量实验表明,HDAN在无监督DA,多源DA和半监督DA方面已超过了最新技术。

代码:

https://github.com/cuishuhao/HDA

网址:

https://proceedings.neurips.cc/paper/2020/hash/555d6702c950ecb729a966504af0a635-Abstract.html

4. Transferable Calibration with Lower Bias and Variance in Domain Adaptation

作者:Ximei Wang, Mingsheng Long, Jianmin Wang, Michael Jordan

摘要:域自适应(DA)可以将学习器从标记的源域转移到未标记的目标域。尽管已经取得了显著的进步,但大多数现有的DA方法都专注于提高推理的目标精度。如何估计DA模型的预测不确定性对于安全重要型场景中的决策至关重要,但其仍然是研究的边界。在本文中,我们研究了DA校准(Calibration)中的开放性问题,该问题是由于域转移和缺少目标标签共存所造成的,这一问题极具挑战性。我们首先揭示了DA模型以经过良好校准的概率为代价来学习更高的精度的困境。基于这一发现,我们提出了可迁移校准(TransCal),以在统一的无超参数优化框架中以较低的偏差和方差实现更准确的校准。作为常规的post-hoc 校准方法,TransCal可以轻松地应用于重新校准现有的DA方法。从理论上和经验上都证明了其有效性。

网址:

https://www.zhuanzhi.ai/paper/95aa0a2fa32cdaea974fc9d7eb4387fe

5. Universal Domain Adaptation through Self-Supervision

作者:Kuniaki Saito, Donghyun Kim, Stan Sclaroff, Kate Saenko

摘要:传统上,无监督域自适应方法假定所有源类别都存在于目标域中。实际上,对于两个域之间的类别重叠知之甚少。虽然某些方法使用部分或开放类别来解决目标设置,但它们假定特定设置是先验的。我们提出了一种更通用的域自适应框架,该框架可以处理任意类别转换,称为通过熵优化(DANCE)的域自适应邻域聚类。DANCE结合了两种新颖的思想:首先,由于我们不能完全依靠源类别来学习针对目标的判别性特征,因此我们提出了一种新颖的邻域聚类技术,以一种自监督的方式来学习目标域的结构。其次,我们使用基于熵的特征对齐和拒绝来将目标特征与源对齐,或基于它们的熵将它们拒绝为未知类别。我们通过广泛的实验表明,在开放集,开放部分和部分域适应设置中,DANCE的性能均优于基线。

代码: https://github.com/VisionLearningGroup/DANCE

网址: https://www.zhuanzhi.ai/paper/91e073dfcdb3b34bf9599e7f28185884

6. Your Classifier can Secretly Suffice Multi-Source Domain Adaptation

作者:Naveen Venkat, Jogendra Nath Kundu, Durgesh Singh, Ambareesh Revanur, R. Venkatesh Babu

摘要:多源域适应(MSDA)解决在域转移(domain-shift)下将任务知识从多个标记的源域转移到未标记的目标域。现有方法旨在使用辅助分布对齐目标来最小化该域偏移。在这项工作中,我们提出了与MSDA不同的观点,我们观察到了深度模型以在标签监督下隐式对齐域。因此,我们旨在利用隐式对齐方式而无需其他训练目标来进行适应。为此,我们使用伪标记的目标样本并在伪标记上执行分类器协议,此过程称为自监督隐式比对(SImpA1)。我们发现,即使在源域之间的类别转换下,SImpAl仍然可以轻松工作。此外,我们提出了分类器一致性作为确定训练收敛的线索,从而产生了一种简单的训练算法。我们在五个基准上对我们的方法进行了全面的评估,并对方法的每个组成部分进行了详细的分析。

网址:

https://proceedings.neurips.cc/paper/2020/hash/3181d59d19e76e902666df5c7821259a-Abstract.html

成为VIP会员查看完整内容
0
31

【导读】计算机视觉顶会CVPR 2020在不久前公布了论文接收列表。本届CVPR共收到了6656篇有效投稿,接收1470篇,其接受率在逐年下降,今年接受率仅为22%。近期,一些Paper放出来,Domain Adaptation(域自适应)相关研究非常火热,特别是基于Domain Adaptation的视觉应用在今年的CVPR中有不少,专知小编整理了CVPR 2020 域自适应(DA)相关的比较有意思的值得阅读的六篇论文,供大家参考—行为分割、语义分割、目标检测、行为识别、域自适应检索。

  1. Action Segmentation with Joint Self-Supervised Temporal Domain Adaptation

作者:Min-Hung Chen, Baopu Li, Yingze Bao, Ghassan AlRegib, Zsolt Kira

摘要:尽管最近在全监督行为分割(action segmentation)技术方面取得了一些进展,但性能仍然不尽如人意。一个主要挑战是时空变化问题(例如,不同的人可能以不同的方式进行相同的活动)。因此,我们利用无标签视频将行为分割任务重新表述为一个具有时空变化引起的域差异的跨域问题来解决上述时空变化问题。为了减少这种域差异,我们提出了自监督时域自适应(SSTDA),它包含两个自监督辅助任务(二进制和序列域预测)来联合对齐嵌入局部和全局时间动态的跨域特征空间,取得了比其他域自适应(DA)方法更好的性能。在三个具有挑战性的基准数据集(GTEA、50Salads和Breakfast)上,SSTDA的表现远远超过当前最先进的方法(在Breakfas上F1@25得分从59.6%到69.1%,在50Salads上F1@25得分从73.4%到81.5%,在GTEA上F1@25得分从83.6%到89.1%),并且只需要65%的标记训练数据来就实现了该性能,这表明了SSTDA在各种变化中适应未标记目标视频的有效性。

网址:https://arxiv.org/abs/2003.02824

代码链接:https://github.com/cmhungsteve/SSTDA

  1. Differential Treatment for Stuff and Things:A Simple Unsupervised Domain Adaptation Method for Semantic Segmentation

作者:Zhonghao Wang, Mo Yu, Yunchao Wei, Rogerior Feris, Jinjun Xiong, Wen-mei Hwu, Thomas S. Huang, Honghui Shi

摘要:本文通过缓解源域(合成数据)和目标域(真实数据)之间的域转换(domain shift),研究语义分割中的无监督域自适应问题。之前的方法证明,执行语义级对齐有助于解决域转换问题。我们观察到事物类别通常在不同域的图像之间具有相似的外观,而事物(即目标实例)具有更大的差异,我们提出使用针对填充(stuff)区域和事物的不同策略来改进语义级别的对齐方式:1)对于填充类别,我们为每一类生成特征表示,并进行从目标域到源域的对齐操作;2)对于事物(thing)类别,我们为每个单独的实例生成特征表示,并鼓励目标域中的实例与源域中最相似的实例对齐。以这种方式,事物类别内的个体差异也将被考虑,以减轻过度校准。除了我们提出的方法之外,我们还进一步揭示了当前对抗损失在最小化分布差异方面经常不稳定的原因,并表明我们的方法可以通过最小化源域和目标域之间最相似的内容和实例特征来帮助缓解这个问题。

网址:https://arxiv.org/abs/2003.08040

  1. Exploring Categorical Regularization for Domain Adaptive Object Detection

作者:Chang-Dong Xu, Xing-Ran Zhao, Xin Jin, Xiu-Shen Wei

摘要:在本文中,我们解决了域自适应目标检测问题,其中的主要挑战在于源域和目标域之间存在明显的域差距。以前的工作试图明确地对齐图像级和实例级的移位,以最小化域差异。然而,它们仍然忽略了去匹配关键图像区域和重要的跨域实例,这将严重影响域偏移缓解。在这项工作中,我们提出了一个简单有效的分类正则化框架来缓解这个问题。它可以作为一个即插即用(plug-and-play)组件应用于一系列域自适应Faster R-CNN方法,这些方法在处理域自适应检测方面表现突出。具体地说,由于分类方式的定位能力较弱,通过在检测主干上集成图像级多标签分类器,可以获得与分类信息相对应的稀疏但关键的图像区域。同时,在实例级,我们利用图像级预测(分类器)和实例级预测(检测头)之间的分类一致性作为正则化因子,自动寻找目标域的硬对齐实例。各种域转移场景的大量实验表明,与原有的域自适应Faster R-CNN检测器相比,我们的方法获得了显着的性能提升。此外,定性的可视化和分析可以证明我们的方法能够关注针对领域适配的关键区域/实例。

网址:https://arxiv.org/abs/2003.09152

代码链接:https://github.com/Megvii-Nanjing/CR-DA-DET

  1. Multi-Modal Domain Adaptation for Fine-Grained Action Recognition

作者:Jonathan Munro, Dima Damen

摘要:细粒度行为识别数据集存在出环境偏差,多个视频序列是从有限数量的环境中捕获的。在一个环境中训练模型并在另一个环境中部署会由于不可避免的域转换而导致性能下降。无监督域适应(UDA)方法经常利用源域和目标域之间进行对抗性训练。然而,这些方法并没有探索视频在每个域中的多模式特性。在这项工作中,除了对抗性校准之外,我们还利用模态之间的对应关系作为UDA的一种自监督校准方法。

我们在大规模数据集EPIC-Kitchens中的三个kitchens上使用行为识别的两种模式:RGB和光学流(Optical Flow)测试了我们的方法。结果显示,仅多模态自监督比仅进行源训练的性能平均提高了2.4%。然后,我们将对抗训练与多模态自监督相结合,表明我们的方法比其他UDA方法要好3%。

网址:https://arxiv.org/abs/2001.09691

  1. Learning Texture Invariant Representation for Domain Adaptation of Semantic Segmentation

作者:Myeongjin Kim, Hyeran Byun

摘要:由于用于语义分割的像素级标签标注很费力,因此利用合成数据是一种更好的解决方案。然而,由于合成域和实域之间存在领域鸿沟,用合成数据训练的模型很难推广到真实数据。本文将这两个领域之间的根本差异作为纹理,提出了一种自适应目标域纹理的方法。首先,我们使用样式转移算法使合成图像的纹理多样化。合成图像的各种纹理防止分割模型过拟合到一个特定(合成)纹理。然后,通过自训练对模型进行微调,得到对目标纹理的直接监督。我们的结果达到了最先进的性能,并通过大量的实验分析了在多样化数据集上训练的模型的性质。

网址:https://arxiv.org/abs/2003.00867

  1. Probability Weighted Compact Feature for Domain Adaptive Retrieval

作者:Fuxiang Huang, Lei Zhang, Yang Yang, Xichuan Zhou

摘要:域自适应图像检索包括单域检索和跨域检索。现有的图像检索方法大多只关注单个域的检索,假设检索数据库和查询的分布是相似的。然而,在实际应用中,通常在理想光照/姿态/背景/摄像机条件下获取的检索数据库与在非受控条件下获得的查询之间的差异很大。本文从实际应用的角度出发,重点研究跨域检索的挑战性问题。针对这一问题,我们提出了一种有效的概率加权紧凑特征学习(PWCF)方法,它提供域间相关性指导以提高跨域检索的精度,并学习一系列紧凑二进制码(compact binary codes)来提高检索速度。首先,我们通过最大后验估计(MAP)推导出我们的损失函数:贝叶斯(BP)诱发的focal-triplet损失、BP诱发的quantization损失和BP诱发的分类损失。其次,我们提出了一个通用的域间复合结构来探索域间的潜在相关性。考虑到原始特征表示因域间差异而存在偏差,复合结构难以构造。因此,我们从样本统计的角度提出了一种新的特征—邻域直方图特征(HFON)。在不同的基准数据库上进行了大量的实验,验证了我们的方法在领域自适应图像检索中的性能优于许多最先进的图像检索方法。

网址:https://arxiv.org/abs/2003.03293

代码链接:https://github.com/fuxianghuang1/PWCF

成为VIP会员查看完整内容
0
73
小贴士
相关论文
Doyup Lee,Sungwoong Kim,Ildoo Kim,Yeongjae Cheon,Minsu Cho,Wook-Shin Han
0+阅读 · 1月17日
Cross-Domain Adaptive Clustering for Semi-Supervised Domain Adaptation
Jichang Li,Guanbin Li,Yemin Shi,Yizhou Yu
16+阅读 · 2021年4月19日
Jiawei Sheng,Shu Guo,Zhenyu Chen,Juwei Yue,Lihong Wang,Tingwen Liu,Hongbo Xu
11+阅读 · 2020年10月19日
Xiangde Luo,Jieneng Chen,Tao Song,Yinan Chen,Guotai Wang,Shaoting Zhang
9+阅读 · 2020年9月9日
Hao Wang,Hao He,Dina Katabi
8+阅读 · 2020年8月30日
Multi-Modal Domain Adaptation for Fine-Grained Action Recognition
Jonathan Munro,Dima Damen
7+阅读 · 2020年3月19日
Tutorial on NLP-Inspired Network Embedding
Boaz Shmueli
7+阅读 · 2019年10月16日
Fenyu Hu,Yanqiao Zhu,Shu Wu,Liang Wang,Tieniu Tan
3+阅读 · 2019年6月10日
Lei Sang,Min Xu,Shengsheng Qian,Xindong Wu
6+阅读 · 2018年3月24日
Yi Tay,Anh Tuan Luu,Siu Cheung Hui
5+阅读 · 2018年1月7日
Top
微信扫码咨询专知VIP会员