基于双流更新的视觉

Transformer动态加速方法

Evo-ViT: Slow-Fast Token Evolution for Dynamic Vision Transformer

视觉Transformer 通过自注意力机制捕获短程和长程视觉依赖的能力使其在各种计算机视觉任务中显示出巨大的潜力,但是长程感受野同样带来了巨大的计算开销,特别是对于高分辨率视觉任务。为了能够在保持原有模型准确率的前提下,降低模型计算复杂度,从而使得视觉 Transformer成为一种更加通用、高效、低廉的解决框架,我们提出了Evo-ViT,基于双流token更新的视觉transformer动态加速方法。

该方法在保持了完整空间结构的同时给高信息量token和低信息量token分配不同的计算通道。从而在不改变网络结构的情况下,以极低的精度损失大幅提升直筒状和金字塔压缩型的Transformer模型推理性能。

其中,我们提出的基于全局class attention的token选择策略通过增强层间的通信联系实现稳定token选择,相比以往方法,无需依靠外部的可学习网络来对每一层的token进行选择,也无需基于训练好的网络进行token裁剪。在ImageNet 1K数据集下,Evo-ViT可以提升DeiT-S 60%推理速度的同时仅仅损失0.4%的精度。

https://www.zhuanzhi.ai/paper/7a1101e877530fa0dc16f1315fe9c019

成为VIP会员查看完整内容
0
13

相关内容

时空表示学习是视频自监督表示的关键。目前的学习方法主要是对比学习和前置任务。然而,这些方法都是通过潜在空间中的特征相似度来判别采样实例来学习表征,而忽略了学习表征的中间状态,从而限制了整体性能。在这项工作中,考虑采样实例的相似程度作为中间状态,我们提出了一个新的前置任务-时空重叠率(spatial - temporal overlap rate, STOR)预测。它源于人类能够分辨视频在空间和时间上的重叠率。这个任务鼓励模型区分两个生成样本的STOR来学习表示。此外,我们采用结合前置任务和对比学习的联合优化方法来进一步增强时空表示学习。我们还研究了所提出方案中各组成部分的相互影响。大量实验表明,本文提出的语料存储任务对对比学习和托词学习都有较好的效果。联合优化方案可以显著提高视频理解的时空表征。代码可以在https://github.com/Katou2/CSTP上找到。

https://www.zhuanzhi.ai/paper/c0dee275900d84eb9dddb0d36111a0ed

成为VIP会员查看完整内容
0
8

本文提出了一种高分辨率Transformer(HRT),它可以通过学习高分辨率表征来完成密集的预测任务,而原来的Vision Transformer学习的则是低分辨率表征,同时具有很高的内存和计算成本。

作者在高分辨率卷积网络(HRNet)中分别引入的多分辨率并行设计,以及local-window self-attention,在小的非重叠图像窗口上执行self-attention,以提高内存和计算效率。此外,在FFN中引入了卷积操作,以在断开的图像窗口之间交换信息。

作者实验证明了HRT在人体姿态估计和语义分割任务中的有效性,HRT在COCO姿态估计上比Swin Transformer少了50%的参数和30%的FLOPs,精度比Swin Transformer高出1.3%AP。

成为VIP会员查看完整内容
0
12

本文是复旦大学&华为诺亚关于Transformer中自注意力机制复杂度的深度思考,首次提出了一种新颖的softmax-free 的Transformer 。本文从softmax self-attention局限性出发,分析了其存在的挑战;然后由此提出了线性复杂度的SOFT;再针对线性SOFT存在的训练问题,提出了一种具有理论保证的近似方案。所提SOFT在ImageNet分类任务上取得了比已有CNN、Transformer更佳的精度-复杂度均衡。

ViT通过图像块序列化+自注意力机制将不同CV任务性能往前推了一把。然而,自注意力机制会带来更高的计算复杂度与内存占用。在NLP领域已有不同的方案尝试采用线性复杂度对自注意力进行近似。然而,本文的深入分析表明:NLP中的近似方案在CV中缺乏理论支撑或者无效。

我们进一步分析了其局限性根因:softmax self-attention 。具体来说,传统自注意力通过计算token之间的点乘并归一化得到自注意力。softmax操作会对后续的线性近似带来极大挑战。基于该发现,本文首次提出了SOFT(softmax-free transformer )。

为移除自注意力中的softmax,我们采用高斯核函数替代点乘相似性且无需进一步的归一化。这就使得自注意力矩阵可以通过低秩矩阵分析近似 。近似的鲁棒性可以通过计算其MP逆(Moore-Penrose Inverse)得到。

ImageNet数据集上的实验结果表明:所提SOFT显著改善了现有ViT方案的计算效率 。更为关键的是:SOFT的线性复杂度可以允许更长的token序列,进而取得更佳的精度-复杂度均衡。

成为VIP会员查看完整内容
0
15

用反向传播方法训练深度残差神经网络(ResNets)的记忆成本随网络深度的增加而线性增加。规避这个问题的一种方法是使用可逆的架构。本文提出通过增加动量项来改变ResNet的正向规则。所得到的网络,动量剩余神经网络(动量ResNets)是可逆的。与以前的可逆架构不同,它们可以作为任何现有的ResNet块的替代。我们证明动量ResNets可以被解释为二阶常微分方程(ode),并准确地描述了如何逐步增加动量增加动量ResNets的表示能力。我们的分析显示,Momentum ResNets可以学习任何线性映射到一个倍增因子,而ResNets不能。在优化设置的学习中,需要收敛到一个不动点,我们从理论上和经验上证明了我们的方法成功,而现有的可逆架构失败。我们在CIFAR和ImageNet上展示了Momentum ResNets与ResNets具有相同的精度,但占用的内存要小得多,并展示了预训练的Momentum ResNets对模型的微调是有前途的。

https://www.zhuanzhi.ai/paper/867b3834167694dab97cf812135dc273

成为VIP会员查看完整内容
0
22

本文提出了一种基于框架小波变换(framelet transforms)的图神经网络。这种方法为结构化的图数据提供了多尺度表示。我们利用这种变换方式把图数据特征分解到低通和高通频率(low-pass and high-pass frequency)空间上,并利用这些频率信息定义相应的框架小波图卷积层(graph framelet convolutional layer)。此外,图上的特征通过框架小波分解,聚合出了低通和高通光谱(spectra)的信息。我们利用这一特征,进一步提出了相应的图池化(graph pooling)方法。这种池化方法同时考虑了图数据的特征信息(feature information)和几何信息(topology information)。

我们在多种节点预测和图预测任务上对本文提出的框架小波卷积和池化方法的图神经网络进行了测试。实验结果表明,我们的方法在多种应用下都可以达到SOTA的表现。

https://www.zhuanzhi.ai/paper/87ac4a31c20270d43bebe5279aca9ca2

成为VIP会员查看完整内容
0
37

基于meta-learning的方法在有噪声标注的图像分类中取得了显著的效果。这类方法往往需要大量的计算资源,而计算瓶颈在于meta-gradient的计算上。本文提出了一种高效的meta-learning更新方式:Faster Meta Update Strategy (FaMUS),加快了meta-learning的训练速度 (减少2/3的训练时间),并提升了模型的性能。首先,我们发现meta-gradient的计算可以转换成一个逐层计算并累计的形式; 并且,meta-learning的更新只需少量层数在meta-gradient就可以完成。基于此,我们设计了一个layer-wise gradient sampler 加在网络的每一层上。根据sampler的输出,模型可以在训练过程中自适应地判断是否计算并收集该层网络的梯度。越少层的meta-gradient需要计算,网络更新时所需的计算资源越少,从而提升模型的计算效率。

并且,我们发现FaMUS使得meta-learning更加稳定,从而提升了模型的性能。最后,我们在有噪声的分类问题以及长尾分类问题都验证了我们方法的有效性。

https://www.zhuanzhi.ai/paper/fda93b750216436e45e6f660ed76776e

成为VIP会员查看完整内容
0
15

本文提出一种新的卷积操作----动态区域注意卷积(DRConv: Dynamic Region-Aware Convolution),该卷积可以根据特征相似度为不同平面区域分配定制的卷积核。这种卷积方式相较于传统卷积极大地增强了对图像语义信息多样性的建模能力。标准卷积层可以增加卷积核的数量以提取更多的视觉元素,但会导致较高的计算成本。DRConv使用可学习的分配器将逐渐增加的卷积核转移到平面维度,这不仅提高了卷积的表示能力,而且还保持了计算成本和平移不变性。 图片 DRConv是一种用于处理语义信息分布复杂多变的有效而优雅的方法,它可以以其即插即用特性替代任何现有网络中的标准卷积,且对于轻量级网络的性能有显著提升。本文在各种模型(MobileNet系列,ShuffleNetV2等)和任务(分类,面部识别,检测和分割)上对DRConv进行了评估,在ImageNet分类中,基于DRConv的ShuffleNetV2-0.5×在46M计算量的水平下可实现67.1%的性能,相对基准提升6.3%。

https://www.zhuanzhi.ai/paper/5ab3f5fa3690be4e5e52724c176bc252

成为VIP会员查看完整内容
0
16

该工作针对基于半监督的医学图像算法,提出了一种利用双任务一致性约束的新方法,将同一个分割问题表示成两个不同的任务,并鼓励两个任务在预定义的表示空间内保持一致,进而充分利用未标注的数据提升深度神经网络的性能,同时大大降低训练网络模型所需要的标注成本。图片

基于深度学习的方法因为在图像处理上优越表现而受到广泛的关注,近年来在图像识别、人工智能领域不断取得了性能突破。但是由于深度神经网络需要依赖大量良好标注的数据,在小数据上很难达到比较好的效果。在医学图像领域,数据标注通常需要大量的时间,也需要医学领域的专业知识,但医生通常很忙,没有充足的时间来标注大量的数据,因此从少量标注数据和大量未标注数据来学习以获得高性能模型变得尤为重要。

基于这样的问题,本文提出了一种基于双任务一致性的半监督学习算法,在现有全监督医学图像分割算法基础上,该算法可以充分利用没有标注的数据进行进一步学习,进而大大提高未标注数据的利用率和促进网络分割性能。实验表明,通过引入双任务一致性,网络能更稳定的从少量标注数据和大量未标注数据中学习,并显著提高分割结果。同时与最新的半监督分割算法相比,此方法需要的训练成本更低,所取得的效果也更好,从而降低了深度神经网络对标注数据的依赖。
成为VIP会员查看完整内容
0
14

许多实际应用需要对长序列时间序列进行预测,例如用电计划。长序列时间序列预测(LSTF)对模型的预测能力要求很高,即能够高效捕获输出和输入之间精确的长程依赖。近年来的研究表明,Transformer 具有提高预测能力的潜力。然而,Transformer 存在几个严重的问题,因而无法直接应用于 LSTF,比如二次时间复杂度、高内存使用率以及编码器 - 解码器架构的固有局限。

为解决这些问题,该研究为 LSTF 设计了一个基于高效 transformer 的模型——Informer,该模型具备三个特征:

1)ProbSparse 自注意力机制,其时间复杂度和内存使用达到 O(L log L),在序列依赖对齐方面具有不错的性能; 2)自注意力蒸馏通过将级联层输入减半来突出注意力,并且能够高效地处理极长的输入序列; 3)尽管生成风格解码器在概念上非常简单,但它会在一次前向操作中预测较长的时序序列,而不是逐步预测,这极大地提高了长序列预测的推断速度。

成为VIP会员查看完整内容
0
36

目标检测器通常在完全标注实例的监督学习情况下获得很好的结果。但是,对于稀疏实例注释,它们的性能远远不能令人满意。现有的稀疏标注目标检测方法主要是对难的负样本的损失进行重加权,或者将未标注的实例转换为忽略区域,以减少假阴性的干扰。我们认为这些策略是不够的,因为它们最多可以减轻由于缺少注释而造成的负面影响。在本文中,我们提出了一个简单而有效的机制,称为协同挖掘,稀疏标注的目标检测。在协同挖掘中,一个连体网络的两个分支相互预测伪标签集。为了增强多视图学习和更好地挖掘未标记实例,将原始图像和相应的增强图像分别作为Siamese网络的两个分支的输入。协同挖掘可以作为一种通用的训练机制,应用于大多数现代目标检测器。在三种不同稀疏注释设置的MS COCO数据集上进行了实验,使用两种典型的框架:基于锚的检测器RetinaNet和无锚检测器FCOS。实验结果表明,与RetinaNet的协同挖掘方法相比,在相同的稀疏标注设置下,相比于不同的基线,改进了1.4%~2.1%,超过了现有的方法。

https://www.zhuanzhi.ai/paper/26fe94a8c64fbb5140619ab72ed036d1

成为VIP会员查看完整内容
0
16
小贴士
相关VIP内容
专知会员服务
8+阅读 · 2021年12月19日
专知会员服务
22+阅读 · 2021年7月19日
专知会员服务
37+阅读 · 2021年5月19日
专知会员服务
15+阅读 · 2021年5月4日
专知会员服务
16+阅读 · 2021年4月2日
专知会员服务
14+阅读 · 2021年2月7日
相关论文
Nanfei Jiang,Xu Zhao,Chaoyang Zhao,Yongqi An,Ming Tang,Jinqiao Wang
0+阅读 · 1月18日
Aleksei Ustimenko,Liudmila Prokhorenkova
0+阅读 · 1月16日
Shitao Tang,Jiahui Zhang,Siyu Zhu,Ping Tan
0+阅读 · 1月8日
Yifan Xu,Zhijie Zhang,Mengdan Zhang,Kekai Sheng,Ke Li,Weiming Dong,Liqing Zhang,Changsheng Xu,Xing Sun
5+阅读 · 2021年12月6日
Zhihao Gu,Yang Chen,Taiping Yao,Shouhong Ding,Jilin Li,Feiyue Huang,Lizhuang Ma
5+阅读 · 2021年10月11日
Zichuan Lin,Garrett Thomas,Guangwen Yang,Tengyu Ma
4+阅读 · 2020年6月16日
Baotong Lu,Xiangpeng Hao,Tianzheng Wang,Eric Lo
3+阅读 · 2020年3月16日
Baosong Yang,Longyue Wang,Derek F. Wong,Lidia S. Chao,Zhaopeng Tu
6+阅读 · 2019年4月8日
Mathijs Schuurmans,Maxim Berman,Matthew B. Blaschko
6+阅读 · 2018年6月7日
Brendan Duke,Graham W. Taylor
4+阅读 · 2018年4月6日
Top
微信扫码咨询专知VIP会员