本文提出了一种高效的多尺度视觉转换器,称为ResT,可作为图像识别的通用骨干。现有的Transformer方法使用标准Transformer块来处理具有固定分辨率的原始图像,与之不同的是,我们的ResT有几个优点:(1)构建高效记忆的多头自注意,通过简单的深度卷积压缩记忆,在保持多头多样性的同时,在注意-多头维度上投射相互作用;(2)将位置编码构造为空间注意,更加灵活,可以处理任意尺寸的输入图像,无需插值或微调;(3)我们没有在每个阶段开始时直接进行标记化,而是将patch嵌入设计为在标记映射上进行跨步重叠卷积操作的堆栈。我们在图像分类和下游任务上全面验证了ResT。实验结果表明,提出的ResT可以在很大程度上超过最新的骨干技术,这表明ResT作为强大骨干的潜力。代码和模型将在https://github.com/wofmanaf/ResT上公开。

成为VIP会员查看完整内容
0
18

相关内容

去栅格化的矢量图识别

Recognizing Vector Graphics without Rasterization

论文摘要:本文工作关注在一种与以往大多数工作不同的图像格式:矢量图。和在图像识别中常用的位图不同,由于矢量图基于解析几何的表示方式,可以被无损失的缩放到任意分辨率。同时,矢量图还提供了额外的结构化信息,描述了底层元素是如何构成高层的形状和结构。现有的识别方法并没有充分利用这一格式的优点。本文通过目标检测这一基本的视觉任务来探索这个图像格式。我们提出了一种无需 CNN 的高效网络结构,在识别过程中无需将矢量图渲染为像素图(即栅格化),直接把矢量图的文本作为模型输入,称为 YOLaT (You Only Look at Text)。YOLaT 将矢量图的结构和空间信息建模为一个多重图,并提出一个双流图神经网络基于多重图来进行目标检测。实验证明 YOLaT 通过直接对矢量图进行处理分析,能够在计算效率和性能上显著超过现有的目标检测方法。

https://www.zhuanzhi.ai/paper/8b75d17e2875ed0792f5422150dc1067

成为VIP会员查看完整内容
0
9

本文提出了一种基于无监督学习的视频目标分割方法。与之前的工作不同,我们的公式允许在完全卷积的情况下直接学习密集特征表示。我们依靠统一的网格采样来提取一组锚点,并训练我们的模型来在视频间和视频内消除它们之间的歧义。然而,训练这样一个模型的朴素方案会得到一个退化解。我们提出了一种简单的正则化方案来防止这种情况,该方案适应了分割任务对相似变换的等方差特性。我们的训练目标实现高效,并表现出快速的训练趋同。在已建立的VOS基准上,我们的方法超过了以前工作的分割精度,尽管使用的训练数据和计算能力明显更少。

https://www.zhuanzhi.ai/paper/0ef8bdd09f3e46584b83f6236ca799fb

成为VIP会员查看完整内容
0
7

论文题目:SOLQ: Segmenting Objects by Learning Queries

中文题目:SOLQ:基于学习查询的物体分割

论文链接:https://www.zhuanzhi.ai/paper/aa83650733efb14101109ce1162e6636

DETR 通过引入 Transformer 和匈牙利匹配,实现了端到端的目标检测。然而,将其拓展至实例分割任务时,会引入过大的计算量,导致无法进行端到端训练,且性能无法满足真实需求。

为解决这一问题,我们结合 DETR 和压缩编码技术,提出端到端的实例分割框架 SOLQ。SOLQ 提出统一的查询(query)表征方式,使用压缩编码方法如DCT等,将二维高分辨率掩码压缩为低维向量,使得三项子任务(分类、定位和分割)能够并行预测。

实验结果表明,SOLQ 能够实现先进的实例分割性能,超越大多数现有方法。此外,我们发现统一的查询(query)表征可以大大提高 DETR 的检测性能。我们希望 SOLQ 可以作为基于 Transformer 的实例分割框架的强大基线。

成为VIP会员查看完整内容
0
6

近年来,为了提高学习任务在图数据集上的性能,人们提出了各种图对比学习模型。虽然有效且普遍,但这些模型通常是经过仔细定制的。特别是,尽管所有最近的研究都创建了两种对比的视角,但它们在视图增强、架构和目标方面存在很大差异。如何针对特定的图学习任务和数据集从零开始建立你的图对比学习模型仍然是一个开放的问题。本文旨在通过研究对比学习过程中图信息的转换和转移,提出一种信息感知的图对比学习框架InfoGCL,以填补这一空白。这个框架的关键是遵循信息瓶颈原则减少相互之间的信息对比部分,同时保持任务相关信息完整的单个模块的水平和整个框架,信息损失在图表示学习可以最小化。我们首次表明,所有最近的图对比学习方法可以统一在我们的框架。我们在节点和图分类基准数据集上验证了我们的理论分析,并证明我们的算法明显优于目前的水平。

https://arxiv.org/abs/2110.15438

成为VIP会员查看完整内容
0
13

我们研究了一组新的用于恢复损坏数据表示的逆问题。我们假设可以访问预训练过的表示学习网络R(x),该网络对干净的图像进行操作,比如CLIP。问题是恢复图像R(x)的表示,如果我们只给一个损坏的版本A(x),已知的正向算子A。我们提出了一种监督逆方法,使用对比目标,以获得高损坏图像的优秀表示。在我们的鲁棒表示上使用线性探针,在对各种类型的畸变图像(包括模糊、加性噪声和随机像素掩蔽)进行分类时,我们实现了比端到端监督基线更高的精度。我们在ImageNet的一个子集上进行评估,并观察到我们的方法对不同程度的失真具有鲁棒性。我们的方法优于端到端基线,即使在广泛的前向运算符中只有一小部分标记数据。

https://www.zhuanzhi.ai/paper/32e21201202305682f3015909f2c6243

成为VIP会员查看完整内容
0
7

图结构数据的自监督学习最近引起了从无标记图学习可泛化、可迁移移和鲁棒表示的兴趣。其中,图对比学习(GraphCL)以良好的表征学习性能出现。不幸的是,与图像数据不同的是,GraphCL的有效性依赖于特定的数据扩展,由于图数据的多样性,必须根据经验或反复试验的规则手动选择每个数据集。这极大地限制了GraphCL更普遍的适用性。为了填补这一关键空白,本文提出了一个统一的双层优化框架,在对特定图形数据执行GraphCL时自动、自适应、动态地选择数据增强。联合增强优化(JOint Augmentation Optimization, JOAO)的通用框架被实例化为最小最大化优化。JOAO所做的增强的选择通常与从手工调优中观察到的以前的“最佳实践”一致:但现在已经自动化,更加灵活和通用。此外,我们提出了一种新的增强感知投影头机制,在每个训练步骤中,通过选择不同的投影头对应不同的增强来路由输出特征。大量实验表明,JOAO在不同规模和类型的多个图数据集上的性能与最先进的竞争对手(包括GraphCL)相当,有时甚至更好,而无需对增强选择进行任何费力的数据集特定调优。我们在https://github.com/ Shen-Lab/GraphCL_Automated发布了代码。

https://arxiv.org/abs/2106.07594

成为VIP会员查看完整内容
0
19

https://www.zhuanzhi.ai/paper/cc9fa0af60aee58e256bce07f15065a0

code: https://github.com/Andrew-Qibin/CoordAttention(待开源)

本文是新加坡国立大学Qinbin Hou&Jiashi Feng等人在注意力机制方面的一次探索,针对如何有效提升移动网络的卷积特征表达能力,以及通道注意力(如SE)机制能够有效建模通道间相关性但忽视了位置信息的问题,提出了一种的新颖的注意力机制:Coordinate Attention。

Coordinate Attention通过水平与垂直方向注意力图捕获特征的远程依赖关系,而且水平与垂直注意力还可以有效保持精确的位置信息。所提注意力集中的精确位置信息无论对于分类,还是检测与分割而言都是一种非常重要的性能,因而所提注意力机制在图像分类、目标检测以及语义分割方面均取得了显著的性能提升,尤其需要注意的是,所提注意力尤其适合于语义分割等稠密预测任务

移动网络设计的近期研究表明:通道注意力(如Squeeze-and-Excitation)机制对于提升模型性能极为有效,但是忽略了位置信息,这对于生成空间选择注意力图非常重要。

针对通道注意力机制存在的上述问题,我们提出了一种用于移动网络的新颖注意力机制:它将位置信息嵌入到通道注意力中,我们将其称之为Coordinate Attention。不同于通道注意力将特征张量通过GAP转换为特征向量,坐标注意力将通道注意力拆分为两个1D特征编码过程,分别沿着两个空间方向集成特征。

通过这种处理,远程相关性可以通过空间方向捕获,于此同时,精确的位置信息可以通过另一个空间方向得以保持。所得到的特征图分辨编码为成对的方向相关注意力图与通道注意力图(两者具有互补性),并用于增强输入特征以增广目标的表达能力。

所提坐标注意力机制极为简单,可以灵活嵌入到现有移动网络(比如MobileNetV2, MobileN2Xt, EfficientNet)中,且几乎不会导致额外的计算负载。

我们通过实验证实:坐标注意力不仅有助于ImageNet分类,在下游任务(比如目标检测、语义分割)上表达更佳。下图给出了所提注意力与SE/CBAM在不同任务上的性能对比。

成为VIP会员查看完整内容
0
15

弱监督目标检测(WSOD)已经成为一种仅使用图像级别的类别标签训练目标检测器的有效工具。然而,由于没有目标级标签,WSOD检测器容易检测出显著物体、聚杂物体和判别性物体部分上的标注框。此外,图像级别的类别标签不会强制对同一图像的不同变换进行一致的目标检测。针对上述问题,我们提出了一种针对WSOD的综合注意力自蒸馏(CASD)训练方法。为了平衡各目标实例之间的特征学习,CASD计算同一图像的多个变换和特征层聚合的综合注意力。为了加强对目标的一致空间监督,CASD对WSOD网络进行自蒸馏,通过对同一幅图像的多个变换和特征层同时逼近全面注意力。CASD在标准数据集上如PASCAL VOC 2007/2012和MS-COCO产生了最好的结果。

https://www.ri.cmu.edu/publications/comprehensive-attention-self-distillation-for-weakly-supervised-object-detection/

成为VIP会员查看完整内容
0
23

近来,基于Transformer结构的预训练语言模型(如BERT和RoBERTa)在自然语言处理任务上取得了显著成果。但是,这些模型参数量巨大,限制了其在存储、计算、功耗等性能有限的边缘设备上的部署。将BERT部署到这些设备的困难体现在两个方面:(1)各种终端设备性能各不一样,怎么给不同性能的设备部署适合自身性能的模型;(2)同一个终端设备在不同的情况下可接受的运行BERT模型的存储、计算和功耗也不一样。为了解决这个问题,我们提出了一种宽度和深度可伸缩的动态预训练模型DynaBERT。与以往将BERT网络压缩到固定大小或者只在深度方向做可伸缩的方法相比,本文第一次提出来在BERT宽度方向进行可伸缩训练。宽度可伸缩通过调整Transformer层可以并行计算的注意力头和全连接层中间层神经元数目达到。本文还针对宽度方向提出了新颖的网络重连方式使得重要的注意力头和神经元被更多的子网络共享。在基准数据集上的实验结果表明,该模型通过新颖的知识蒸馏策略显著提升了子网络在NLU任务上的准确率。该模型可以根据不同设备的硬件性能部署不同宽度和深度的子网络。并且一旦某个设备部署了BERT模型,该设备也可以根据自身资源条件动态加载已部署模型的一部分进行推理。代码已经开源在https://github.com/huawei-noah/Pretrained-Language-Model/tree/master/DynaBERT。

成为VIP会员查看完整内容
0
16
小贴士
相关VIP内容
专知会员服务
9+阅读 · 11月18日
专知会员服务
7+阅读 · 11月14日
专知会员服务
6+阅读 · 11月9日
专知会员服务
13+阅读 · 11月1日
专知会员服务
7+阅读 · 10月17日
专知会员服务
19+阅读 · 6月19日
专知会员服务
20+阅读 · 6月3日
专知会员服务
15+阅读 · 3月9日
专知会员服务
23+阅读 · 2020年11月12日
相关论文
Ammarah Farooq,Muhammad Awais,Sara Ahmed,Josef Kittler
0+阅读 · 11月25日
PeCo: Perceptual Codebook for BERT Pre-training of Vision Transformers
Xiaoyi Dong,Jianmin Bao,Ting Zhang,Dongdong Chen,Weiming Zhang,Lu Yuan,Dong Chen,Fang Wen,Nenghai Yu
0+阅读 · 11月24日
Yichao Liu,Zongru Shao,Yueyang Teng,Nico Hoffmann
0+阅读 · 11月24日
Lintao Peng,Chunli Zhu,Liheng Bian
0+阅读 · 11月24日
Qinglong Zhang,Yubin Yang
3+阅读 · 10月14日
Xin Chen,Bin Yan,Jiawen Zhu,Dong Wang,Xiaoyun Yang,Huchuan Lu
8+阅读 · 3月29日
Yuqing Wang,Zhaoliang Xu,Xinlong Wang,Chunhua Shen,Baoshan Cheng,Hao Shen,Huaxia Xia
8+阅读 · 3月24日
Ning Wang,Wengang Zhou,Jie Wang,Houqaing Li
6+阅读 · 3月22日
Star-Transformer
Qipeng Guo,Xipeng Qiu,Pengfei Liu,Yunfan Shao,Xiangyang Xue,Zheng Zhang
3+阅读 · 2019年2月28日
Arthur Mensch,Mathieu Blondel
55+阅读 · 2018年2月20日
Top