有效捕捉目标级别语义信息，之江实验室&浙大提出再注意机制TRT - 专知

会员服务 ·

0

有效捕捉目标级别语义信息，之江实验室&浙大提出再注意机制TRT

2022 年 8 月 20 日 机器之心

机器之心专栏

机器之心编辑部

来自之江实验室和浙江大学的研究者提出了一种再注意机制，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。

弱监督定位任务（Weakly supervised object localization, WSOL）仅利用图像级别的类别标签，就能实现目标级别的定位功能，因为其细粒度注释的最小化需求大大压缩了人工成本，于近年获得大量关注。

由于缺乏目标级别标签的约束，仅利用图像标签进行分类训练，弱监督定位方法往往倾向于只定位图像中最具判别性的局部区域，难以涵盖整个物体区域。弱监督定位方法的局部聚焦缺陷是否和卷积神经网络局部特征关联性相关？Transformer 类网络结构的长程依赖特性对弱监督定位有何影响？作者通过可视化分析 CAM 方法、纯 transformer 网络的长程特征依赖关系，发现 transformer 网络中的长程依赖有利于克服局部聚焦缺陷，却容易受到背景干扰。

下图 1 展示了不同方法的可视化定位结果，可以看出 CAM 方法存在明显局部聚焦的问题；Transformer 的长程依赖容易产生背景误定位的现象；融合 Transformer 长程依赖和 CAM（参照 TS-CAM 论文方法）的方法虽然一定程度上缓解了局部聚焦和背景干扰的问题，但是问题依旧存在。

图 1：不同方法的可视化结果比对

基于此，来自之江实验室和浙江大学的研究者提出一种再注意机制，即 TRT (token refinement transformer)，旨在更有效地捕捉目标级别的语义信息，抑制背景干扰，实现更准确的目标定位能力。

论文链接：https://arxiv.org/pdf/2208.01838.pdf
Github链接：https://github.com/su-hui-zz/ReAttentionTransformer

方法介绍

图 2：核心方法框架图

上图 2 展示了 TRT 方法的整体框架图，TRT 由 TPSM（Token Priority Scoring Module）和 CAM ( Class Activation Map ) 两个分支构成。其中 TPSM 分支主要由 Token Preliminary Attention、Token Selection 和 Token Re-Attention 三部分组成。Token Preliminary Attention 表示利用 transformer 网络不同层的 class token 和 patch token 之间的长程依赖关系构建初步注意力图；Token Selection 指构建自适应阈值策略，筛选出初步注意力图中与 class token 关联性更高的 patch token；Token Re-Attention 指对筛选的 patch token 执行再注意操作。

训练阶段，针对 CAM 分支和 TPSM 分支输出的分类概率

和

，与类别标签构建交叉熵损失函数，实现分类训练，如下公式（2）所示。

测试阶段，将 CAM 分支输出的特征

与 TPSM 分支输出的特征

点乘，生成最终的注意力图M。

token优先级评分模块

token初步注意力

第 l 个 transformer 层的自注意矩阵公式如下式（4）所示，其中

的第一行为 class token 的注意力向量，展示了 class token 和所有 patch token 之间的关联关系。将所有层 transformer 层 class token 的注意力向量进行均值融合，得到初步注意力结果 m。

token挑选策略

利用累积分布采样方法构建自适应阈值，具体操作为：对初步注意力结果 m 进行排序并构建积分图，针对积分图结果确定固定阈值，则针对 m 生成了自适应阈值。

操作原理如下式（5）所示，其中 F 为 m 的累积分布函数，严格单调转换为其逆函数。

基于阈值生成二值图

，b 中值为 1 的位置表示被筛选的 patch token 的位置。

token再注意

利用二值图 b 构建挑选矩阵 B，并基于矩阵 B 构建掩码自注意力操作。对图 2 中 visual transformer blocks 输出的特征

中 patch token 部分

执行掩码自注意力操作，对操作结果进行全连接和掩码 softmax 操作，生成重要性权重 λ。

在训练阶段，利用重要性权重λ对

进行加权融合，将

与融合结果送入最后一个 transformer 层。利用最后一个 transformer 层输出的 class token 生成分类概率

。

在测试阶段，从初步注意力结果 m 中获取未被筛选的 patch token 权重信息，从重要性权重 λ 中获取被筛选的 patch token 权重信息，由此生成

，如式（10）所示，m' 为

的向量形式。

结果

表 1：在 CUB-200-2011 数据集上的定位准确率比较

表 2：在 CUB-200-2011 数据集上的 MaxBoxAccV2 结果比较

表 3：在 ILSVRC 数据集上的定位准确率比较

图 3: ILSVRC 上目标显著性区域以及定位对比

图 4: 在 CUB-200-2011 数据集上的目标显著性区域以及定位结果

掌握「声纹识别技术」：前20小时交给我，后9980小时……

《声纹识别：从理论到编程实战》中文课上线，由谷歌声纹团队负责人王泉博士主讲。

课程视频内容共 12 小时，着重介绍基于深度学习的声纹识别系统，包括大量学术界与产业界的最新研究成果。

同时课程配有 32 次课后测验、10 次编程练习、10 次大作业，确保课程结束时可以亲自上手从零搭建一个完整的声纹识别系统。

课程目前还在 首周优惠中 ，欢迎对声纹领域感兴趣的同学一起学习。

点击阅读原文，了解更多课程内容。

© THE END

转载请联系本公众号获得授权

投稿或寻求报道：content@jiqizhixin.com

登录查看更多

0

相关内容

注意机制

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

专知会员服务

11+阅读 · 2022年4月10日

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

16+阅读 · 2021年8月2日

【CVPR2020】实例感知、上下文聚焦和内存有效的弱监督目标检测，Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

【CVPR2020】实例感知、上下文聚焦和内存有效的弱监督目标检测，Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

专知会员服务

34+阅读 · 2020年4月11日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

ICLR 2022 | 基于Transformer的跨域方法——CDTrans

ICLR 2022 | 基于Transformer的跨域方法——CDTrans

PaperWeekly

1+阅读 · 2022年8月24日

CVPR 2022 | 从自注意力中学习语义Affinity，用于端到端弱监督语义分割

CVPR 2022 | 从自注意力中学习语义Affinity，用于端到端弱监督语义分割

PaperWeekly

0+阅读 · 2022年6月18日

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

PaperWeekly

0+阅读 · 2022年6月7日

自监督学习如何兼顾语义对齐与空间分辨能力？清华、商汤提出「SIM」方法

自监督学习如何兼顾语义对齐与空间分辨能力？清华、商汤提出「SIM」方法

机器之心

0+阅读 · 2022年6月7日

CVPR 2022 | 商汤&南洋理工开源PTTR：基于Transformer的3D点云目标跟踪网络

CVPR 2022 | 商汤&南洋理工开源PTTR：基于Transformer的3D点云目标跟踪网络

CVer

3+阅读 · 2022年3月31日

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多特征联合稀疏表示和低秩张量恢复的视觉跟踪研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于视觉注意机制的SAR图像小目标检测方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

SsciBERT: A Pre-trained Language Model for Social Science Texts

Arxiv

0+阅读 · 2022年11月25日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Subgraph Neural Networks

Arxiv

27+阅读 · 2020年6月19日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

Convolutional Neural Networks for Aerial Multi-Label Pedestrian Detection

Convolutional Neural Networks for Aerial Multi-Label Pedestrian Detection

Arxiv

11+阅读 · 2018年7月16日

VIP会员

相关主题

词元分析器

之江实验室

相关VIP内容

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

CVPR 2022 Oral | 南京大学AdaMixer：基于快速收敛查询的目标检测器

专知会员服务

11+阅读 · 2022年4月10日

【ICCV2021】多层次对比学习的跨模态检索方法

【ICCV2021】多层次对比学习的跨模态检索方法

专知会员服务

23+阅读 · 2021年10月24日

【ICCV2021】基于耦合语义注意力的弱监督目标定位

专知会员服务

16+阅读 · 2021年8月2日

【CVPR2020】实例感知、上下文聚焦和内存有效的弱监督目标检测，Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

【CVPR2020】实例感知、上下文聚焦和内存有效的弱监督目标检测，Instance-aware, Context-focused, and Memory-efficient Weakly Supervised Object Detection

专知会员服务

34+阅读 · 2020年4月11日

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

【CVPR 2020-人大】基于层次图推理的细粒度文本视频跨模态检索

专知会员服务

67+阅读 · 2020年4月5日

热门VIP内容

开通专知VIP会员享更多权益服务

前沿人工智能趋势报告（Frontier AI Trends Report）

【AAAI2026】善始则事半功倍：基于前缀优化的大语言模型推理强化学习

Andrej Karpathy：2025 年 LLM 年度回顾（2025 LLM Year in Review）

音退化问题：基于输入操控的鲁棒语音转换综述

相关资讯

ICLR 2022 | 基于Transformer的跨域方法——CDTrans

ICLR 2022 | 基于Transformer的跨域方法——CDTrans

PaperWeekly

1+阅读 · 2022年8月24日

CVPR 2022 | 从自注意力中学习语义Affinity，用于端到端弱监督语义分割

CVPR 2022 | 从自注意力中学习语义Affinity，用于端到端弱监督语义分割

PaperWeekly

0+阅读 · 2022年6月18日

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

清华、商汤提出SIM方法，让自监督学习兼顾语义对齐与空间分辨能力

PaperWeekly

0+阅读 · 2022年6月7日

自监督学习如何兼顾语义对齐与空间分辨能力？清华、商汤提出「SIM」方法

自监督学习如何兼顾语义对齐与空间分辨能力？清华、商汤提出「SIM」方法

机器之心

0+阅读 · 2022年6月7日

CVPR 2022 | 商汤&南洋理工开源PTTR：基于Transformer的3D点云目标跟踪网络

CVPR 2022 | 商汤&南洋理工开源PTTR：基于Transformer的3D点云目标跟踪网络

CVer

3+阅读 · 2022年3月31日

相关基金

行人重识别目标中心编码外观模型的研究

国家自然科学基金

1+阅读 · 2015年12月31日

基于多特征联合稀疏表示和低秩张量恢复的视觉跟踪研究

国家自然科学基金

1+阅读 · 2014年12月31日

基于视觉注意机制的SAR图像小目标检测方法研究

国家自然科学基金

4+阅读 · 2013年12月31日

视频的中层视觉表达和高层行为识别研究

国家自然科学基金

0+阅读 · 2013年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

相关论文

SsciBERT: A Pre-trained Language Model for Social Science Texts

Arxiv

0+阅读 · 2022年11月25日

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

UP-DETR: Unsupervised Pre-training for Object Detection with Transformers

Arxiv

19+阅读 · 2020年11月18日

Subgraph Neural Networks

Arxiv

27+阅读 · 2020年6月19日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

Convolutional Neural Networks for Aerial Multi-Label Pedestrian Detection

Convolutional Neural Networks for Aerial Multi-Label Pedestrian Detection

Arxiv

11+阅读 · 2018年7月16日

大家都在搜

大型语言模型

朱克爱德华兹家族

蓝牙安全攻防

【泡泡读者来搞】ROS、Simulink、Carsim的互联与规划、控制算法的验证

微信扫码咨询专知VIP会员