成为VIP会员查看完整内容
VIP会员码认证
首页
主题
发现
会员
服务
注册
·
登录
0
计算成本缩减100倍!港中文提出语义分割新方法:张量低秩重建|ECCV2020
2020 年 8 月 7 日
极市平台
点击蓝字
关注我们
提出背景:
上下文信息在语义分割的作用很重要。目前的两种方法:一种是基于非局部自注意力对上下文信息进行收集。这种方法是用2D相似度矩阵描述3D上下文信息,但是这种空间压缩会导致通道方面的注意力的丢失。另一种方法是直接对上下文信息建模而不进行压缩,然而目前仍然没有成熟的方法。
论文链接:
https://arxiv.org/pdf/2008.00490.pdf
代码链接:
https://github.com/CWanli/RecoNet
基于以上两点,作者团队提出了一种对3D上下文表示建模的新方法,该方法
不仅避免了空间压缩,而且还解决了高秩难题。
作者的方法受到了张量正则-双峰分解理论(tensor canonical-polyadic decomposition theory)的启发。设计了一个
从低到高的上下文重建框架
。
大致流程:
首先引入张量生成模块(TGM),该模块生成许多秩-1张量以捕获上下文特征片段,然后将秩-1张量送入本文的张量重构模块(TRM)进行处理,恢复高秩上下文特征。
最后通过实验证明,在各种公共数据集上都达到了SOTA。此外,在计算成本上,本文提出的方法的计算成本比传统基于non-local的方法要低100倍以上。
1.引言
语义分割旨在给定一张图片的基础上对其进行像素级别的预测。这项任务的起始研究是FCN,即全卷积网络,另外还有一些其他的方法也达到了很好的效果。这些方法通过对上下文张量的元素重要性进行评级来对上下文表示建模。然而,这种方法得到的上下文特征缺少通道注意力,而通道注意力则是上下文的关键部分。
解决此问题的一个直观想法是直接构建上下文而不是使用2D相似度特征图。然而,由于上下文特征的高秩属性,这种方法面临着很大困难。
因此,作者受到张量正则-双峰分解理论的启发,即,
一个高阶张量可以表示为秩-1张量的组合
。提出一种在不需要逐通道空间压缩的情况下对高秩上下文信息进行建模。图1表示整体流程
图1
基本思想:首先使用一系列低秩张量来收集上下文特征的片段,然后将其重建以重构细粒度的上下文特征。
本文的框架分为两个部分:秩-1张量生成模块(TGM)和高秩张量重建模块(TRM)
TGM模块:旨在通道,高度和宽度维度上生成秩-1张量,从而在具有低秩约束的不同视图中探索上下文特征。
TRM模块:采用张量规范-多态(CP)重构来重建高秩注意力特征图,其中基于不同视角的秩-1张量挖掘共现上下文信息。
本文的具体贡献:
1.揭示上下文建模的新途径,即上下文从低秩到高秩的重建。
2.开发了新的语义分割框架RecoNet,该框架通过张量CP重建来探索上下文信息。它不仅保持了空间和通道方面的注意力,而且还解决了高秩困难。
3.进行广泛的实验,将所提出的方法与其他各种公开数据集上的方法进行比较,从而获得显着的性能提升。此外,RecoNet的计算成本也更低。
2.方法
2.1总览
受CP分解理论的启发,作者将上下文信息的建模分解为一系列低秩问题,这些低秩问题更易于处理。
模型的流程图如图2所示。模型由低阶张量生成模块(TGM),高阶张量重构模块(TRM)和全局池化模块(GPM)组成,以在空间和通道维度上获取全局上下文。在语义标签预测之前使用双线性插值对模型输出进行上采样。
图
2
形式化定义,假设在C / H / W方向上有3r个向量:
其中
和r是张量的秩。这些向量是
的CP分解片段,然后将张量CP 秩-r重建定义为:
其中,
λ
是比例因子。
2.2 张量生成模块
作者首先给出基本定义,然后解释如何得到低秩张量。
上下文分片
定义上下文片段作为张量生成模块的输出,它指一些在通道,高度和宽度维度的秩1向量
,
和
。每个上下文片段都包含一部分上下文信息。
特征生成器
定义三个特征生成器:通道生成器,高度生成器和宽度生成器。每个生成器由Pool-Conv-Sigmoid序列组成。在特征生成器中使用全局平均池化,以在C / H / W方向上获取全局上下文表示。
上下文分片生成
为了学习三个维度的上下文信息片段,在输入特征的顶部应用通道,高度和宽度生成器。重复此过程r次,获得3r个可学习向量
,
和
,其中
。所有向量均使用独立的卷积核生成。每个向量都学习一部分上下文信息,并作为上下文片段输出。TGM如图3所示。
图3
TGM的非线性
添加非线性有两个原因。首先,每个重新缩放的元素都可以看作是某种上下文特征的权重,它满足了注意力的定义;其次,所有上下文片段都不应是线性相关的,以便它们中的每一个都可以代表不同的信息。
2.3 张量生成模块
这个部分主要介绍上下文重建与聚合的流程。整个重建过程基于公式1。首先来看上下文聚合
上下文聚合
TRM的目标是获得3D注意力特征图
,从而在空间和通道注意力上保持响应。上下文特征是按元素乘积获得的。给定输入特征
,
,
,
和上下文注意力特征图
,
,
,
,细粒度的上下文特征
,
,
,
则由下式给出:
其中每个
表示被激活的
的扩展。
低秩重建
张量重建模块为了处理上下文的高秩属性。TRM分为两步:首先,三个上下文分片
,
合成一个秩-1子注意力特征图
。(每个子注意力特征图表示一个低秩上下文信息)这个子注意力特征图表示3D上下文特征的一部分。然后,其他的上下文分片以同样的方式重建。最后使用权重均值聚合所有的子注意力特征图得到高秩张量:
其中
λ
是可学习的正则化因子。通过公式2,3可以得到空间和通道细粒度的上下文特征。
2.4 全局池化模块
全局池化模块由一个全局平均池化操作和一个1x1卷积组成,旨在学习空间和通道两个维度的上下文特征。
2.5 网络细节
这里用ResNet作为骨干网络,在Res-4和Res-5输出的结果后使用膨胀策略,Res-5的输出特征标记为X,将TGM+TRM和GPM放到X的顶部。设置权重α为0.2,损失函数如下:
最后将X与TGM+TRM和GPM生成的上下文特征和全局上下文进行连接,进行最终的预测。
2.6 与之前方法的联系
这部分主要与之前的non-local和它的变体相比。本文的模型主要使用一元注意力。一元注意力广泛使用在图像分类和语义分割中,两种任务的典型代表:SENet,CBAM,DFN,EncNet。
SENet是RecoNet.最简单的形式,SENet的3D特征图
表示如下:
EncNet是SENet的升级版,也使用相同的空间权重。
CBAM中引入了不同的空间权重,将公式5进行拓展:
其中
是CBAM.的3D注意力特征图。虽然在CBAM考虑到了空间注意力。但是,单一的秩-1张量
并不能对复杂的上下文信息进行建模。在本文中,将空间注意力使用CP分解理论变为两个秩-1张量,
和
。于是,
就成了RecoNet的子注意力特征图。
RecoNet不仅利用了一元注意力的简洁性和有效性,而且能从多个角度对特征进行表示。
3 实验
主要使用5个数据集:PASCAL-VOC12, PASCAL-Context, COCO-Stuff, ADE20K,SIFT-FLOW
3.1实验设定
使用pytorch框架。使用同步批正则化。学习率设定为
.
在PASCAL-VOC12, PASCAL-Context,COCO-Stuff上将base_lr设为0.001。
ADE20K,SIFT-FLOW的base_lr分别为0.01,0.0025. power设为0.9,在SGD优化器中设置weight decay和momentum分别为0.0001和0.9.
在ADE20K和COCO-Stuff分别训练120 epoch,180 epoch,其他数据集训练80epoch。所有的数据集batch_size 为16,输入图片随机裁剪为512x512.
3.2 不同数据集上的结果
3.3 消融研究
图5 注意力子特征图的可视化
图6 PASCAL-VOC12数据集的量化结果
4.总结
本文主要提出一个对于复杂上下文特征预测的低秩张量重建方法。它解决了之前的特征压缩的问题。亮点在于引入了CP分解理论,通过它来将低秩张量构建称高秩上下文特征,这样做可以得到空间和通道多维的信息。开发了新的语义分割框架RecoNet,该框架通过张量CP重建来探索上下文信息。它不仅保持了空间和渠道方面的注意力,而且还解决了高秩困难。
◎
作者档案
Jack Choi,CS在读小硕
个人公众号:AI算法后丹修炼炉
欢迎大家联系极市小编(微信ID:fengcall19)加入
极市原创作者行列
推荐阅读:
ECCV2020|语义分割的落地应用:故障检测与异常检测
语义分割该如何走下去?
Image-Level 弱监督图像语义分割汇总简析
添加极市小助手微信
(ID : cv-mart)
,备注:
姓名-学校/公司-研究方向-城市
(如:小极-北大-
目标检测-
深圳),即可申请加入
极市目标检测/图像分割/工业检测/人脸/医学影像/3D/SLAM/自动驾驶/超分辨率/姿态估计/ReID/GAN/图像增强/OCR
等技术交流群
,更有
每月大咖直播分享、真实项目需求对接、求职内推、算法竞赛、
干货资讯汇总、行业技术交流
,
一起来让思想之光照的更远吧~
△长按添加极市小助手
△长按关注极市平台,获取
最新CV干货
觉得有用麻烦给个在看啦~
登录查看更多
点赞并收藏
0
暂时没有读者
1
权益说明
本文档仅做收录索引使用,若发现您的权益受到侵害,请立即联系客服(微信: zhuanzhi02,邮箱:bd@zhuanzhi.ai),我们会尽快为您处理
相关内容
张量低秩重建
关注
0
[NeurIPS 2020 oral] 基于因果干预的弱监督语义分割
专知会员服务
45+阅读 · 2020年10月5日
最新【图神经网络计算】2020综述论文,23页PDF
专知会员服务
192+阅读 · 2020年10月3日
【ECCV2020-旷视】利用边界特征做检测的BorderDet
专知会员服务
12+阅读 · 2020年9月19日
【ECCV2020】基于场景图分解的自然语言描述生成
专知会员服务
23+阅读 · 2020年9月3日
【ECCV2020诺亚】利用循环卷积网络与分频段处理的视频超分辨算法
专知会员服务
11+阅读 · 2020年9月2日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
16+阅读 · 2020年8月18日
【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究
专知会员服务
144+阅读 · 2020年7月26日
[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架
专知会员服务
25+阅读 · 2020年3月15日
【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究,天津大学任文琦
专知会员服务
47+阅读 · 2019年11月8日
【AAAI2020-清华大学】张量图卷积网络(TensorGCN)文本分类
专知
63+阅读 · 2020年1月20日
【论文笔记】自注意力图池化
专知
80+阅读 · 2019年11月18日
【论文笔记】用于深度时空图建模的Geaph WaveNet
专知
106+阅读 · 2019年11月4日
语义分割中的Attention和低秩重建
极市平台
37+阅读 · 2019年9月1日
CVPR 2019 | 一个高阶张量搞定整个全卷积网络
机器之心
9+阅读 · 2019年5月12日
当Non-local遇见SENet,微软亚研提出更高效的全局上下文网络
机器之心
11+阅读 · 2019年5月6日
【学界】滑动窗口也能用于实例分割,陈鑫磊、何恺明等人提出图像分割新范式
GAN生成式对抗网络
6+阅读 · 2019年3月31日
一文读懂图像压缩算法
七月在线实验室
16+阅读 · 2018年5月2日
CVPR 2018 | 使用CNN生成图像先验,实现更广泛场景的盲图像去模糊
极市平台
14+阅读 · 2018年3月21日
学界 | 海康威视联合提出注意力聚焦网络FAN:提升场景文本识别精确度
机器之心
4+阅读 · 2017年9月23日
3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions
Arxiv
5+阅读 · 2019年5月16日
ShelfNet for Real-time Semantic Segmentation
Arxiv
7+阅读 · 2018年12月10日
Dynamic Self-Attention : Computing Attention over Words Dynamically for Sentence Embedding
Arxiv
8+阅读 · 2018年8月22日
A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation
Arxiv
5+阅读 · 2018年7月6日
Convolutional CRFs for Semantic Segmentation
Arxiv
8+阅读 · 2018年5月15日
Constrained-CNN losses forweakly supervised segmentation
Arxiv
5+阅读 · 2018年5月12日
Semantic Binary Segmentation using Convolutional Networks without Decoders
Arxiv
8+阅读 · 2018年5月1日
An application of cascaded 3D fully convolutional networks for medical image segmentation
Arxiv
10+阅读 · 2018年3月20日
Quantization of Fully Convolutional Networks for Accurate Biomedical Image Segmentation
Arxiv
5+阅读 · 2018年3月13日
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
Arxiv
8+阅读 · 2018年2月7日
VIP会员
自助开通(推荐)
客服开通
详情
相关主题
张量低秩重建
计算成本
语义分割
上下文表示
ECCV2020
通道注意力
相关VIP内容
[NeurIPS 2020 oral] 基于因果干预的弱监督语义分割
专知会员服务
45+阅读 · 2020年10月5日
最新【图神经网络计算】2020综述论文,23页PDF
专知会员服务
192+阅读 · 2020年10月3日
【ECCV2020-旷视】利用边界特征做检测的BorderDet
专知会员服务
12+阅读 · 2020年9月19日
【ECCV2020】基于场景图分解的自然语言描述生成
专知会员服务
23+阅读 · 2020年9月3日
【ECCV2020诺亚】利用循环卷积网络与分频段处理的视频超分辨算法
专知会员服务
11+阅读 · 2020年9月2日
【ECCV2020】EfficientFCN:语义分割中的整体引导解码器
专知会员服务
15+阅读 · 2020年8月23日
【ICML2020】通过神经引导的A*搜索学习逆合成设计
专知会员服务
16+阅读 · 2020年8月18日
【浙大博士论文】面向复杂场景理解的视觉内容识别、检测与推理方法研究
专知会员服务
144+阅读 · 2020年7月26日
[CVPR 2020 Oral-牛津] RandLA-Net:大场景三维点云语义分割新框架
专知会员服务
25+阅读 · 2020年3月15日
【CCF优秀博士学位论文奖-2019】融合结构先验的图像及视频去模糊研究,天津大学任文琦
专知会员服务
47+阅读 · 2019年11月8日
热门VIP内容
开通专知VIP会员 享更多权益服务
OpenAI十二天总结与Agent新范式
【伯克利博士论文】高效深度学习推理的全栈方法
【AAAI2025】多层次最优传输用于语言模型中的通用跨标记器知识蒸馏
大规模语言模型增强推荐系统:分类、趋势、应用与未来
相关资讯
【AAAI2020-清华大学】张量图卷积网络(TensorGCN)文本分类
专知
63+阅读 · 2020年1月20日
【论文笔记】自注意力图池化
专知
80+阅读 · 2019年11月18日
【论文笔记】用于深度时空图建模的Geaph WaveNet
专知
106+阅读 · 2019年11月4日
语义分割中的Attention和低秩重建
极市平台
37+阅读 · 2019年9月1日
CVPR 2019 | 一个高阶张量搞定整个全卷积网络
机器之心
9+阅读 · 2019年5月12日
当Non-local遇见SENet,微软亚研提出更高效的全局上下文网络
机器之心
11+阅读 · 2019年5月6日
【学界】滑动窗口也能用于实例分割,陈鑫磊、何恺明等人提出图像分割新范式
GAN生成式对抗网络
6+阅读 · 2019年3月31日
一文读懂图像压缩算法
七月在线实验室
16+阅读 · 2018年5月2日
CVPR 2018 | 使用CNN生成图像先验,实现更广泛场景的盲图像去模糊
极市平台
14+阅读 · 2018年3月21日
学界 | 海康威视联合提出注意力聚焦网络FAN:提升场景文本识别精确度
机器之心
4+阅读 · 2017年9月23日
相关论文
3D Point Cloud Generative Adversarial Network Based on Tree Structured Graph Convolutions
Arxiv
5+阅读 · 2019年5月16日
ShelfNet for Real-time Semantic Segmentation
Arxiv
7+阅读 · 2018年12月10日
Dynamic Self-Attention : Computing Attention over Words Dynamically for Sentence Embedding
Arxiv
8+阅读 · 2018年8月22日
A Fully Convolutional Two-Stream Fusion Network for Interactive Image Segmentation
Arxiv
5+阅读 · 2018年7月6日
Convolutional CRFs for Semantic Segmentation
Arxiv
8+阅读 · 2018年5月15日
Constrained-CNN losses forweakly supervised segmentation
Arxiv
5+阅读 · 2018年5月12日
Semantic Binary Segmentation using Convolutional Networks without Decoders
Arxiv
8+阅读 · 2018年5月1日
An application of cascaded 3D fully convolutional networks for medical image segmentation
Arxiv
10+阅读 · 2018年3月20日
Quantization of Fully Convolutional Networks for Accurate Biomedical Image Segmentation
Arxiv
5+阅读 · 2018年3月13日
Encoder-Decoder with Atrous Separable Convolution for Semantic Image Segmentation
Arxiv
8+阅读 · 2018年2月7日
大家都在搜
palantir
自主可控
大规模语言模型
CMU博士论文
技术报告
洛克菲勒
无人艇
F-35
胡克
社区分享 | 用 PoseNet + TensorFlow.js 在浏览器实现体感游戏
Top
提示
微信扫码
咨询专知VIP会员与技术项目合作
(加微信请备注: "专知")
微信扫码咨询专知VIP会员
Top