跳过注意:通过少给予注意改善愿景变异 (Skip-Attention: Improving Vision Transformers by Paying Less Attention) - 专知论文

会员服务 ·

0

层 · Attention · 变换 · Less · Vision ·

2023 年 1 月 5 日

Skip-Attention: Improving Vision Transformers by Paying Less Attention

翻译：跳过注意:通过少给予注意改善愿景变异

Shashanka Venkataramanan,Amir Ghodrati,Yuki M. Asano,Fatih Porikli,Amirhossein Habibian

This work aims to improve the efficiency of vision transformers (ViT). While ViTs use computationally expensive self-attention operations in every layer, we identify that these operations are highly correlated across layers -- a key redundancy that causes unnecessary computations. Based on this observation, we propose SkipAt, a method to reuse self-attention computation from preceding layers to approximate attention at one or more subsequent layers. To ensure that reusing self-attention blocks across layers does not degrade the performance, we introduce a simple parametric function, which outperforms the baseline transformer's performance while running computationally faster. We show the effectiveness of our method in image classification and self-supervised learning on ImageNet-1K, semantic segmentation on ADE20K, image denoising on SIDD, and video denoising on DAVIS. We achieve improved throughput at the same-or-higher accuracy levels in all these tasks.

翻译：这项工作的目的是提高视觉变压器(VIT)的效率。 Vits在每一层使用成本高昂的计算自控操作时,我们发现这些操作在各层之间高度相关 -- -- 这是造成不必要计算的关键冗余。基于这一观察,我们提议SkippAt, 这是一种从前层再利用自控计算方法, 以大致关注其后一层或多层。为了确保在各层之间重新使用自控区块不会降低性能, 我们引入了一个简单的参数函数, 它比基线变压器的性能要好得多, 而计算速度要快。我们展示了我们在图像Net-1K、 ad20K 的语义分解、 SIDD 图像分解和 DAVIS 视频分解方面的方法的有效性。我们在所有这些任务中提高同一或更高的精度水平的吞吐量。

0

相关内容

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【推荐】MXNet深度情感分析实战

【推荐】MXNet深度情感分析实战

机器学习研究会

16+阅读 · 2017年10月4日

G-四链体DNA与石房蛤毒素相互作用机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

拟南芥ABO7通过调控PP2C抑制ABA信号途径的机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

适用于无线传感器网络SOC的低功耗低成本SAR型A/D转换器设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

ErbB4通路激活介导非小细胞肺癌EGFR-TKIs获得性耐药的分子机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

ANCA诱导的ROS在调控中性粒细胞凋亡∕NETosis转换中的作用机制

国家自然科学基金

0+阅读 · 2012年12月31日

PPARγ拮抗Egr-1对增生性瘢痕TGF-β1促纤维化信号的作用及机制

国家自然科学基金

0+阅读 · 2012年12月31日

泛素交联酶RAD6在DNA损伤修复和肿瘤发生中作用的研究

国家自然科学基金

0+阅读 · 2011年12月31日

CD226分子抗小鼠胸腺细胞凋亡的分子机制

国家自然科学基金

0+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Galectin-3对肝星状细胞激活及凋亡的影响

国家自然科学基金

0+阅读 · 2008年12月31日

Learning Better Masking for Better Language Model Pre-training

Arxiv

0+阅读 · 2023年3月3日

CbwLoss: Constrained Bidirectional Weighted Loss for Self-supervised Learning of Depth and Pose

Arxiv

0+阅读 · 2023年3月3日

Improving Transformer-based End-to-End Speaker Diarization by Assigning Auxiliary Losses to Attention Heads

Arxiv

0+阅读 · 2023年3月2日

Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep Reinforcement Learning

Arxiv

0+阅读 · 2023年3月2日

k-parametric Dynamic Generalized Linear Models: a sequential approach via Information Geometry

Arxiv

0+阅读 · 2023年2月28日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Improving evidential deep learning via multi-task learning

Arxiv

11+阅读 · 2021年12月17日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

VIP会员

文章信息

相关主题

相关VIP内容

最新《Transformers模型》教程，64页ppt

最新《Transformers模型》教程，64页ppt

专知会员服务

321+阅读 · 2020年11月26日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

96+阅读 · 2020年3月12日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

Stabilizing Transformers for Reinforcement Learning

Stabilizing Transformers for Reinforcement Learning

专知会员服务

60+阅读 · 2019年10月17日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

[综述]深度学习下的场景文本检测与识别

[综述]深度学习下的场景文本检测与识别

专知会员服务

78+阅读 · 2019年10月10日

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

【CMU卡内基梅隆大学】深度学习在计算机视觉的应用：方法，解释，因果与公平性

专知会员服务

83+阅读 · 2019年10月9日

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

【加州大学伯克利分校博士论文】通过自我监督预测学习泛化

专知会员服务

65+阅读 · 2019年10月9日

【哈佛大学商学院课程Fall 2019】机器学习可解释性

【哈佛大学商学院课程Fall 2019】机器学习可解释性

专知会员服务

105+阅读 · 2019年10月9日

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

【SIGGRAPH2019】TensorFlow 2.0深度学习计算机图形学应用

专知会员服务

41+阅读 · 2019年10月9日

热门VIP内容

开通专知VIP会员享更多权益服务

俄乌战争凸显巡飞弹药新角色

《基于随机优化提升军事医疗后送系统效能》最新165页博士论文

《指挥控制能力发展：现状与未来》英国防部2025最新62页报告

《智能弹药与第一人称视角无人机之对比分析》最新报告

相关资讯

VCIP 2022 Call for Special Session Proposals

VCIP 2022 Call for Special Session Proposals

CCF多媒体专委会

1+阅读 · 2022年4月1日

AIART 2022 Call for Papers

AIART 2022 Call for Papers

CCF多媒体专委会

1+阅读 · 2022年2月13日

Multi-Task Learning的几篇综述文章

Multi-Task Learning的几篇综述文章

深度学习自然语言处理

15+阅读 · 2020年6月15日

BERT/Transformer/迁移学习NLP资源大列表

BERT/Transformer/迁移学习NLP资源大列表

专知

19+阅读 · 2019年6月9日

Hierarchically Structured Meta-learning

Hierarchically Structured Meta-learning

CreateAMind

27+阅读 · 2019年5月22日

Transferring Knowledge across Learning Processes

Transferring Knowledge across Learning Processes

CreateAMind

29+阅读 · 2019年5月18日

Unsupervised Learning via Meta-Learning

Unsupervised Learning via Meta-Learning

CreateAMind

43+阅读 · 2019年1月3日

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

【论文推荐】最新六篇视觉问答相关论文—深度嵌入学习、句子表征学习、深度特征聚合、3D匹配、细粒度文本摘要

专知

12+阅读 · 2018年6月9日

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

【论文推荐】最新五篇信息抽取相关论文—端到端深度模型、调研、聊天机器人、自注意力、科学文本

专知

13+阅读 · 2018年4月4日

【推荐】MXNet深度情感分析实战

【推荐】MXNet深度情感分析实战

机器学习研究会

16+阅读 · 2017年10月4日

相关论文

Learning Better Masking for Better Language Model Pre-training

Arxiv

0+阅读 · 2023年3月3日

CbwLoss: Constrained Bidirectional Weighted Loss for Self-supervised Learning of Depth and Pose

Arxiv

0+阅读 · 2023年3月3日

Improving Transformer-based End-to-End Speaker Diarization by Assigning Auxiliary Losses to Attention Heads

Arxiv

0+阅读 · 2023年3月2日

Parameter Sharing with Network Pruning for Scalable Multi-Agent Deep Reinforcement Learning

Arxiv

0+阅读 · 2023年3月2日

k-parametric Dynamic Generalized Linear Models: a sequential approach via Information Geometry

Arxiv

0+阅读 · 2023年2月28日

Transformers are Meta-Reinforcement Learners

Arxiv

15+阅读 · 2022年6月14日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Improving evidential deep learning via multi-task learning

Arxiv

11+阅读 · 2021年12月17日

Attention Mechanisms in Computer Vision: A Survey

Arxiv

58+阅读 · 2021年11月15日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

相关基金

G-四链体DNA与石房蛤毒素相互作用机理研究

国家自然科学基金

0+阅读 · 2015年12月31日

拟南芥ABO7通过调控PP2C抑制ABA信号途径的机理研究

国家自然科学基金

0+阅读 · 2013年12月31日

适用于无线传感器网络SOC的低功耗低成本SAR型A/D转换器设计研究

国家自然科学基金

0+阅读 · 2013年12月31日

ErbB4通路激活介导非小细胞肺癌EGFR-TKIs获得性耐药的分子机制研究

国家自然科学基金

0+阅读 · 2013年12月31日

ANCA诱导的ROS在调控中性粒细胞凋亡∕NETosis转换中的作用机制

国家自然科学基金

0+阅读 · 2012年12月31日

PPARγ拮抗Egr-1对增生性瘢痕TGF-β1促纤维化信号的作用及机制

国家自然科学基金

0+阅读 · 2012年12月31日

泛素交联酶RAD6在DNA损伤修复和肿瘤发生中作用的研究

国家自然科学基金

0+阅读 · 2011年12月31日

CD226分子抗小鼠胸腺细胞凋亡的分子机制

国家自然科学基金

0+阅读 · 2009年12月31日

基于NAM的动态视觉信息认知理解方法研究

国家自然科学基金

0+阅读 · 2009年12月31日

Galectin-3对肝星状细胞激活及凋亡的影响

国家自然科学基金

0+阅读 · 2008年12月31日

微信扫码咨询专知VIP会员