The self-attention-based model, transformer, is recently becoming the leading backbone in the field of computer vision. In spite of the impressive success made by transformers in a variety of vision tasks, it still suffers from heavy computation and intensive memory costs. To address this limitation, this paper presents an Interpretability-Aware REDundancy REDuction framework (IA-RED$^2$). We start by observing a large amount of redundant computation, mainly spent on uncorrelated input patches, and then introduce an interpretable module to dynamically and gracefully drop these redundant patches. This novel framework is then extended to a hierarchical structure, where uncorrelated tokens at different stages are gradually removed, resulting in a considerable shrinkage of computational cost. We include extensive experiments on both image and video tasks, where our method could deliver up to 1.4x speed-up for state-of-the-art models like DeiT and TimeSformer, by only sacrificing less than 0.7% accuracy. More importantly, contrary to other acceleration approaches, our method is inherently interpretable with substantial visual evidence, making vision transformer closer to a more human-understandable architecture while being lighter. We demonstrate that the interpretability that naturally emerged in our framework can outperform the raw attention learned by the original visual transformer, as well as those generated by off-the-shelf interpretation methods, with both qualitative and quantitative results. Project Page: http://people.csail.mit.edu/bpan/ia-red/.


翻译:以自我关注为基础的模型变压器最近正在成为计算机视觉领域的主要支柱。 尽管变压器在各种视觉任务中取得了令人印象深刻的成功, 但它仍然承受着沉重的计算和密集的记忆成本。 为解决这一限制, 本文展示了一个解释性- Aware 降温框架( IA- RED$=2$) 。 我们首先观察大量多余的计算, 主要是用在与不相干的投入补上, 然后引入一个可解释的模块, 以动态和优雅的方式丢弃这些多余的补丁。 这个新颖的框架随后扩展为等级结构, 使不同阶段的不相干符号逐渐消失, 从而导致计算成本的大幅缩缩缩缩。 我们在图像和视频任务上都进行了广泛的实验, 我们的方法可以达到1.4x速度, 比如DeiT 和TimeSworth 等最新模型, 只能牺牲不到0.7%的准确度。 更重要的是, 与其他加速的方法相反, 我们的方法具有内在的解释性, 具有实质性的视觉证据, 使视觉转换器更接近于更接近于原始的图像/ 。 通过自然的变形的变形结构, 展示这些变形的变形模型, 能够显示我们的原始的变形结构。 我们的变形的变形的变形的变形, 这些变形的变形的变形的变形的变形的变形的变形的变形的变形的变形的变形的变形法, 以比较轻的变形的变形的变形的变形的变形的变形法, 。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年7月30日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年11月20日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Arxiv
0+阅读 · 2021年12月27日
Arxiv
0+阅读 · 2021年12月27日
Arxiv
19+阅读 · 2021年4月8日
VIP会员
相关VIP内容
专知会员服务
29+阅读 · 2021年7月30日
【CVPR 2021】变换器跟踪TransT: Transformer Tracking
专知会员服务
21+阅读 · 2021年4月20日
Transformer模型-深度学习自然语言处理,17页ppt
专知会员服务
102+阅读 · 2020年8月30日
Transformer文本分类代码
专知会员服务
116+阅读 · 2020年2月3日
【新书】Python编程基础,669页pdf
专知会员服务
193+阅读 · 2019年10月10日
【哈佛大学商学院课程Fall 2019】机器学习可解释性
专知会员服务
103+阅读 · 2019年10月9日
相关资讯
Hierarchically Structured Meta-learning
CreateAMind
26+阅读 · 2019年5月22日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
已删除
将门创投
4+阅读 · 2018年11月20日
最佳实践:深度学习用于自然语言处理(三)
待字闺中
3+阅读 · 2017年8月20日
Top
微信扫码咨询专知VIP会员