【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究 - 专知VIP

会员服务 ·

11

NeurIPS 2024 · Transformer · 注意力学习 ·

2024 年 11 月 16 日

【NeurIPS2024】注意力迁移对视觉Transformer的惊人有效性研究

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

传统观点认为，通过预训练视觉Transformer（ViT）可以学习有用的表示，从而提升下游任务的性能。但这是真的吗？我们对这一问题进行了研究，发现预训练过程中学到的特征和表示并不是必不可少的。令人惊讶的是，仅利用预训练中的注意力模式（即指导信息在不同token之间的流动方式），就足以让模型从零开始学习高质量特征，并在下游任务中取得可比的性能。

我们通过提出一种简单的方法——注意力迁移（attention transfer），验证了这一点。在这种方法中，仅从预训练的教师ViT中将注意力模式迁移到学生模型，迁移方式可以是直接复制或蒸馏注意力图。由于注意力迁移允许学生模型自行学习特征，将其与经过微调的教师模型进行集成还能进一步提高ImageNet上的准确率。

我们系统性地研究了注意力图充分性的各种方面，包括在分布转移（distribution shift）环境下的表现，在这些环境中，注意力迁移性能不如微调。我们希望这一探索能为预训练的作用提供更深入的理解，同时为微调的标准实践提供一个有用的替代方案。复现我们结果的代码可在https://github.com/alexlioralexli/attention-transfer获得。

成为VIP会员查看完整内容

19

相关内容

NeurIPS 2024

【ICML2024】量化稳定扩散中的原创性

【ICML2024】量化稳定扩散中的原创性

专知会员服务

17+阅读 · 2024年8月18日

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

专知会员服务

19+阅读 · 2024年7月24日

【ICML2024】深度强化学习中的随机潜在探索

【ICML2024】深度强化学习中的随机潜在探索

专知会员服务

20+阅读 · 2024年7月19日

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

专知会员服务

22+阅读 · 2024年5月22日

【KDD2024】用于时空时间序列预测的异质性信息元参数学习

【KDD2024】用于时空时间序列预测的异质性信息元参数学习

专知会员服务

19+阅读 · 2024年5月20日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

[ICML2021]记忆高效在线元学习

专知会员服务

25+阅读 · 2021年9月25日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【CVPR2021】无监督时空表示学习的大规模研究

专知会员服务

23+阅读 · 2021年5月1日

【斯坦福大学-PNAS2020】人工智能中深度学习的不合理有效性unreasonable effectiveness of DL

专知会员服务

14+阅读 · 2020年2月23日

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

25+阅读 · 2022年11月24日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【CIKM2019论文】韩家炜团队HyperMine：富文本异构信息网络探索上位词

【CIKM2019论文】韩家炜团队HyperMine：富文本异构信息网络探索上位词

专知

14+阅读 · 2019年11月9日

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

人工智能前沿讲习班

17+阅读 · 2018年12月20日

解析广泛应用于NLP的自注意力机制（附论文、源码）

解析广泛应用于NLP的自注意力机制（附论文、源码）

数据派THU

12+阅读 · 2018年4月3日

马普与Google Brain新研究：Wasserstein自动编码器

马普与Google Brain新研究：Wasserstein自动编码器

论智

27+阅读 · 2018年2月10日

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

lncRNA DATOC1影响microRNA成熟促进卵巢癌转移的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

UXT 在发育中的新功能以及相关作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

声源中多因素变化性鲁棒的居家老年人精神状态分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

大脑地形连接组图的张量研究

国家自然科学基金

0+阅读 · 2015年12月31日

lncRNA H19调控DP细胞毛囊诱导功能的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

翻译起始因子eIF4E在调节小鼠早期胚胎发育中的作用及其机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

LRP6基因R611C突变致心肌肥厚机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

VIP会员

相关主题

注意力学习

相关VIP内容

【ICML2024】量化稳定扩散中的原创性

【ICML2024】量化稳定扩散中的原创性

专知会员服务

17+阅读 · 2024年8月18日

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

【ACMMM2024】视觉-语义分解和部分对齐在基于文档的零样本学习中的应用

专知会员服务

19+阅读 · 2024年7月24日

【ICML2024】深度强化学习中的随机潜在探索

【ICML2024】深度强化学习中的随机潜在探索

专知会员服务

20+阅读 · 2024年7月19日

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

【KDD2024】异质性知情的元参数学习用于时空时间序列预测

专知会员服务

22+阅读 · 2024年5月22日

【KDD2024】用于时空时间序列预测的异质性信息元参数学习

【KDD2024】用于时空时间序列预测的异质性信息元参数学习

专知会员服务

19+阅读 · 2024年5月20日

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

【ICML2022】DRIBO:基于多视图信息瓶颈的鲁棒深度强化学习

专知会员服务

17+阅读 · 2022年8月13日

[ICML2021]记忆高效在线元学习

专知会员服务

25+阅读 · 2021年9月25日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【CVPR2021】无监督时空表示学习的大规模研究

专知会员服务

23+阅读 · 2021年5月1日

【斯坦福大学-PNAS2020】人工智能中深度学习的不合理有效性unreasonable effectiveness of DL

专知会员服务

14+阅读 · 2020年2月23日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】多目标奖励与偏好优化：理论与算法

《无形的防御者？将定向能武器集成到反无人机框架的机遇与挑战》报告

自主化海军：海上无人系统与未来海战

迈向智能体系统规模化的科学

相关资讯

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

194篇文献调研ChatGPT最新研究进展！最新《ChatGPT/GPT-4研究综述及对大型语言模型未来的展望》国内外研究者编著

专知

25+阅读 · 2023年4月7日

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

推荐！【DARPA终身学习机器（L2M）】《自主系统中用于感知和行动的终身学习》美空军、宾大2022最新234页技术报告

专知

25+阅读 · 2022年11月24日

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

【PKDD2020教程】可解释人工智能XAI:算法到应用，200页ppt

专知

16+阅读 · 2020年10月13日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

【CVPR 2020 Oral】小样本类增量学习

【CVPR 2020 Oral】小样本类增量学习

专知

20+阅读 · 2020年6月26日

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

无所不能的Self-Attention！洛桑理工ICLR2020论文验证「自注意力可以表达任何CNN卷积滤波层」

专知

24+阅读 · 2020年1月12日

【CIKM2019论文】韩家炜团队HyperMine：富文本异构信息网络探索上位词

【CIKM2019论文】韩家炜团队HyperMine：富文本异构信息网络探索上位词

专知

14+阅读 · 2019年11月9日

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

自注意力机制在计算机视觉中的应用【附PPT与视频资料】

人工智能前沿讲习班

17+阅读 · 2018年12月20日

解析广泛应用于NLP的自注意力机制（附论文、源码）

解析广泛应用于NLP的自注意力机制（附论文、源码）

数据派THU

12+阅读 · 2018年4月3日

马普与Google Brain新研究：Wasserstein自动编码器

马普与Google Brain新研究：Wasserstein自动编码器

论智

27+阅读 · 2018年2月10日

相关基金

基于共性视觉特征与反馈机制的SAR图像目标检测方法研究

国家自然科学基金

3+阅读 · 2017年12月31日

lncRNA DATOC1影响microRNA成熟促进卵巢癌转移的分子机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

UXT 在发育中的新功能以及相关作用机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

声源中多因素变化性鲁棒的居家老年人精神状态分析方法研究

国家自然科学基金

0+阅读 · 2015年12月31日

视知觉学习中的脑功能网络变化及其与学习效果的关系

国家自然科学基金

0+阅读 · 2015年12月31日

大脑地形连接组图的张量研究

国家自然科学基金

0+阅读 · 2015年12月31日

lncRNA H19调控DP细胞毛囊诱导功能的机制研究

国家自然科学基金

0+阅读 · 2015年12月31日

强调与对比影响语篇理解的认知过程及其神经机制

国家自然科学基金

4+阅读 · 2015年12月31日

翻译起始因子eIF4E在调节小鼠早期胚胎发育中的作用及其机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

LRP6基因R611C突变致心肌肥厚机制研究

国家自然科学基金

0+阅读 · 2014年12月31日

相关论文

Is ChatGPT a Good Recommender? A Preliminary Study

Arxiv

174+阅读 · 2023年4月20日

NeuralField-LDM: Scene Generation with Hierarchical Latent Diffusion Models

Arxiv

42+阅读 · 2023年4月19日

On Efficient Training of Large-Scale Deep Learning Models: A Literature Review

Arxiv

223+阅读 · 2023年4月7日

A Survey of Large Language Models

A Survey of Large Language Models

Arxiv

494+阅读 · 2023年3月31日

Unleashing the Power of Edge-Cloud Generative AI in Mobile Networks: A Survey of AIGC Services

Arxiv

152+阅读 · 2023年3月29日

ChatGPT is a Knowledgeable but Inexperienced Solver: An Investigation of Commonsense Problem in Large Language Models

Arxiv

63+阅读 · 2023年3月29日

Knowledge Graphs: Opportunities and Challenges

Arxiv

177+阅读 · 2023年3月24日

Sparks of Artificial General Intelligence: Early experiments with GPT-4

Arxiv

51+阅读 · 2023年3月22日

A Complete Survey on Generative AI (AIGC): Is ChatGPT from GPT-4 to GPT-5 All You Need?

Arxiv

85+阅读 · 2023年3月21日

Data-centric Artificial Intelligence: A Survey

Arxiv

25+阅读 · 2023年3月17日

微信扫码咨询专知VIP会员