【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力? - 专知

会员服务 ·

0

【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?

2022 年 5 月 31 日 专知

Transformers 在多种任务上取得了进展，但却受到二次元计算和内存复杂性的困扰。最近的工作提出了稀疏Transformers，关注稀疏图，以降低复杂性和保持强大的性能。虽然很有效，但是对于图需要多密集才能很好地执行的关键部分，还没有进行充分的探讨。在本文中，我们提出了归一化信息有效载荷(NIP)，这是一种测量图上信息传递的图评分函数，它提供了一个在性能和复杂性之间进行权衡的分析工具。在理论分析的指导下，我们提出了超立方Transformers，一个稀疏的Transformer，它在超立方体中建模标记交互，并显示与普通Transformer相当甚至更好的结果，同时在序列长度为N的情况下产生O(N log N)复杂度。在需要不同序列长度的任务上的实验为我们的图函数提供了验证。

https://www.zhuanzhi.ai/paper/8318e8175a50804b8f5157bbd8679a00

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“STRN” 就可以获取《【ICML2022】超立方Transformers：你需要什么样的密集图来集中自注意力?》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

超立方Transformers

超立方Transformers

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

20+阅读 · 2022年2月5日

【ICML2021】教师-学生设置中的持续学习:任务相似性的影响

专知会员服务

20+阅读 · 2021年9月1日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【ICML2021】弹性图神经网络

专知会员服务

37+阅读 · 2021年7月17日

【ICML2021】突破图神经网络中消息传递的限制

专知会员服务

41+阅读 · 2021年6月10日

【ICML2021】深度残差网络的可扩展特性

专知会员服务

20+阅读 · 2021年5月30日

【ICML2021】Lipschitz归一化自注意力以及应用到图神经网络

专知会员服务

30+阅读 · 2021年5月28日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

专知

2+阅读 · 2022年7月20日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

【ICML2022】深度神经网络中的特征学习与信号传播

【ICML2022】深度神经网络中的特征学习与信号传播

专知

0+阅读 · 2022年6月2日

【ICML2022】深入探讨置换敏感图神经网络

【ICML2022】深入探讨置换敏感图神经网络

专知

0+阅读 · 2022年6月1日

【ICLR2022】Vision Transformer 模型工作机制的最新理论

【ICLR2022】Vision Transformer 模型工作机制的最新理论

专知

0+阅读 · 2022年2月19日

【AAAI2022】知识图谱表示模型是如何进行外推的?

【AAAI2022】知识图谱表示模型是如何进行外推的?

专知

1+阅读 · 2022年2月2日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【WSDM2022】具有分层注意力的图嵌入

【WSDM2022】具有分层注意力的图嵌入

专知

0+阅读 · 2021年11月17日

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

专知

22+阅读 · 2020年7月25日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

考虑硅通孔热应力的静态时序分析

国家自然科学基金

0+阅读 · 2015年12月31日

车轮双轴疲劳虚拟试验的胎-轮间载荷传递机理及模型

国家自然科学基金

0+阅读 · 2013年12月31日

基于关键词的关系数据库查询技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

离子注入法与模板法制备人工金属结构表面等离激元与半导体耦合相互作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

室温下存储GHz带宽极化量子纠缠态实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于问题框架的需求和领域模型的变换及验证

国家自然科学基金

0+阅读 · 2012年12月31日

多复变中的L2估计

国家自然科学基金

0+阅读 · 2012年12月31日

认知协作传感器网络中基于有效容量的随机优化理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

奇异粒子结构和性质的理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

丘脑MGm核团在注意和记忆中的作用及其机制

国家自然科学基金

0+阅读 · 2012年12月31日

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

Arxiv

0+阅读 · 2022年7月28日

Linear Last-Iterate Convergence for Continuous Games with Coupled Inequality Constraints

Arxiv

0+阅读 · 2022年7月28日

DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-Transformer

Arxiv

0+阅读 · 2022年7月28日

ShAPO: Implicit Representations for Multi-Object Shape, Appearance, and Pose Optimization

Arxiv

0+阅读 · 2022年7月27日

Improving Vision Transformers by Revisiting High-frequency Components

Arxiv

0+阅读 · 2022年7月27日

Simple Baselines for Image Restoration

Arxiv

0+阅读 · 2022年7月27日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning

Arxiv

13+阅读 · 2021年4月7日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

VIP会员

相关主题

超立方Transformers

相关VIP内容

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【AAAI2022】注意力机制的快速蒙特卡罗近似

【AAAI2022】注意力机制的快速蒙特卡罗近似

专知会员服务

20+阅读 · 2022年2月5日

【ICML2021】教师-学生设置中的持续学习:任务相似性的影响

专知会员服务

20+阅读 · 2021年9月1日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【ICML2021】弹性图神经网络

专知会员服务

37+阅读 · 2021年7月17日

【ICML2021】突破图神经网络中消息传递的限制

专知会员服务

41+阅读 · 2021年6月10日

【ICML2021】深度残差网络的可扩展特性

专知会员服务

20+阅读 · 2021年5月30日

【ICML2021】Lipschitz归一化自注意力以及应用到图神经网络

专知会员服务

30+阅读 · 2021年5月28日

【ICML2021】模仿学习的超参数选择

专知会员服务

22+阅读 · 2021年5月27日

【ICML2021】有向图网络

专知会员服务

82+阅读 · 2021年5月10日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】扩展可扩展会话推荐的边界

别想太多：高效 R1 风格大型推理模型综述

【ACMMM2025】EvoVLMA: 进化式视觉-语言模型自适应

智能体网络：用AI智能体编织下一代网络

相关资讯

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

【ICML2022】因果Transformer:估算反事实结果的因果, 附ppt

专知

2+阅读 · 2022年7月20日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

【ICML2022】深度神经网络中的特征学习与信号传播

【ICML2022】深度神经网络中的特征学习与信号传播

专知

0+阅读 · 2022年6月2日

【ICML2022】深入探讨置换敏感图神经网络

【ICML2022】深入探讨置换敏感图神经网络

专知

0+阅读 · 2022年6月1日

【ICLR2022】Vision Transformer 模型工作机制的最新理论

【ICLR2022】Vision Transformer 模型工作机制的最新理论

专知

0+阅读 · 2022年2月19日

【AAAI2022】知识图谱表示模型是如何进行外推的?

【AAAI2022】知识图谱表示模型是如何进行外推的?

专知

1+阅读 · 2022年2月2日

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

【AAAI2022】基于分层随机注意的Transformer 不确定性估计

专知

0+阅读 · 2021年12月29日

【WSDM2022】具有分层注意力的图嵌入

【WSDM2022】具有分层注意力的图嵌入

专知

0+阅读 · 2021年11月17日

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

如何建模动态图？看这个《时序图神经网络》视频讲解，26页ppt

专知

22+阅读 · 2020年7月25日

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

【WWW2020论文-香港中文大学】MAGNN:异构图嵌入的集合图神经网络

专知

33+阅读 · 2020年2月13日

相关基金

考虑硅通孔热应力的静态时序分析

国家自然科学基金

0+阅读 · 2015年12月31日

车轮双轴疲劳虚拟试验的胎-轮间载荷传递机理及模型

国家自然科学基金

0+阅读 · 2013年12月31日

基于关键词的关系数据库查询技术研究

国家自然科学基金

0+阅读 · 2013年12月31日

离子注入法与模板法制备人工金属结构表面等离激元与半导体耦合相互作用研究

国家自然科学基金

0+阅读 · 2012年12月31日

室温下存储GHz带宽极化量子纠缠态实验研究

国家自然科学基金

0+阅读 · 2012年12月31日

基于问题框架的需求和领域模型的变换及验证

国家自然科学基金

0+阅读 · 2012年12月31日

多复变中的L2估计

国家自然科学基金

0+阅读 · 2012年12月31日

认知协作传感器网络中基于有效容量的随机优化理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

奇异粒子结构和性质的理论研究

国家自然科学基金

0+阅读 · 2012年12月31日

丘脑MGm核团在注意和记忆中的作用及其机制

国家自然科学基金

0+阅读 · 2012年12月31日

相关论文

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

On the Universality of Langevin Diffusion for Private Euclidean (Convex) Optimization

Arxiv

0+阅读 · 2022年7月28日

Linear Last-Iterate Convergence for Continuous Games with Coupled Inequality Constraints

Arxiv

0+阅读 · 2022年7月28日

DnSwin: Toward Real-World Denoising via Continuous Wavelet Sliding-Transformer

Arxiv

0+阅读 · 2022年7月28日

ShAPO: Implicit Representations for Multi-Object Shape, Appearance, and Pose Optimization

Arxiv

0+阅读 · 2022年7月27日

Improving Vision Transformers by Revisiting High-frequency Components

Arxiv

0+阅读 · 2022年7月27日

Simple Baselines for Image Restoration

Arxiv

0+阅读 · 2022年7月27日

Efficient Transformers: A Survey

Arxiv

35+阅读 · 2022年3月14日

Nested Hierarchical Transformer: Towards Accurate, Data-Efficient and Interpretable Visual Understanding

Arxiv

12+阅读 · 2021年12月30日

Seeing Out of tHe bOx: End-to-End Pre-training for Vision-Language Representation Learning

Arxiv

13+阅读 · 2021年4月7日

Self-Attention Graph Pooling

Self-Attention Graph Pooling

Arxiv

13+阅读 · 2019年6月13日

大家都在搜

大型语言模型

CMU博士论文

久别重逢话双塔

软件无线电

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员