【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解 - 专知VIP

会员服务 ·

6

Branchformer · Conformer · Transformer ·

2022 年 7 月 8 日

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

Conformer已被证明在许多语音处理任务中是有效的。它结合了使用卷积提取局部依赖项和使用自注意力提取全局依赖项的优点。受此启发，我们提出了一种更灵活、可解释和可定制的编码器备选方案——Branchformer，它具有并行分支，用于建模端到端语音处理中的各种范围依赖性。在每个编码器层中，一个分支使用自注意力或其变体来捕获远程依赖，而另一个分支使用带有卷积门控(cgMLP)的MLP模块来提取局部关系。我们对几个语音识别和口语理解基准进行了实验。结果表明，该模型的性能优于Transformer和cgMLP。它还匹配或优于Conformer取得的最先进的结果。此外，我们展示了多种策略来减少计算，这得益于双分支架构，包括在单个训练模型中具有可变推理复杂性的能力。为合并分支学习的权重表明如何在不同层中利用局部和全局依赖关系，这有利于模型设计。

成为VIP会员查看完整内容

25

相关内容

Branchformer

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知会员服务

30+阅读 · 2022年7月15日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【ICML2021】计算机视觉中的自注意力机制，谷歌伯克利166页ppt教程

专知会员服务

135+阅读 · 2021年7月22日

【ICML2021】Lipschitz归一化自注意力以及应用到图神经网络

专知会员服务

30+阅读 · 2021年5月28日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

【ICLR2020】胶囊与反向路由点积注意力

专知会员服务

27+阅读 · 2020年2月15日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

媲美全局注意力！百度、港大提出双边局部注意力ViT：引入特征空间，显著降低计算量

媲美全局注意力！百度、港大提出双边局部注意力ViT：引入特征空间，显著降低计算量

PaperWeekly

0+阅读 · 2022年4月28日

引入特征空间，显著降低计算量：双边局部注意力ViT性能媲美全局注意力

引入特征空间，显著降低计算量：双边局部注意力ViT性能媲美全局注意力

机器之心

1+阅读 · 2022年4月27日

ICLR 2022 | 纯MLP的点云网络：新架构PointMLP大幅提高点云分类准确率和推理速度

ICLR 2022 | 纯MLP的点云网络：新架构PointMLP大幅提高点云分类准确率和推理速度

机器之心

2+阅读 · 2022年4月12日

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

CVer

0+阅读 · 2022年3月2日

在注意力中重新思考Softmax：分解非线性，这个线性transformer变体实现多项SOTA

在注意力中重新思考Softmax：分解非线性，这个线性transformer变体实现多项SOTA

极市平台

0+阅读 · 2022年2月21日

Swin-Transformer应该如何更好地引入全局信息？MoA-Transformer:一种多分辨率重叠注意模块

Swin-Transformer应该如何更好地引入全局信息？MoA-Transformer:一种多分辨率重叠注意模块

极市平台

0+阅读 · 2022年2月8日

Pale Transformer：新视觉ViT主干

Pale Transformer：新视觉ViT主干

CVer

0+阅读 · 2022年1月2日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知

0+阅读 · 2021年12月8日

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

机器之心

11+阅读 · 2019年5月6日

基于多任务稀疏学习的视频行为理解

国家自然科学基金

0+阅读 · 2014年12月31日

中文手写文档识别中高阶上下文建模方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

面向高准确率语音转写的用户反馈学习与识别结果优化

国家自然科学基金

0+阅读 · 2012年12月31日

集群环境下复杂结构非线性动力有限元并行求解算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

复杂网络模块结构与链接结构的统计建模及识别研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于类属超图的大规模非合作目标图像识别关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于改进的支持向量机在语音识别中的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

三维空间注意的认知神经机制

国家自然科学基金

0+阅读 · 2009年12月31日

ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers

Arxiv

0+阅读 · 2022年8月28日

Pay Attention to MLPs

Arxiv

28+阅读 · 2021年5月17日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

Deep Semantic Role Labeling with Self-Attention

Arxiv

13+阅读 · 2017年12月5日

VIP会员

相关主题

相关VIP内容

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知会员服务

30+阅读 · 2022年7月15日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知会员服务

20+阅读 · 2022年7月9日

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

【ICML2022】通过凸对偶揭示注意力:视觉Transformers的分析与解读

专知会员服务

28+阅读 · 2022年5月30日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习

专知会员服务

50+阅读 · 2021年12月20日

【ICML2021】PoolingFormer：具有池化注意力机制的长序列输入模型

专知会员服务

35+阅读 · 2021年7月25日

【ICML2021】计算机视觉中的自注意力机制，谷歌伯克利166页ppt教程

专知会员服务

135+阅读 · 2021年7月22日

【ICML2021】Lipschitz归一化自注意力以及应用到图神经网络

专知会员服务

30+阅读 · 2021年5月28日

注意力图神经网络的多标签文本分类

注意力图神经网络的多标签文本分类

专知会员服务

112+阅读 · 2020年3月28日

【ICLR2020】胶囊与反向路由点积注意力

专知会员服务

27+阅读 · 2020年2月15日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

媲美全局注意力！百度、港大提出双边局部注意力ViT：引入特征空间，显著降低计算量

媲美全局注意力！百度、港大提出双边局部注意力ViT：引入特征空间，显著降低计算量

PaperWeekly

0+阅读 · 2022年4月28日

引入特征空间，显著降低计算量：双边局部注意力ViT性能媲美全局注意力

引入特征空间，显著降低计算量：双边局部注意力ViT性能媲美全局注意力

机器之心

1+阅读 · 2022年4月27日

ICLR 2022 | 纯MLP的点云网络：新架构PointMLP大幅提高点云分类准确率和推理速度

ICLR 2022 | 纯MLP的点云网络：新架构PointMLP大幅提高点云分类准确率和推理速度

机器之心

2+阅读 · 2022年4月12日

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

ICLR 2022 | 新注意力！用于ViT的QuadTree Attention

CVer

0+阅读 · 2022年3月2日

在注意力中重新思考Softmax：分解非线性，这个线性transformer变体实现多项SOTA

在注意力中重新思考Softmax：分解非线性，这个线性transformer变体实现多项SOTA

极市平台

0+阅读 · 2022年2月21日

Swin-Transformer应该如何更好地引入全局信息？MoA-Transformer:一种多分辨率重叠注意模块

Swin-Transformer应该如何更好地引入全局信息？MoA-Transformer:一种多分辨率重叠注意模块

极市平台

0+阅读 · 2022年2月8日

Pale Transformer：新视觉ViT主干

Pale Transformer：新视觉ViT主干

CVer

0+阅读 · 2022年1月2日

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

NeurIPS 2021 | 又一超强视觉Transformer主干！HRFormer：学习高分辨率表征

专知

0+阅读 · 2021年12月8日

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

当Non-local遇见SENet，微软亚研提出更高效的全局上下文网络

机器之心

11+阅读 · 2019年5月6日

相关基金

基于多任务稀疏学习的视频行为理解

国家自然科学基金

0+阅读 · 2014年12月31日

中文手写文档识别中高阶上下文建模方法研究

国家自然科学基金

0+阅读 · 2013年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

面向高准确率语音转写的用户反馈学习与识别结果优化

国家自然科学基金

0+阅读 · 2012年12月31日

集群环境下复杂结构非线性动力有限元并行求解算法研究

国家自然科学基金

0+阅读 · 2012年12月31日

复杂网络模块结构与链接结构的统计建模及识别研究

国家自然科学基金

1+阅读 · 2012年12月31日

基于类属超图的大规模非合作目标图像识别关键技术研究

国家自然科学基金

0+阅读 · 2009年12月31日

基于中心扩展对齐的汉-英统计机器翻译研究

国家自然科学基金

1+阅读 · 2009年12月31日

基于改进的支持向量机在语音识别中的应用研究

国家自然科学基金

0+阅读 · 2009年12月31日

三维空间注意的认知神经机制

国家自然科学基金

0+阅读 · 2009年12月31日

相关论文

ClusTR: Exploring Efficient Self-attention via Clustering for Vision Transformers

Arxiv

0+阅读 · 2022年8月28日

Pay Attention to MLPs

Arxiv

28+阅读 · 2021年5月17日

Transformer Tracking

Arxiv

17+阅读 · 2021年3月29日

Efficient Transformers: A Survey

Arxiv

23+阅读 · 2020年9月16日

Graph Transformer Networks

Arxiv

15+阅读 · 2020年2月5日

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Transformer-XL: Attentive Language Models Beyond a Fixed-Length Context

Arxiv

11+阅读 · 2019年6月2日

End-to-End Multi-Task Learning with Attention

Arxiv

19+阅读 · 2018年3月28日

Distance-based Self-Attention Network for Natural Language Inference

Arxiv

10+阅读 · 2017年12月6日

Attention Is All You Need

Arxiv

27+阅读 · 2017年12月6日

Deep Semantic Role Labeling with Self-Attention

Arxiv

13+阅读 · 2017年12月5日

微信扫码咨询专知VIP会员