【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解 - 专知

会员服务 ·

0

【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解

2022 年 7 月 8 日 专知

Conformer已被证明在许多语音处理任务中是有效的。它结合了使用卷积提取局部依赖项和使用自注意力提取全局依赖项的优点。受此启发，我们提出了一种更灵活、可解释和可定制的编码器备选方案——Branchformer，它具有并行分支，用于建模端到端语音处理中的各种范围依赖性。在每个编码器层中，一个分支使用自注意力或其变体来捕获远程依赖，而另一个分支使用带有卷积门控(cgMLP)的MLP模块来提取局部关系。我们对几个语音识别和口语理解基准进行了实验。结果表明，该模型的性能优于Transformer和cgMLP。它还匹配或优于Conformer取得的最先进的结果。此外，我们展示了多种策略来减少计算，这得益于双分支架构，包括在单个训练模型中具有可变推理复杂性的能力。为合并分支学习的权重表明如何在不同层中利用局部和全局依赖关系，这有利于模型设计。

专知便捷查看

便捷下载，请关注专知公众号（点击上方蓝色专知关注）

后台回复“BFME” 就可以获取《【ICML2022】Branchformer:并行MLP-Attention架构，捕捉局部和全局上下文，用于语音识别和理解》专知下载链接

专知，专业可信的人工智能知识分发 ，让认知协作更快更好！欢迎注册登录专知www.zhuanzhi.ai，获取100000+AI(AI与军事、医药、公安等)主题干货知识资料！

欢迎微信扫一扫加入专知人工智能知识星球群，获取最新AI专业干货知识教程资料和与专家交流咨询！

点击“ 阅读原文 ”，了解使用专知 ，查看获取100000+AI主题知识资料

登录查看更多

0

相关内容

Branchformer

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知会员服务

30+阅读 · 2022年7月15日

【KDD2022】多行为超图增强Transformer的序列推荐

【KDD2022】多行为超图增强Transformer的序列推荐

专知会员服务

29+阅读 · 2022年7月14日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【AAAI2022】推荐系统应用中的上下文老虎机中的上下文不确定性

【AAAI2022】推荐系统应用中的上下文老虎机中的上下文不确定性

专知会员服务

16+阅读 · 2022年2月3日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知会员服务

46+阅读 · 2021年11月24日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【ICML2021】使用Transformers编码的计算感知神经架构

专知会员服务

18+阅读 · 2021年9月15日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知

0+阅读 · 2022年7月15日

【KDD2022】多行为超图增强Transformer的序列推荐

【KDD2022】多行为超图增强Transformer的序列推荐

专知

3+阅读 · 2022年7月14日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

专知

1+阅读 · 2022年7月4日

【ICML2022】用于视频恢复的无监督流对齐序列到序列学习

【ICML2022】用于视频恢复的无监督流对齐序列到序列学习

专知

0+阅读 · 2022年5月26日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知

0+阅读 · 2022年2月6日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知

0+阅读 · 2021年11月24日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知

0+阅读 · 2021年10月25日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

汉语篇章连贯性分析：话题结构、逻辑语义结构及其联合学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

幼儿汉语口语感知特点及神经机制

国家自然科学基金

0+阅读 · 2014年12月31日

生物可信性频域视觉注意模型及其图像多语义快速获取方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于上下文信息的社交网络图像分析与理解

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

特定领域元建模语言的形式化及其元模型和模型的一致性验证研究

国家自然科学基金

5+阅读 · 2012年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于广义话题的汉语篇章结构研究

国家自然科学基金

0+阅读 · 2011年12月31日

MRI/FMT双模式影像纳米探针的设计、构建及其在肿瘤早期诊断中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

无线传感器同构网络模型下动态组密钥管理机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

Medical Image Segmentation using LeViT-UNet++: A Case Study on GI Tract Data

Medical Image Segmentation using LeViT-UNet++: A Case Study on GI Tract Data

Arxiv

0+阅读 · 2022年9月15日

Extended Intelligence

Arxiv

1+阅读 · 2022年9月15日

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

Arxiv

0+阅读 · 2022年9月14日

Learning Category-Level Manipulation Tasks from Point Clouds with Dynamic Graph CNNs

Arxiv

0+阅读 · 2022年9月13日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Pay Attention to MLPs

Arxiv

28+阅读 · 2021年5月17日

Image Segmentation Using Deep Learning: A Survey

Image Segmentation Using Deep Learning: A Survey

Arxiv

46+阅读 · 2020年1月15日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

Attention U-Net: Learning Where to Look for the Pancreas

Arxiv

17+阅读 · 2018年5月20日

Deep Semantic Role Labeling with Self-Attention

Arxiv

13+阅读 · 2017年12月5日

VIP会员

相关主题

相关VIP内容

【ICML2022】时序自监督视频transformer

【ICML2022】时序自监督视频transformer

专知会员服务

31+阅读 · 2022年7月28日

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知会员服务

30+阅读 · 2022年7月15日

【KDD2022】多行为超图增强Transformer的序列推荐

【KDD2022】多行为超图增强Transformer的序列推荐

专知会员服务

29+阅读 · 2022年7月14日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知会员服务

24+阅读 · 2022年2月6日

【AAAI2022】推荐系统应用中的上下文老虎机中的上下文不确定性

【AAAI2022】推荐系统应用中的上下文老虎机中的上下文不确定性

专知会员服务

16+阅读 · 2022年2月3日

Transformer如何用于视频？最新「视频Transformer」2022综述

Transformer如何用于视频？最新「视频Transformer」2022综述

专知会员服务

76+阅读 · 2022年1月20日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知会员服务

46+阅读 · 2021年11月24日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知会员服务

15+阅读 · 2021年11月14日

【ICML2021】使用Transformers编码的计算感知神经架构

专知会员服务

18+阅读 · 2021年9月15日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知会员服务

75+阅读 · 2020年8月30日

热门VIP内容

开通专知VIP会员享更多权益服务

《物联网（IoT）中的无人机通信高效控制》135页

《在GNSS信号降级环境中利用共识实现无人机集群稳健协调》

中程单向攻击无人机的战略意义：俄乌战争启示

《面向无人机集群的避障动态传感器覆盖算法》最新38页

相关资讯

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索

专知

0+阅读 · 2022年7月15日

【KDD2022】多行为超图增强Transformer的序列推荐

【KDD2022】多行为超图增强Transformer的序列推荐

专知

3+阅读 · 2022年7月14日

【ICML2022】基于自适应上下文池化的高效表示学习

【ICML2022】基于自适应上下文池化的高效表示学习

专知

0+阅读 · 2022年7月9日

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

【TMI2022】C2FTrans:用于医学图像分割的从粗到细的Transformers

专知

1+阅读 · 2022年7月4日

【ICML2022】用于视频恢复的无监督流对齐序列到序列学习

【ICML2022】用于视频恢复的无监督流对齐序列到序列学习

专知

0+阅读 · 2022年5月26日

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

【AAAI2022】基于交互式transformer和暹罗网络的视频目标分割

专知

0+阅读 · 2022年2月6日

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

【NeurIPS2021】用于文本图表示学习的 GNN 嵌套 Transformer 模型：GraphFormers

专知

0+阅读 · 2021年11月24日

【NeurIPS2021】用于视频分割的密集无监督学习

【NeurIPS2021】用于视频分割的密集无监督学习

专知

0+阅读 · 2021年11月14日

【NeurIPS2021】ResT:一个有效的视觉识别转换器

【NeurIPS2021】ResT:一个有效的视觉识别转换器

专知

0+阅读 · 2021年10月25日

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

【ACM Multimedia2020】跨模态注意力Transformer模型的深度视频理解

专知

15+阅读 · 2020年8月30日

相关基金

汉语篇章连贯性分析：话题结构、逻辑语义结构及其联合学习研究

国家自然科学基金

0+阅读 · 2014年12月31日

幼儿汉语口语感知特点及神经机制

国家自然科学基金

0+阅读 · 2014年12月31日

生物可信性频域视觉注意模型及其图像多语义快速获取方法研究

国家自然科学基金

1+阅读 · 2013年12月31日

基于上下文信息的社交网络图像分析与理解

国家自然科学基金

0+阅读 · 2013年12月31日

条件独立结构的分解与学习

国家自然科学基金

0+阅读 · 2013年12月31日

特定领域元建模语言的形式化及其元模型和模型的一致性验证研究

国家自然科学基金

5+阅读 · 2012年12月31日

并行子空间学习方法及其大规模图像识别应用研究

国家自然科学基金

2+阅读 · 2012年12月31日

基于广义话题的汉语篇章结构研究

国家自然科学基金

0+阅读 · 2011年12月31日

MRI/FMT双模式影像纳米探针的设计、构建及其在肿瘤早期诊断中的应用

国家自然科学基金

0+阅读 · 2011年12月31日

无线传感器同构网络模型下动态组密钥管理机制研究

国家自然科学基金

0+阅读 · 2011年12月31日

相关论文

Medical Image Segmentation using LeViT-UNet++: A Case Study on GI Tract Data

Medical Image Segmentation using LeViT-UNet++: A Case Study on GI Tract Data

Arxiv

0+阅读 · 2022年9月15日

Extended Intelligence

Arxiv

1+阅读 · 2022年9月15日

MVPTR: Multi-Level Semantic Alignment for Vision-Language Pre-Training via Multi-Stage Learning

Arxiv

0+阅读 · 2022年9月14日

Learning Category-Level Manipulation Tasks from Point Clouds with Dynamic Graph CNNs

Arxiv

0+阅读 · 2022年9月13日

A Survey on Vision Transformer

Arxiv

17+阅读 · 2022年2月23日

Pay Attention to MLPs

Arxiv

28+阅读 · 2021年5月17日

Image Segmentation Using Deep Learning: A Survey

Image Segmentation Using Deep Learning: A Survey

Arxiv

46+阅读 · 2020年1月15日

Learning with Interpretable Structure from RNN

Arxiv

19+阅读 · 2018年10月25日

Attention U-Net: Learning Where to Look for the Pancreas

Arxiv

17+阅读 · 2018年5月20日

Deep Semantic Role Labeling with Self-Attention

Arxiv

13+阅读 · 2017年12月5日

大家都在搜

大型语言模型

久别重逢话双塔

国防科技创新

论文浅尝 - ICLR2020 | 通过神经逻辑归纳学习有效地解释

微信扫码咨询专知VIP会员