Conformer已被证明在许多语音处理任务中是有效的。它结合了使用卷积提取局部依赖项和使用自注意力提取全局依赖项的优点。受此启发,我们提出了一种更灵活、可解释和可定制的编码器备选方案——Branchformer,它具有并行分支,用于建模端到端语音处理中的各种范围依赖性。在每个编码器层中,一个分支使用自注意力或其变体来捕获远程依赖,而另一个分支使用带有卷积门控(cgMLP)的MLP模块来提取局部关系。我们对几个语音识别和口语理解基准进行了实验。结果表明,该模型的性能优于Transformer和cgMLP。它还匹配或优于Conformer取得的最先进的结果。此外,我们展示了多种策略来减少计算,这得益于双分支架构,包括在单个训练模型中具有可变推理复杂性的能力。为合并分支学习的权重表明如何在不同层中利用局部和全局依赖关系,这有利于模型设计。

成为VIP会员查看完整内容
24

相关内容

【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
19+阅读 · 2022年7月9日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
专知会员服务
26+阅读 · 2020年2月15日
Pale Transformer:新视觉ViT主干
CVer
0+阅读 · 2022年1月2日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
Arxiv
28+阅读 · 2021年5月17日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
19+阅读 · 2018年3月28日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
13+阅读 · 2017年12月5日
VIP会员
相关VIP内容
【ECCV2022】UniNet:具有卷积、Transformer和MLP的统一架构搜索
【ICML2022】基于自适应上下文池化的高效表示学习
专知会员服务
19+阅读 · 2022年7月9日
Transformer如何用于视频?最新「视频Transformer」2022综述
专知会员服务
75+阅读 · 2022年1月20日
【AAAI2022】用于视觉常识推理的场景图增强图像-文本学习
专知会员服务
48+阅读 · 2021年12月20日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
专知会员服务
26+阅读 · 2020年2月15日
相关基金
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2013年12月31日
国家自然科学基金
2+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2012年12月31日
国家自然科学基金
1+阅读 · 2012年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
1+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
国家自然科学基金
0+阅读 · 2009年12月31日
相关论文
Arxiv
28+阅读 · 2021年5月17日
Arxiv
17+阅读 · 2021年3月29日
Arxiv
23+阅读 · 2020年9月16日
Arxiv
15+阅读 · 2020年2月5日
Arxiv
19+阅读 · 2018年3月28日
Arxiv
27+阅读 · 2017年12月6日
Arxiv
13+阅读 · 2017年12月5日
微信扫码咨询专知VIP会员