高效率电源:逐步减少抽样和集中关注自动语音识别 (Efficient Conformer: Progressive Downsampling and Grouped Attention for Automatic Speech Recognition) - 专知论文

会员服务 ·

0

Conformer · 可约的 · Performer · 自动语音识别 · 注意力机制 ·

2021 年 8 月 31 日

Efficient Conformer: Progressive Downsampling and Grouped Attention for Automatic Speech Recognition

翻译：高效率电源:逐步减少抽样和集中关注自动语音识别

Maxime Burchi,Valentin Vielzeuf

The recently proposed Conformer architecture has shown state-of-the-art performances in Automatic Speech Recognition by combining convolution with attention to model both local and global dependencies. In this paper, we study how to reduce the Conformer architecture complexity with a limited computing budget, leading to a more efficient architecture design that we call Efficient Conformer. We introduce progressive downsampling to the Conformer encoder and propose a novel attention mechanism named grouped attention, allowing us to reduce attention complexity from $O(n^{2}d)$ to $O(n^{2}d / g)$ for sequence length $n$, hidden dimension $d$ and group size parameter $g$. We also experiment the use of strided multi-head self-attention as a global downsampling operation. Our experiments are performed on the LibriSpeech dataset with CTC and RNN-Transducer losses. We show that within the same computing budget, the proposed architecture achieves better performances with faster training and decoding compared to the Conformer. Our 13M parameters CTC model achieves competitive WERs of 3.6\%/9.0\% without using a language model and 2.7\%/6.7\% with an external n-gram language model on the test-clean/test-other sets while being 29\% faster than our CTC Conformer baseline at inference and 36\% faster to train.

翻译：最近提议的 Confred 架构显示自动语音识别的最新最新表现, 结合对本地和全球依赖性模型的关注, 展示了自动语音识别的最先进表现。在本文中, 我们研究如何以有限的计算预算来降低 Confred 架构的复杂性, 从而导致一个更高效的架构设计, 我们称之为高效 Confred 。我们向 Confred 编码编码器引入了渐进式的缩小抽样抽样, 并提议了一个名为群集关注的新关注机制, 使我们能够将关注的复杂程度从$O (n ⁇ 2d) 降低到 $O(n ⁇ 2}d/g) $( $)、隐藏的维度($) 和群体大小参数 $( g $ ) 。我们还在使用3. 6 Q. 7 和 CS. 6xxxxxxxx 进行竞争性的多头自省自省自闭式计算机模型, 而没有使用3. 0. 7 30 和 Con- case 测试, 我们用的是3. 3xxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxxx

2

相关内容

Conformer

【经典书】精通Linux，394页pdf

【经典书】精通Linux，394页pdf

专知会员服务

97+阅读 · 2021年2月19日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

107+阅读 · 2020年8月30日

一份实用《图神经网络GNN》笔记，45页pdf

专知会员服务

119+阅读 · 2020年7月22日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

机器学习速查手册，135页pdf

机器学习速查手册，135页pdf

专知会员服务

343+阅读 · 2020年3月15日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

新书《用于计算机视觉、机器人和机器学习的线性代数》，附753页PDF下载

新书《用于计算机视觉、机器人和机器学习的线性代数》，附753页PDF下载

专知会员服务

194+阅读 · 2019年10月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

已删除

将门创投

11+阅读 · 2019年4月26日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition

Arxiv

0+阅读 · 2021年10月26日

Gated Channel Transformation for Visual Recognition

Arxiv

4+阅读 · 2020年3月27日

End-to-End Multi-speaker Speech Recognition with Transformer

Arxiv

8+阅读 · 2020年2月13日

Exploring RNN-Transducer for Chinese Speech Recognition

Arxiv

4+阅读 · 2019年4月23日

Neural Speech Synthesis with Transformer Network

Neural Speech Synthesis with Transformer Network

Arxiv

5+阅读 · 2019年1月30日

End-to-end Speech Recognition with Word-based RNN Language Models

End-to-end Speech Recognition with Word-based RNN Language Models

Arxiv

3+阅读 · 2018年8月8日

End-to-End Speech Recognition From the Raw Waveform

Arxiv

3+阅读 · 2018年6月19日

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Arxiv

5+阅读 · 2018年6月4日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding

Arxiv

16+阅读 · 2017年11月20日

VIP会员

文章信息

相关主题

自动语音识别

注意力机制

相关VIP内容

【经典书】精通Linux，394页pdf

【经典书】精通Linux，394页pdf

专知会员服务

97+阅读 · 2021年2月19日

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

纽约大学最新《语音识别Speech Recognition》2020课程，不可错过！

专知会员服务

44+阅读 · 2020年11月2日

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

【商汤科技】可变形Transformers端到端对象检测，Deformable DETR

专知会员服务

33+阅读 · 2020年10月11日

Transformer模型-深度学习自然语言处理，17页ppt

Transformer模型-深度学习自然语言处理，17页ppt

专知会员服务

107+阅读 · 2020年8月30日

一份实用《图神经网络GNN》笔记，45页pdf

专知会员服务

119+阅读 · 2020年7月22日

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

【ACL2020-亚马逊】Transformers多分辨率和多模态语音识别，Multiresolution and Multimodal Speech Recognition with Transformers

专知会员服务

15+阅读 · 2020年5月5日

机器学习速查手册，135页pdf

机器学习速查手册，135页pdf

专知会员服务

343+阅读 · 2020年3月15日

【跨语言BERT模型大集合】Transfer learning is increasingly going multilingual with language-specific BERT models

专知会员服务

54+阅读 · 2020年1月30日

新书《用于计算机视觉、机器人和机器学习的线性代数》，附753页PDF下载

新书《用于计算机视觉、机器人和机器学习的线性代数》，附753页PDF下载

专知会员服务

194+阅读 · 2019年10月24日

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

Auto-Sizing the Transformer Network: Improving Speed, Efficiency, and Performance for Low-Resource Machine Translation

专知会员服务

49+阅读 · 2019年10月17日

热门VIP内容

开通专知VIP会员享更多权益服务

《乌克兰无人机产业：志愿者与政策在构建新兴无人机产业中的协同作用》最新报告

《人工智能辅助决策中的数据可视化：系统性综述》

人工智能驱动弹药制造现代化：美国陆军转型之路

《敏捷作战部署中枢纽-辐条基地选址优化研究》80页

相关资讯

已删除

将门创投

11+阅读 · 2019年4月26日

笔记 | Deep active learning for named entity recognition

笔记 | Deep active learning for named entity recognition

黑龙江大学自然语言处理实验室

24+阅读 · 2018年5月27日

相关论文

PARP: Prune, Adjust and Re-Prune for Self-Supervised Speech Recognition

Arxiv

0+阅读 · 2021年10月26日

Gated Channel Transformation for Visual Recognition

Arxiv

4+阅读 · 2020年3月27日

End-to-End Multi-speaker Speech Recognition with Transformer

Arxiv

8+阅读 · 2020年2月13日

Exploring RNN-Transducer for Chinese Speech Recognition

Arxiv

4+阅读 · 2019年4月23日

Neural Speech Synthesis with Transformer Network

Neural Speech Synthesis with Transformer Network

Arxiv

5+阅读 · 2019年1月30日

End-to-end Speech Recognition with Word-based RNN Language Models

End-to-end Speech Recognition with Word-based RNN Language Models

Arxiv

3+阅读 · 2018年8月8日

End-to-End Speech Recognition From the Raw Waveform

Arxiv

3+阅读 · 2018年6月19日

Syllable-Based Sequence-to-Sequence Speech Recognition with the Transformer in Mandarin Chinese

Arxiv

5+阅读 · 2018年6月4日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

DiSAN: Directional Self-Attention Network for RNN/CNN-Free Language Understanding

Arxiv

16+阅读 · 2017年11月20日

微信扫码咨询专知VIP会员