CIF：基于神经元整合发放的语音识别新机制 - 专知

会员服务 ·

0

CIF：基于神经元整合发放的语音识别新机制

2020 年 3 月 2 日 AI科技评论

作者 | 中科院自动化所

编辑 | 贾伟

为解决经典的注意力语音识别模型不支持在线识别、边界定位等问题，中科院自动化所董林昊博士、徐波研究员将脉冲神经网络中的整合发放思想进行连续化，提出一种低复杂度并具有单调一致性的序列转换机制——连续整合发放（Continuous Integrate-and-Fire，CIF）。基于CIF的模型不仅有效地支持了在线识别、边界定位及声学 Embedding 提取，而且在两个中文基准语音识别集（HKUST、AISHELL-2）上创造了SOTA的性能。相关成果被ICASSP 2020录用为Oral论文。

论文题目：CIF: Continuous Integrate-and-Fire for End-to-End Speech Recognition

论文地址：https://arxiv.org/pdf/1905.11235.pdf

基于注意力机制的端到端模型正深刻影响着语音识别技术的发展。但经典的注意力识别模型因 “要对整句语音编码后投入注意力” 的特点面临着无法支持在线（流式）识别、无法提供语音边界时间戳等问题。

中科院自动化所董林昊博士、徐波研究员将脉冲神经网络中的整合发放思想进行连续化，提出一种低复杂度并具有单调一致性的序列转换机制——连续整合发放（Continuous Integrate-and-Fire，CIF）。 CIF会对先后到来的声学信息依次进行整合，当整合的信息量达到识别阈值，将整合后的信息发放以用作后续识别。其与注意力模型的对齐形态对比如下图1所示。

图1. CIF机制与注意力机制的对齐形态对比

连续整合发放（CIF）应用于编解码框架。在每一个编码时刻，CIF分别接收编码后的声学编码表示及其对应的权重（表征了蕴含的信息量）。之后，CIF不断地积累权重并对声学编码表示进行整合（加权求和的形式）。

当积累的权重达到阈值后，意味一个声学边界被定位到。此时，CIF模拟了整合发放模型的处理思想，将当前编码时刻的信息分为两部分（如图1右图所示）：

一部分用来完成当前标签的声学信息整合（权重可构建一个完整分布）。

另一部分用作下一个标签的声学信息整合。

之后CIF将整合后的当前声学信息（声学Embedding）发放到解码器以立即预测对应的标签。以上过程一直执行到编码后序列的末尾。不仅如此，论文还提出了若干支撑策略来进一步精炼CIF模型的性能，如规整策略、数量损失等。

该研究工作在多个语音识别基准数据集上对CIF模型的性能进行了验证，这些数据集涵盖了不同的语种和不同的语音类型。

如图2所示，在英文朗读数据集Librispeech上，虽然采用的输出标签是没有明确声学边界的子词单元，但基于CIF的模型仍然获得了有竞争力的2.86%的词错误率表现。

如图3所示，在中文朗读数据集AISHELL-2上，由于输出标签间的声学边界较为清楚，基于CIF的模型获得了突出的性能表现，显著地超过了Chain模型的性能，创造了state-of-the-art的字错误率结果。

如图4所示，在中文电话数据集HKUST上，虽然语音上具有很多非正式的口语现象，而且数据集规模相对较小，但是基于CIF的模型仍然展现了良好的泛化性，创造了23.09%的state-of-the-art的字错误率结果。

CIF模型不但可以高准确度提供序列转化结果，而且把语音认知中最重要的发音边界进行了精确定位，为语音识别融合各种知识模型提供了新的手段和路径。 CIF将整合发放进行连续化思想可推广应用到其它序列转换任务中。

据悉，该论文工作在研究团队万级小时大规模训练数据的语音识别中，也超过了团队目前CTC、Transformer等主流模型的已有结果，达到了最好性能，意味着该方法具有工业界大规模应用的极大潜能。

图2. 在英文朗读数据集Librispeech上，CIF模型与已发表模型词错误率对比

图3. 在中文朗读数据集AISHELL-2上，CIF模型与已发表模型的字错误率对比

图4. 在中文电话数据集HKUST上，CIF模型与已发表模型的字错误率对比

登录查看更多

2

相关内容

语音识别

语音识别是计算机科学和计算语言学的一个跨学科子领域，它发展了一些方法和技术，使计算机可以将口语识别和翻译成文本。它也被称为自动语音识别（ASR），计算机语音识别或语音转文本（STT）。它整合了计算机科学，语言学和计算机工程领域的知识和研究。

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

模型优化基础，Sayak Paul，67页ppt

模型优化基础，Sayak Paul，67页ppt

专知会员服务

76+阅读 · 2020年6月8日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知会员服务

45+阅读 · 2020年3月9日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

专知会员服务

102+阅读 · 2019年11月24日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

多伦多大学提出注意式吸引器网络，实现渐进式少量次学习

多伦多大学提出注意式吸引器网络，实现渐进式少量次学习

机器之心

5+阅读 · 2019年11月3日

【论文笔记】基于门控图网络实现图到序列学习

【论文笔记】基于门控图网络实现图到序列学习

专知

56+阅读 · 2019年10月5日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

量子位

6+阅读 · 2019年5月29日

用自注意力增强卷积：这是新老两代神经网络的对话（附实现）

用自注意力增强卷积：这是新老两代神经网络的对话（附实现）

机器之心

18+阅读 · 2019年4月26日

语音识别中的CTC算法的基本原理解释

语音识别中的CTC算法的基本原理解释

数盟

4+阅读 · 2018年6月24日

学界 | 英特尔提出新型压缩技术DeepThin，适合移动端设备深度神经网络

学界 | 英特尔提出新型压缩技术DeepThin，适合移动端设备深度神经网络

机器之心

5+阅读 · 2018年2月28日

前沿 | 简述脉冲神经网络SNN：下一代神经网络

前沿 | 简述脉冲神经网络SNN：下一代神经网络

机器之心

37+阅读 · 2018年1月13日

一文读懂语音识别史

一文读懂语音识别史

机械鸡

9+阅读 · 2017年10月16日

人工神经网络算法及其简易R实现

人工神经网络算法及其简易R实现

R语言中文社区

18+阅读 · 2017年8月5日

Attention Forcing for Sequence-to-sequence Model Training

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

End-to-end Speech Recognition with Word-based RNN Language Models

End-to-end Speech Recognition with Word-based RNN Language Models

Arxiv

3+阅读 · 2018年8月8日

Causal Embeddings for Recommendation

Arxiv

23+阅读 · 2018年8月3日

Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces

Arxiv

3+阅读 · 2018年4月9日

Deep Active Learning for Named Entity Recognition

Arxiv

15+阅读 · 2018年2月4日

Multilingual Training and Cross-lingual Adaptation on CTC-based Acoustic Model

Arxiv

7+阅读 · 2018年1月23日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

Deep Metric Learning with BIER: Boosting Independent Embeddings Robustly

Arxiv

18+阅读 · 2018年1月15日

VIP会员

相关主题

中科院自动化所

脉冲神经网络

中国科学院自动化研究所

相关VIP内容

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

【ACL20-哈工大】基于图注意力网络的多粒度机器阅读理解文档建模

专知会员服务

42+阅读 · 2020年7月1日

模型优化基础，Sayak Paul，67页ppt

模型优化基础，Sayak Paul，67页ppt

专知会员服务

76+阅读 · 2020年6月8日

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

【2020关键词提取】基于深度神经网络的关键词提取，Keywords extraction with deep neural network model

专知会员服务

60+阅读 · 2020年5月2日

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

【CVPR2020-中科院-腾讯优图】基于注意力卷积二叉神经树的细粒度视觉分类

专知会员服务

26+阅读 · 2020年3月29日

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

蚂蚁金服人工智能部论文《AGL:可扩展工业图机器学习系统》，处理十亿节点千亿边图数据的GNNs训练推理

专知会员服务

45+阅读 · 2020年3月9日

AAAI 2020 | 滴滴&东北大学提出自动结构化剪枝压缩算法框架，性能提升高达120倍

专知会员服务

30+阅读 · 2020年2月26日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

【中科院自动化所】序列到序列语音识别的无监督预训练（Unsupervised pre-training for sequence to sequence speech recognition）

专知会员服务

33+阅读 · 2020年1月5日

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

【AAAI2020-中山大学】知识图谱迁移网络小样本识别，Knowledge Graph Transfer Network for Few-Shot Recognition(附pdf）

专知会员服务

102+阅读 · 2019年11月24日

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

【CCF优秀博士学位论文奖-2019】大规模图数据处理系统的设计与实现，清华大学朱晓伟

专知会员服务

51+阅读 · 2019年11月8日

热门VIP内容

开通专知VIP会员享更多权益服务

中文版 | 美陆军C5ISR中心以反无人机技术支援边境行动

《防务领域人工智能可信赖性：为防务开发负责任、符合伦理且可信赖的AI系统》欧洲防务局2025最新107页

中文版 | 美空军探索空射“战斗机无人机”式协同作战飞机

中文版 | 俄乌战争最新动态（5月9日）

相关资讯

多伦多大学提出注意式吸引器网络，实现渐进式少量次学习

多伦多大学提出注意式吸引器网络，实现渐进式少量次学习

机器之心

5+阅读 · 2019年11月3日

【论文笔记】基于门控图网络实现图到序列学习

【论文笔记】基于门控图网络实现图到序列学习

专知

56+阅读 · 2019年10月5日

用于语音识别的数据增强

用于语音识别的数据增强

AI研习社

24+阅读 · 2019年6月5日

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

速度提升17.5倍！百度提出语音合成新模型，一个完全并行的神经TTS系统

量子位

6+阅读 · 2019年5月29日

用自注意力增强卷积：这是新老两代神经网络的对话（附实现）

用自注意力增强卷积：这是新老两代神经网络的对话（附实现）

机器之心

18+阅读 · 2019年4月26日

语音识别中的CTC算法的基本原理解释

语音识别中的CTC算法的基本原理解释

数盟

4+阅读 · 2018年6月24日

学界 | 英特尔提出新型压缩技术DeepThin，适合移动端设备深度神经网络

学界 | 英特尔提出新型压缩技术DeepThin，适合移动端设备深度神经网络

机器之心

5+阅读 · 2018年2月28日

前沿 | 简述脉冲神经网络SNN：下一代神经网络

前沿 | 简述脉冲神经网络SNN：下一代神经网络

机器之心

37+阅读 · 2018年1月13日

一文读懂语音识别史

一文读懂语音识别史

机械鸡

9+阅读 · 2017年10月16日

人工神经网络算法及其简易R实现

人工神经网络算法及其简易R实现

R语言中文社区

18+阅读 · 2017年8月5日

相关论文

Attention Forcing for Sequence-to-sequence Model Training

Attention Forcing for Sequence-to-sequence Model Training

Arxiv

7+阅读 · 2019年9月26日

Language Modeling with Deep Transformers

Arxiv

6+阅读 · 2019年7月11日

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

SpecAugment: A Simple Data Augmentation Method for Automatic Speech Recognition

Arxiv

7+阅读 · 2019年4月18日

End-to-end Speech Recognition with Word-based RNN Language Models

End-to-end Speech Recognition with Word-based RNN Language Models

Arxiv

3+阅读 · 2018年8月8日

Causal Embeddings for Recommendation

Arxiv

23+阅读 · 2018年8月3日

Multi-task Learning of Pairwise Sequence Classification Tasks Over Disparate Label Spaces

Arxiv

3+阅读 · 2018年4月9日

Deep Active Learning for Named Entity Recognition

Arxiv

15+阅读 · 2018年2月4日

Multilingual Training and Cross-lingual Adaptation on CTC-based Acoustic Model

Arxiv

7+阅读 · 2018年1月23日

State-of-the-art Speech Recognition With Sequence-to-Sequence Models

Arxiv

7+阅读 · 2018年1月18日

Deep Metric Learning with BIER: Boosting Independent Embeddings Robustly

Arxiv

18+阅读 · 2018年1月15日

大家都在搜

语言模型推理

无人机系统

OpenKG开源系列

微信扫码咨询专知VIP会员