Automatic speech recognition (ASR) is a capability which enables a program to process human speech into a written form. Recent developments in artificial intelligence (AI) have led to high-accuracy ASR systems based on deep neural networks, such as the recurrent neural network transducer (RNN-T). However, the core components and the performed operations of these approaches depart from the powerful biological counterpart, i.e., the human brain. On the other hand, the current developments in biologically-inspired ASR models, based on spiking neural networks (SNNs), lag behind in terms of accuracy and focus primarily on small scale applications. In this work, we revisit the incorporation of biologically-plausible models into deep learning and we substantially enhance their capabilities, by taking inspiration from the diverse neural and synaptic dynamics found in the brain. In particular, we introduce neural connectivity concepts emulating the axo-somatic and the axo-axonic synapses. Based on this, we propose novel deep learning units with enriched neuro-synaptic dynamics and integrate them into the RNN-T architecture. We demonstrate for the first time, that a biologically realistic implementation of a large-scale ASR model can yield competitive performance levels compared to the existing deep learning models. Specifically, we show that such an implementation bears several advantages, such as a reduced computational cost and a lower latency, which are critical for speech recognition applications.


翻译:人工智能(AI)的最近发展导致基于深神经网络的高度精密的ASR系统,这些系统以深神经网络为基础,例如经常性神经网络传输器(RNN-T)。然而,这些方法的核心组成部分和操作不同于强大的生物对口,即人的大脑。另一方面,生物激发的ASR模型的当前发展动态,以神经内脏网络为基础,在准确性方面落后于后面,主要侧重于小规模应用。在这项工作中,我们重新考虑将生物闪烁型模型纳入深层学习,我们从大脑中发现的各种神经和合成动态中得到灵感,大大增强这些方法的能力。特别是,我们引入神经连通概念,以模拟氧化性模型和氧化性低轴神经突触。基于这一点,我们提出新的深层学习单元,首先以浓缩神经同步动态为基础,主要侧重于小规模应用。我们回顾将生物闪烁式模型纳入深度学习模型,并把它们纳入现实性ANNST的大幅递增成果结构。我们展示了这种深度的学习模型,以降低现有成本和低度模型的形式展示了我们不断演化的成绩。

0
下载
关闭预览

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Arxiv
7+阅读 · 2021年10月12日
Arxiv
6+阅读 · 2020年10月8日
Neural Speech Synthesis with Transformer Network
Arxiv
5+阅读 · 2019年1月30日
Arxiv
8+阅读 · 2018年11月27日
Arxiv
3+阅读 · 2018年6月19日
VIP会员
相关VIP内容
Yoshua Bengio,使算法知道“为什么”
专知会员服务
7+阅读 · 2019年10月10日
相关资讯
ICLR2019最佳论文出炉
专知
12+阅读 · 2019年5月6日
IEEE | DSC 2019诚邀稿件 (EI检索)
Call4Papers
10+阅读 · 2019年2月25日
无监督元学习表示学习
CreateAMind
27+阅读 · 2019年1月4日
Unsupervised Learning via Meta-Learning
CreateAMind
42+阅读 · 2019年1月3日
Hierarchical Disentangled Representations
CreateAMind
4+阅读 · 2018年4月15日
【推荐】ResNet, AlexNet, VGG, Inception:各种卷积网络架构的理解
机器学习研究会
20+阅读 · 2017年12月17日
计算机视觉近一年进展综述
机器学习研究会
9+阅读 · 2017年11月25日
【推荐】图像分类必读开创性论文汇总
机器学习研究会
14+阅读 · 2017年8月15日
Sparsifying Neural Network Connections for Face Recognition
统计学习与视觉计算组
7+阅读 · 2017年6月10日
Top
微信扫码咨询专知VIP会员