百度新研究:神经传感器进行端对端语音识别(paper)

2017 年 7 月 26 日 机械鸡 雷特


概述


在这项研究中,我们对CTC、RNN传感器和基于注意力的Seq2Seq模型进行了端对端语音识别的实证比较。没有任何语言模型,Seq2Seq和RNN-传感器模型在流行的Hub5'00基准上都优于使用语言模型的最佳报告CTC模型。


在我们内部不同的数据集中,这些趋势仍然保持着 - RBON传感器模型在波束搜索之后用语言模型重新获得胜过我们最好的CTC模型。这些结果简化了语音识别流水线,使得现在可以纯粹地将解码视为神经网络操作。我们还研究了编码器架构的选择如何影响三个模型的性能 - 当所有编码器层仅向前时,编码器对输入表示进行了大幅度取样。


神经语音传感器


语音传感器通常由编码器组成。(也称为声学模型),它可以转换声音。高层次表示和解码器的输入,我们专注于vanilla seq2seq模型,虽然在执行局部单调注意方面也有一些努力。



扩展性能


在本节中,我们对模型的性能进行了比较。涉及到公开基准以及我们自己的内部数据集。ASR的端到端模型的承诺是简化语言训练与推理管道系统。端到端CTC模型只简化了训练过程,但推理仍然涉及大规模解码。



编码器体系结构的影响


在本节中,我们使用标准的华尔街日报数据集来理解模型,执行不同的编码选择。由于编码器层远离损失函数,我们正在评估,期望一个编码器工作正常。


然而,不同的训练目标只允许不同类型的编码器:特别是:1)数量下采样的编码器是影响的重要因素,既训练模型时间,又提高精度(2)只有前向层的编码器对于流解码许可,我们也探讨了这方面的问题。我们相信这些结果可以更小更均匀了。数据集仍应保持在规模上,因此应侧重于趋势而不是优化。




paper:https://arxiv.org/pdf/1707.07413.pdf


★推荐阅读

重磅 ‖ 一篇文章畅行自动驾驶,全维度资源合集

深度 || 阿里巴巴的无人超市与人工智能战略

李飞飞入选2017ELLE女性科技之星

重磅 ‖ DeepMind让AI更有想象力(paper)

斯坦福大学研究人员开发出4D相机技术

该技术可用于机器人、无人机、自动驾驶(paper)

吴恩达新成果:机器学习模型能比医生更精确诊断心律失常


加入「AI从业者社群」请备注个人信息,添加小鸡微信  liulailiuwang


登录查看更多
1

相关内容

语音识别是计算机科学和计算语言学的一个跨学科子领域,它发展了一些方法和技术,使计算机可以将口语识别和翻译成文本。 它也被称为自动语音识别(ASR),计算机语音识别或语音转文本(STT)。它整合了计算机科学,语言学和计算机工程领域的知识和研究。
【中科院信工所】视听觉深度伪造检测技术研究综述
专知会员服务
40+阅读 · 2020年4月15日
专知会员服务
199+阅读 · 2020年3月6日
2019->2020必看的十篇「深度学习领域综述」论文
专知会员服务
270+阅读 · 2020年1月1日
深度神经网络模型压缩与加速综述
专知会员服务
128+阅读 · 2019年10月12日
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
机器听觉:一、AI在音频处理上的潜力
论智
5+阅读 · 2018年11月25日
猿桌会 | 语音识别技术分享
AI研习社
5+阅读 · 2018年11月14日
用于神经网络机器翻译的全并行文本生成
无人驾驶免费、人脸识别免费、语音识别免费…百度要干啥?
人工智能机器人联盟
4+阅读 · 2017年12月15日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
端对端的深度卷积神经网络在语音识别中的应用
深度学习每日摘要
6+阅读 · 2017年7月18日
Generative Adversarial Networks: A Survey and Taxonomy
Arxiv
6+阅读 · 2018年3月27日
VIP会员
相关资讯
用于语音识别的数据增强
AI研习社
24+阅读 · 2019年6月5日
最新《生成式对抗网络GAN进展》论文
专知
95+阅读 · 2019年4月5日
机器听觉:一、AI在音频处理上的潜力
论智
5+阅读 · 2018年11月25日
猿桌会 | 语音识别技术分享
AI研习社
5+阅读 · 2018年11月14日
用于神经网络机器翻译的全并行文本生成
无人驾驶免费、人脸识别免费、语音识别免费…百度要干啥?
人工智能机器人联盟
4+阅读 · 2017年12月15日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
端对端的深度卷积神经网络在语音识别中的应用
深度学习每日摘要
6+阅读 · 2017年7月18日
Top
微信扫码咨询专知VIP会员