谷歌开源 AI 可在嘈杂环境中区分声音,准确率达92%

2018 年 11 月 14 日 开源中国



据 VentureBeat 报道,Google 人工智能研究部门在语音识别方面取得了新的进展,能从嘈杂的环境中分辨声音,准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中描述了这一新的 AI 系统,称它“能以一种更有效的方式识别声音”。


这套强大的 AI 系统涉及到 Speaker diarization 任务,需要标注出“谁”从“什么时候”到“什么时候”在说话,将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。



其核心算法已经开源可用。它实现了一个在线二值化错误率(DER),在NIST SRE 2000 CALLHOME基准上是7.6%,这对于实时应用来说已经足够低了,而谷歌之前使用的方法DER为8.8%。


谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示),递归神经网络是一种机器学习模型,它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始,该实例不断更新给定新嵌入的RNN状态,使系统能够学习发言者共享的高级知识。



研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习,所以在有高质量时间标记演讲者标签训练数据的情况下,它比无监督系统更受青睐。我们的系统受到全面监督,能够从带有时间戳的演讲者标签例子中学习。”


在未来的工作中,研究团队计划改进模型,使其能够集成上下文信息来执行脱机解码,他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模,这样整个Speaker diarization系统就可以进行端到端训练。


来自:网易科技

链接:

http://tech.163.com/18/1113/11/E0G6J5HI00097U7T.html


项目的源码地址可以从这里获取:



开源中国征稿开始啦!


开源中国 www.oschina.net 是目前备受关注、具有强大影响力的开源技术社区,拥有超过 200 万的开源技术精英。我们传播开源的理念,推广开源项目,为 IT 开发者提供一个发现、使用、并交流开源技术的平台。


现在我们开始对外征稿啦!如果你有优秀的技术文章想要分享,热点的行业资讯需要报道等等,欢迎联系开源中国进行投稿。投稿详情及联系方式请参见:我要投稿





推荐阅读

三星宣布 Linux on DeX:手机秒变 Ubuntu 桌面环境

类 XP 系统 ReactOS 0.4.10 正式发布,更稳定更漂亮

我该用 Java12 还是坚持 Java11?

运维主管离职后倒卖代码,非法获利 800 万被抓

国内 Golang 开发有没有 qian 途?爬了些数据告诉你

更多详情请查看阅读原文↓↓↓↓↓

登录查看更多
5

相关内容

【Amazon】使用预先训练的Transformer模型进行数据增强
专知会员服务
56+阅读 · 2020年3月6日
专知会员服务
235+阅读 · 2020年1月23日
已删除
将门创投
5+阅读 · 2018年11月15日
快讯 | Facebook开源语音识别工具包wav2letter
大数据文摘
6+阅读 · 2018年1月2日
Mozilla发布开源语音数据库和语音识别模型
Python程序员
3+阅读 · 2017年12月1日
开源 | 基于Python的人脸识别:识别准确率高达99.38%!
全球人工智能
4+阅读 · 2017年7月29日
Arxiv
6+阅读 · 2020年4月14日
Arxiv
12+阅读 · 2018年9月5日
Arxiv
6+阅读 · 2018年6月21日
VIP会员
Top
微信扫码咨询专知VIP会员