谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92% - 专知

会员服务 ·

0

谷歌开源 AI 可在嘈杂环境中区分声音，准确率达92%

2018 年 11 月 14 日 开源中国

据 VentureBeat 报道，Google 人工智能研究部门在语音识别方面取得了新的进展，能从嘈杂的环境中分辨声音，准确率高达 92%。Google 人工智能研究部门在一篇名为《Fully Super vised Speaker Diarization》的论文中描述了这一新的 AI 系统，称它“能以一种更有效的方式识别声音”。

这套强大的 AI 系统涉及到 Speaker diarization 任务，需要标注出“谁”从“什么时候”到“什么时候”在说话，将语音样本分割成独特的、同构片段的过程。还能将新的演讲者发音与它以前从未遇到过的语音片段关联起来。

其核心算法已经开源可用。它实现了一个在线二值化错误率(DER)，在NIST SRE 2000 CALLHOME基准上是7.6%，这对于实时应用来说已经足够低了，而谷歌之前使用的方法DER为8.8%。

谷歌研究人员的新方法是通过递归神经网络(RNN)模拟演讲者的嵌入(如词汇和短语的数学表示），递归神经网络是一种机器学习模型，它可以利用内部状态来处理输入序列。每个演讲者都从自己的RNN实例开始，该实例不断更新给定新嵌入的RNN状态，使系统能够学习发言者共享的高级知识。

研究人员在论文中写道:“由于该系统的所有组件都可以在监督环境下学习，所以在有高质量时间标记演讲者标签训练数据的情况下，它比无监督系统更受青睐。我们的系统受到全面监督，能够从带有时间戳的演讲者标签例子中学习。”

在未来的工作中，研究团队计划改进模型，使其能够集成上下文信息来执行脱机解码，他们希望这将进一步减少DER。研究人员还希望能够直接对声学特征进行建模，这样整个Speaker diarization系统就可以进行端到端训练。

来自：网易科技

链接：

http://tech.163.com/18/1113/11/E0G6J5HI00097U7T.html

项目的源码地址可以从这里获取：

开源中国征稿开始啦！

开源中国 www.oschina.net 是目前备受关注、具有强大影响力的开源技术社区，拥有超过 200 万的开源技术精英。我们传播开源的理念，推广开源项目，为 IT 开发者提供一个发现、使用、并交流开源技术的平台。

现在我们开始对外征稿啦！如果你有优秀的技术文章想要分享，热点的行业资讯需要报道等等，欢迎联系开源中国进行投稿。投稿详情及联系方式请参见：我要投稿

推荐阅读

三星宣布 Linux on DeX：手机秒变 Ubuntu 桌面环境

类 XP 系统 ReactOS 0.4.10 正式发布，更稳定更漂亮

我该用 Java12 还是坚持 Java11？

运维主管离职后倒卖代码，非法获利 800 万被抓

国内 Golang 开发有没有 qian 途？爬了些数据告诉你

更多详情请查看阅读原文↓↓↓↓↓

登录查看更多

5

相关内容

准确率

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

专知会员服务

36+阅读 · 2020年3月28日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

AI科技评论

7+阅读 · 2019年8月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

已删除

将门创投

5+阅读 · 2018年11月15日

快讯 | Facebook开源语音识别工具包wav2letter

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

Arxiv

59+阅读 · 2020年1月20日

Multi-Temporal Aerial Image Registration Using Semantic Features

Multi-Temporal Aerial Image Registration Using Semantic Features

Arxiv

3+阅读 · 2019年9月19日

A Comparative Study on Transformer vs RNN in Speech Applications

A Comparative Study on Transformer vs RNN in Speech Applications

Arxiv

4+阅读 · 2019年9月13日

Learning Instance Segmentation by Interaction

Arxiv

6+阅读 · 2018年6月21日

High-quality nonparallel voice conversion based on cycle-consistent adversarial network

Arxiv

4+阅读 · 2018年4月2日

VIP会员

相关主题

递归神经网络

相关VIP内容

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

【IJCAI2020-Facebook】利用弱标记数据对声音进行大规模的视听学习

专知会员服务

19+阅读 · 2020年6月3日

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

【CVPR2020-牛津-谷歌】语音到动作:动作识别的跨模态监督，Cross-modal Supervision

专知会员服务

24+阅读 · 2020年3月31日

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

【MIT-Google】反思小样本图像分类:一个好的嵌入是你所需要的全部?

专知会员服务

36+阅读 · 2020年3月28日

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

【康奈尔大学-Facebook】特征归一化与数据增强，Feature Normalization

专知会员服务

57+阅读 · 2020年3月9日

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

【上海交大-ICASSP2020】Transformer端到端的多说话人语音识别

专知会员服务

51+阅读 · 2020年2月16日

热门VIP内容

开通专知VIP会员享更多权益服务

《利用人工智能改善军事警察行动：当下现状探索》最新95页报告

《用于适应性、任务就绪型军用仿生机器人的合成数据管道》

面向现代武装力量的高级AI驱动军事模拟与训练软件

《军事应用中的AI：建立信任》最新报告

相关资讯

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

谷歌再获语音识别新进展：利用序列转导来实现多人语音识别和说话人分类

AI科技评论

7+阅读 · 2019年8月24日

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

性能超越经典ASR模型！谷歌重磅推出全新语音识别数据增强方法

AI前线

10+阅读 · 2019年4月28日

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

业界 | 谷歌用新的语音数据扩增技术大幅提升语音识别准确率

AI研习社

6+阅读 · 2019年4月24日

已删除

将门创投

5+阅读 · 2018年11月15日

快讯 | Facebook开源语音识别工具包wav2letter

快讯 | Facebook开源语音识别工具包wav2letter

大数据文摘

6+阅读 · 2018年1月2日

相关论文

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

A Review on Generative Adversarial Networks: Algorithms, Theory, and Applications

Arxiv

59+阅读 · 2020年1月20日

Multi-Temporal Aerial Image Registration Using Semantic Features

Multi-Temporal Aerial Image Registration Using Semantic Features

Arxiv

3+阅读 · 2019年9月19日

A Comparative Study on Transformer vs RNN in Speech Applications

A Comparative Study on Transformer vs RNN in Speech Applications

Arxiv

4+阅读 · 2019年9月13日

Learning Instance Segmentation by Interaction

Arxiv

6+阅读 · 2018年6月21日

High-quality nonparallel voice conversion based on cycle-consistent adversarial network

Arxiv

4+阅读 · 2018年4月2日

大家都在搜

大型语言模型

分布式事务

蓝牙安全攻防

军工复合体

对话拼多多创始人黄峥

微信扫码咨询专知VIP会员