入门声纹技术(二):声纹分割聚类与其他应用(附赠书)

2020 年 10 月 20 日 机器之心

机动组声纹技术系列分享第2期


声纹识别技术是声纹技术中最为核心的一项,和指纹识别、人脸识别一样,声纹识别也是生物特征识别技术的一种,该技术利用算法和神经网络模型,让机器能够从音频信号中识别出不同人说话的声音。

在10月19日的分享中,谷歌声纹识别与语言识别团队负责人王泉老师着重介绍了声纹识别技术以及相关的音频基础知识,并详细阐述深度学习时代最前沿的声纹识别模型,包括各种推理逻辑和损失函数的设计思路,以及数据处理方面的相关话题。第一讲回顾: 入门声纹技术(一):音频基础与声纹识别

但是许多人误以为声纹技术等价于声纹识别,却不知道声纹技术还有着许多十分重要且有趣的其他应用。所以在「从算法到应用,入门声纹技术」系列分享的第二讲中,王泉老师将着重介绍声纹技术除声纹识别之外的其他应用,声纹分割聚类便是其中最具代表性的应用,也就是关于「谁在什么时间说了什么」这个问题的答案。


10月26日,第二期分享

声纹分割聚类与其他应用



分享主题:声纹分割聚类与其他应用


分享嘉宾:王泉,美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人,《声纹技术:从核心算法到工程实践》一书作者。在谷歌任职期间,作者带领其团队将先进的声纹技术部署到了大量产品中,使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外,作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别以及语音合成等诸多领域拥有大量专利,发表过多篇重量级论文。机器之心此前有多篇报道所涉及的工作都来自其团队及合作者。


分享概要:第二期分享先介绍经典的非监督式声纹分割聚类方法,包括K-均值聚类和谱聚类等,再介绍目前新兴的监督式声纹分割聚类方法。此外,我们还将介绍声纹技术如何完成个性化的语音识别、语音检测,如何实现声纹克隆和人声分离等「黑魔法」,以及如何被作为一种还原度测试。


直播时间:10月26日 20:00—21:00 

直播环节:主题讲解+QA

直播赠书:我们将在直播过程中,
从所有在直播间弹幕提问题的小伙伴中抽取10,送出《声纹技术:从核心算法到工程实践》。本次直播中的赠书由博文视点提供。




加入机动组,一起看直播

「机动组」是机器之心发起的人工智能技术社区,将持续提供 技术公开课、论文分享、热门主题解读 等线上线下活动,并在社群中提供 每日精选论文与教程、智能技术研究周报 ,同时「机动组」也将不定期组织 人才服务、产业技术对接 等活动,欢迎所有AI领域技术从业者加入。
添加机器之心小助手(syncedai5),备注「声纹」,加入本次直播群。

ps:如果小助手无法添加,请将「微信ID」发送邮件到dujiahao@jiqizhixn.com,我们将与你联系,邀你入群。


特别鸣谢

博文视点( Broadview )是电子工业出版社下属旗舰级子公司。在IT出版领域打磨多年,以敏锐眼光、独特视角密切关注技术发展趋势及变化,致力于将技术大师之优秀思想、一线专家之一流经验集结成书,为众多爱学习的小伙伴奉献精诚佳作,助力个人、团队成长。
登录查看更多
3

相关内容

说话人识别(Speaker Recognition),或者称为声纹识别(Voiceprint Recognition, VPR),是根据语音中所包含的说话人个性信息,利用计算机以及现在的信息识别技术,自动鉴别说话人身份的一种生物特征识别技术。 说话人识别研究的目的就是从语音中提取具有说话人表征性的特征,建立有 效的模型和系统,实现自动精准的说话人鉴别。
【干货书】Linux命令行与shell脚本编程大全,第3版818页pdf
专知会员服务
61+阅读 · 2020年12月30日
专知会员服务
36+阅读 · 2020年12月14日
【经典书】统计学,806页pdf,解锁数据的力量
专知会员服务
79+阅读 · 2020年8月12日
【干货书】高级应用深度学习,294页pdf
专知会员服务
151+阅读 · 2020年6月20日
语音信号处理:基本方法与前沿技术
AINLP
10+阅读 · 2020年10月14日
一文读懂语音识别史
机械鸡
9+阅读 · 2017年10月16日
一文详解聚类和降维(附实例、代码)
数据派THU
7+阅读 · 2017年9月3日
Arxiv
0+阅读 · 2021年1月30日
Arxiv
8+阅读 · 2018年11月27日
Implicit Maximum Likelihood Estimation
Arxiv
7+阅读 · 2018年9月24日
VIP会员
Top
微信扫码咨询专知VIP会员