入门声纹技术（二）：声纹分割聚类与其他应用（附赠书）

2020 年 10 月 20 日 机器之心

机动组声纹技术系列分享第2期

声纹识别技术是声纹技术中最为核心的一项，和指纹识别、人脸识别一样，声纹识别也是生物特征识别技术的一种，该技术利用算法和神经网络模型，让机器能够从音频信号中识别出不同人说话的声音。

在10月19日的分享中，谷歌声纹识别与语言识别团队负责人王泉老师着重介绍了声纹识别技术以及相关的音频基础知识，并详细阐述深度学习时代最前沿的声纹识别模型，包括各种推理逻辑和损失函数的设计思路，以及数据处理方面的相关话题。第一讲回顾：入门声纹技术（一）：音频基础与声纹识别。

但是许多人误以为声纹技术等价于声纹识别，却不知道声纹技术还有着许多十分重要且有趣的其他应用。所以在「从算法到应用，入门声纹技术」系列分享的第二讲中，王泉老师将着重介绍声纹技术除声纹识别之外的其他应用，声纹分割聚类便是其中最具代表性的应用，也就是关于「谁在什么时间说了什么」这个问题的答案。

10月26日，第二期分享

声纹分割聚类与其他应用

分享主题：声纹分割聚类与其他应用

分享嘉宾：王泉，美国谷歌公司资深软件工程师、声纹识别与语言识别团队负责人，《声纹技术：从核心算法到工程实践》一书作者。在谷歌任职期间，作者带领其团队将先进的声纹技术部署到了大量产品中，使得谷歌智能音箱成为市面上第一款支持多用户模式的同类产品。此外，作者在声纹识别、声纹分割聚类、人声分离、语音检测、语言识别以及语音合成等诸多领域拥有大量专利，发表过多篇重量级论文。机器之心此前有多篇报道所涉及的工作都来自其团队及合作者。

分享概要：第二期分享先介绍经典的非监督式声纹分割聚类方法，包括K-均值聚类和谱聚类等，再介绍目前新兴的监督式声纹分割聚类方法。此外，我们还将介绍声纹技术如何完成个性化的语音识别、语音检测，如何实现声纹克隆和人声分离等「黑魔法」，以及如何被作为一种还原度测试。

直播时间：10月26日 20:00—21:00

直播环节：主题讲解+QA

直播赠书：我们将在直播过程中，从所有在直播间弹幕提问题的小伙伴中抽取10人，送出《声纹技术：从核心算法到工程实践》。本次直播中的赠书由博文视点提供。

加入机动组，一起看直播

「机动组」是机器之心发起的人工智能技术社区，将持续提供技术公开课、论文分享、热门主题解读等线上线下活动，并在社群中提供每日精选论文与教程、智能技术研究周报，同时「机动组」也将不定期组织人才服务、产业技术对接等活动，欢迎所有AI领域技术从业者加入。

添加机器之心小助手（syncedai5），备注「声纹」，加入本次直播群。

ps：如果小助手无法添加，请将「微信ID」发送邮件到dujiahao@jiqizhixn.com，我们将与你联系，邀你入群。

特别鸣谢

博文视点( Broadview )是电子工业出版社下属旗舰级子公司。在IT出版领域打磨多年，以敏锐眼光、独特视角密切关注技术发展趋势及变化，致力于将技术大师之优秀思想、一线专家之一流经验集结成书，为众多爱学习的小伙伴奉献精诚佳作，助力个人、团队成长。

登录查看更多

相关内容

声纹识别

关注 444

说话人识别（Speaker Recognition），或者称为声纹识别（Voiceprint Recognition, VPR），是根据语音中所包含的说话人个性信息，利用计算机以及现在的信息识别技术，自动鉴别说话人身份的一种生物特征识别技术。说话人识别研究的目的就是从语音中提取具有说话人表征性的特征，建立有效的模型和系统，实现自动精准的说话人鉴别。

【干货书】Linux命令行与shell脚本编程大全，第3版818页pdf

专知会员服务

62+阅读 · 2020年12月30日

自动图像标注技术综述(中文版)，27页pdf

专知会员服务

39+阅读 · 2020年12月14日

【经典】谷歌《机器学习43条规则》，22页pdf，解密谷歌机器学习工程最佳实践

专知会员服务

43+阅读 · 2020年11月23日

【经典书】统计学，806页pdf，解锁数据的力量

专知会员服务

82+阅读 · 2020年8月12日