【文献综述】基于端到端深度神经网络的说话人与语言识别综述, 163页ppt,昆山杜克大学李明博士

主题： End-to-end deep neural network-based speaker and language recognition

简介： 语音信号不仅包含词汇信息，还传递说话人、语言、性别、年龄、情感等多种副语言的语音属性信息。其背后的核心技术问题是基于文本独立或文本依赖的灵活时长语音信号的话语水平监督学习。在第一部分中，我们将首先阐述说话者和语言识别的问题。在第2节中，我们介绍了传统的流程中包含不同模块的框架，即特征提取、表示、可变性补偿和后端分类。然后很自然地引入端到端思想，并与传统框架进行了比较。我们将展示特征提取和CNN层、表示和编码层、后端建模和完全连接层之间的对应关系。具体来说，我们将在这里详细介绍端到端框架中的模块，如变长数据加载器、前端卷积网络结构设计、编码(或池)层设计、损失函数设计、数据增广设计、传输学习和多任务学习等。

嘉宾介绍： 李明，男，昆山杜克大学电子与计算机工程副教授，美国杜克大学电子与计算机工程系客座研究员。2005年获南京大学通信工程专业学士学位，2008年获中科院声学所信号与信息处理专业硕士学位，2013年毕业于美国南加州大学电子工程系，获工学博士学位。2013-2017年任教于中山大学卡内基梅隆大学联合工程学院及电子与信息工程学院，副教授，博士生导师。研究方向包括音频语音信息处理，多模态行为信号分析等多个方向。已发表学术论文80 余篇，其中SCI期刊论文19篇。曾担任多个知名学术会议的科学委员会成员（ICASSP, INTERSPEECH, ODYSSEY and ISCSLP）以及多个知名学术期刊的审稿人（IEEE TPAMI，TASLP, TIFS, CIM, TETC, TAC, SPL及Speech Communication等），担任Interspeech2016及2018说话人识别领域主席。荣获了2009年Body Computing Slam Contest 第一名，IEEE DCOSS 2009 会议最佳论文奖。指导学生获得ISCSLP2016最佳学生论文奖，于2011年和2012年连续两次获得了INTERSPEECH speaker state challenge 第一名。2016年被授予IBM Faculty Award。

成为VIP会员查看完整内容

基于端到端深度神经网络的说话人与语言识别综述.pdf

相关内容

李明_昆山杜克大学

关注 0

李明，男，昆山杜克大学电子与计算机工程副教授，美国杜克大学电子与计算机工程系客座研究员。2005年获南京大学通信工程专业学士学位，2008年获中科院声学所信号与信息处理专业硕士学位，2013年毕业于美国南加州大学电子工程系，获工学博士学位。2013-2017年任教于中山大学卡内基梅隆大学联合工程学院及电子与信息工程学院，副教授，博士生导师。研究方向包括音频语音信息处理，多模态行为信号分析等多个方向。已发表学术论文80 余篇，其中SCI期刊论文19篇。曾担任多个知名学术会议的科学委员会成员（ICASSP, INTERSPEECH, ODYSSEY and ISCSLP）以及多个知名学术期刊的审稿人（IEEE TPAMI，TASLP, TIFS, CIM, TETC, TAC, SPL及Speech Communication等），担任Interspeech2016及2018说话人识别领域主席。荣获了2009年Body Computing Slam Contest 第一名，IEEE DCOSS 2009 会议最佳论文奖。指导学生获得ISCSLP2016最佳学生论文奖，于2011年和2012年连续两次获得了INTERSPEECH speaker state challenge 第一名。2016年被授予IBM Faculty Award。

最新《生成式对抗网络》简介，25页ppt

专知会员服务

176+阅读 · 2020年6月28日

慕尼黑大学LMU博士论文：自然语言文本神经网络信息提取，240页pdf

专知会员服务

74+阅读 · 2020年1月13日

语音处理中的深度表示学习综述论文:挑战、最新进展和未来趋势，25页pdf

专知会员服务

32+阅读 · 2020年1月2日

【CCL 2019】机器翻译前沿综述，中国科学院计算技术研究所冯洋博士

专知会员服务

43+阅读 · 2019年11月12日