主题: End-to-end deep neural network-based speaker and language recognition

简介: 语音信号不仅包含词汇信息,还传递说话人、语言、性别、年龄、情感等多种副语言的语音属性信息。其背后的核心技术问题是基于文本独立或文本依赖的灵活时长语音信号的话语水平监督学习。在第一部分中,我们将首先阐述说话者和语言识别的问题。在第2节中,我们介绍了传统的流程中包含不同模块的框架,即特征提取、表示、可变性补偿和后端分类。然后很自然地引入端到端思想,并与传统框架进行了比较。我们将展示特征提取和CNN层、表示和编码层、后端建模和完全连接层之间的对应关系。具体来说,我们将在这里详细介绍端到端框架中的模块,如变长数据加载器、前端卷积网络结构设计、编码(或池)层设计、损失函数设计、数据增广设计、传输学习和多任务学习等。

嘉宾介绍: 李明,男,昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座研究员。2005年获南京大学通信工程专业学士学位,2008年获中科院声学所信号与信息处理专业硕士学位,2013年毕业于美国南加州大学电子工程系,获工学博士学位。2013-2017年任教于中山大学卡内基梅隆大学联合工程学院及电子与信息工程学院,副教授,博士生导师。研究方向包括音频语音信息处理,多模态行为信号分析等多个方向。已发表学术论文80 余篇,其中SCI期刊论文19篇。曾担任多个知名学术会议的科学委员会成员(ICASSP, INTERSPEECH, ODYSSEY and ISCSLP)以及多个知名学术期刊的审稿人(IEEE TPAMI,TASLP, TIFS, CIM, TETC, TAC, SPL及Speech Communication等),担任Interspeech2016及2018说话人识别领域主席。荣获了2009年Body Computing Slam Contest 第一名,IEEE DCOSS 2009 会议最佳论文奖。指导学生获得ISCSLP2016最佳学生论文奖,于2011年和2012年连续两次获得了INTERSPEECH speaker state challenge 第一名。2016年被授予IBM Faculty Award。

成为VIP会员查看完整内容
基于端到端深度神经网络的说话人与语言识别综述.pdf
32

相关内容

李明,男,昆山杜克大学电子与计算机工程副教授,美国杜克大学电子与计算机工程系客座研究员。2005年获南京大学通信工程专业学士学位,2008年获中科院声学所信号与信息处理专业硕士学位,2013年毕业于美国南加州大学电子工程系,获工学博士学位。2013-2017年任教于中山大学卡内基梅隆大学联合工程学院及电子与信息工程学院,副教授,博士生导师。研究方向包括音频语音信息处理,多模态行为信号分析等多个方向。已发表学术论文80 余篇,其中SCI期刊论文19篇。曾担任多个知名学术会议的科学委员会成员(ICASSP, INTERSPEECH, ODYSSEY and ISCSLP)以及多个知名学术期刊的审稿人(IEEE TPAMI,TASLP, TIFS, CIM, TETC, TAC, SPL及Speech Communication等),担任Interspeech2016及2018说话人识别领域主席。荣获了2009年Body Computing Slam Contest 第一名,IEEE DCOSS 2009 会议最佳论文奖。指导学生获得ISCSLP2016最佳学生论文奖,于2011年和2012年连续两次获得了INTERSPEECH speaker state challenge 第一名。2016年被授予IBM Faculty Award。
最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
SFFAI 31 报名通知 | 情感语音识别与合成
人工智能前沿讲习班
17+阅读 · 2019年5月30日
【深度解读】陶建华:深度神经网络与语音
中国科学院自动化研究所
6+阅读 · 2018年7月9日
【AIDL专栏】陶建华:深度神经网络与语音(附PPT)
人工智能前沿讲习班
12+阅读 · 2018年7月6日
多喝点水,语音的“货”超级干
七月在线实验室
7+阅读 · 2018年1月25日
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Arxiv
7+阅读 · 2019年10月6日
Arxiv
4+阅读 · 2019年4月17日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
6+阅读 · 2018年3月27日
VIP会员
相关VIP内容
最新《生成式对抗网络》简介,25页ppt
专知会员服务
173+阅读 · 2020年6月28日
相关论文
Advances in Online Audio-Visual Meeting Transcription
Arxiv
4+阅读 · 2019年12月10日
Arxiv
7+阅读 · 2019年10月6日
Arxiv
4+阅读 · 2019年4月17日
A Comprehensive Survey on Graph Neural Networks
Arxiv
13+阅读 · 2019年3月10日
Arxiv
6+阅读 · 2018年3月27日
微信扫码咨询专知VIP会员