关注文章公众号
回复"SFFAI31论文"获取本主题精选论文
SFFAI报名通知
论坛主题
情感语音识别与合成
召集人
田正坤,中国科学院自动化研究所模式识别国家重点实验室17级博士生,目前的主要研究方向是语音识别和迁移学习。
论坛讲者
黄健,中国科学院自动化研究所模式识别国家重点实验室15级硕博生。目前研究兴趣为多模态情感识别。博士期间在ACMMM,ICASSP,Interspeech等会议上发表多篇论文。曾获中国科学院大学三好学生称号。
题目: The introduction of speech emotion recognition
摘要:语音情感识别能够使人机交互更加和谐自然,近来收到了越来越多的关注。语音情感识别系统主要分为语音情感特征提取和情感建模两个重要的部分。传统的语音情感特征主要是基于手工特征包括韵律、频谱和音质三种,传统的情感模型主要是基于SVM和HMM等方法。随着深度学习的发展,深度神经网络也被成功地应用在了语音情感识别领域,主要是利用神经网络提取更为鲁棒有效地情感特征和基于时序关系建立情感模型,而且其他领域的模型也有效地提升了语音情感识别的性能。
Spotlight:
有效地提取鲁棒的有效的情感特征;
基于时序上下文的情感建模;
自编码与CTC。
郑艺斌,中国科学院自动化研究所模式识别国家重点实验室14级直博生。目前研究兴趣为语音合成。博士期间在Interspeech, ICSP, ISCSLP等会议上发表十余篇论文。曾获博士生国家奖学金。
题目:End-to-End Speech Synthesis
摘要:如何使人机交互中机器的声音更具情感和表现力一直是一个重要的研究热点。不同于传统pipeline式的语音合成系统,端到端的语音合成方法凭借简练的模型结构,突出的性能获得了越来越多的关注,其中以WaveNet, tacotron, tacotron2等最为著名。
Spotlight:
传统语音合成方法简介;
基于注意力机制的序列模型;
神经声码器。
论文推荐
人机交互是人工智能的重要研究热点。而关于情感的研究使得人机交互变得更加有温度。情感语音识别要求从语音中准确的识别人类所具有的情感表达,有助于机器对于我们语义的理解;而情感语音合成则是为了使得机器合成的语音更加自然,更加具有温度。因此6月1日(周六),《SFFAI31期-情感语音识别与合成论坛》邀请两位出色的博士生(黄健,郑艺斌),分别从情感语音识别与合成两个维度来给带大家了解人机交互。
你可以认真阅读,来现场和讲者面对面交流哦。
推荐理由:语音情感特征对于正确的语音情感识别具有重要的作用,因此学习到鲁棒的语音情感特征具有重要的作用。以前的研究利用无监督学习自编码器学习情感特征只是基于简单的重建损失进行训练,然后抽取中间层得到情感特征。然而这样可能会混杂其它的声学信息如语言等,无法提取有效的情感特征。在本文中,将中间层特征分为两个部分,其中一个表示情感特征、另一个表示非情感特征,并使二者正交来区分二者使之学习到的特征更为趋向于情感特征,并通过实验验证了所提方法的有效性。此外,这种思想还可以推广到其它需要提取鲁棒的特征但会混有其它信息的领域。
推荐理由来自:黄健
推荐理由:先前的研究已经有许多工作利用深度神经网络提取鲁棒的语音情感特征,主要有利用无监督学习自编码器及变体进行提取和利用大量语音数据预训练的神经网络进行提取。本文基于区分性学习的思路,学习鲁棒的语音情感特征使相同情感类别的距离减小,不同情感类别的距离增大。系统的输入包括两个同类别的样本和一个不同类别的样本,经过变长模块处理为等长输入,利用长短时记忆模型进行情感时序编码,生成有效的鲁棒的情感特征向量,训练目标包括区分性损失和监督交叉熵损失两个任务。
荐理由来自:黄健
推荐理由:语音情感识别是一个低资源的任务,情感数据量较小。本文提出利用半监督自编码器来提高语音情感识别的准确率。模型的训练包括无监督重建损失和监督分类损失,并且将无情感标签的语音样本单独分为一类,使模型能够充分利用无情感标签的数据进行训练,能够减小所需的情感数据样本,在不同的实验数据库上均表明所提方法的有效性。
荐理由来自:黄健
推荐理由:语音情感识别是一个多对一的问题,以前的解决方式是通过对每帧预测结果投票或者在特征层池化的方式解决。本文假设一句话的状态两种状态的链式结构,包括情感状态和非情感状态如静音、停顿等,利用语音识别中常用的CTC模型进行语音情感建模。实验结果表明,CTC模型能够有效地识别语音情感状态,并且将一些非情感表达时刻识别未非情感状态,并取得了良好的效果。
推荐理由来自:黄健
推荐理由:这篇文章可以看做是端到端语音合成的开山之作,文章提出了一个深度圣经网络模型,直接生成原始的音频波形。
推荐理由来自:郑艺斌
推荐理由:不同于WaveNet结构,tacotron主要采用的结构为基于encoder-decoder的Seq2Seq的结构来是将文本转化为语音。其中还引入了注意机制(attention mechanism)。Tacotron在自然感(naturalness)方面优于已在生产中应用的参数系统(parametric system)。此外,由于 Tacotron 是在帧(frame)层面上生成语音,所以它比样本级自回归(sample-level autoregressive)方式快得多。
推荐理由来自:郑艺斌
推荐理由:谷歌推出了新的语音合成系统 Tacotron 2,包括一个循环序列到序列特征预测网络和一个改良的 WaveNet 模型。Tacotron 2 是在过去研究成果 Tacotron 和 WaveNet 上的进一步提升,可直接从文本中生成类人语音,相较于专业录音水准的 MOS 值 4.58,Tacotron 2 取得了 4.53 的 MOS 值。
推荐理由来自:郑艺斌
报名须知
2019年6月1日(周六)
14:00 -- 17:00
地点
中国科学院自动化所
报名方式
扫描二维码获取报名链接
活动名额/注意事项
请童鞋们添加小助手并说明:“姓名+报名SFFAI+研究方向”,可获取报名链接,因为同时添加的人数过多,请大家耐心等待。
1、为确保小范围深入交流,本次活动名额有限;
2、活动采取审核制报名,我们将根据用户研究方向与当期主题的契合度进行筛选,通过审核的用户将收到确认邮件;
3、如您无法按时到场参与活动,请于活动开始前 24 小时在AIDL微信公众号后台留言告知,留言格式为放弃报名 + 报名电话。无故缺席者,将不再享有后续活动的报名资格。
SFFAI招募召集人!
现代科学技术高度社会化,在科学理论与技术方法上更加趋向综合与统一,为了满足人工智能不同领域研究者相互交流、彼此启发的需求,我们发起了SFFAI这个公益活动。SFFAI每周举行一期线下活动,邀请一线科研人员分享、讨论人工智能各个领域的前沿思想和最新成果,使专注于各个细分领域的研究者开拓视野、触类旁通。
SFFAI自2018年9月16日举办第一期线下交流,每周一期,风雨无阻,截至目前已举办29期线下交流活动,共有56位讲者分享了他们的真知灼见,来自100多家单位的同学参与了现场交流,通过线上推文、网络直播等形式,50000+人次参与了SFFAI的活动。SFFAI已经成为人工智能学生交流的第一品牌,有一群志同道合的研究生Core-Member伙伴,有一批乐于分享的SPEAKER伙伴,还有许多认可活动价值、多次报名参加现场交流的观众。
我们邀请你一起来组织SFFAI主题论坛,加入SFFAI召集人团队。每个召集人负责1-2期SFFAI主题论坛的组织筹划,我们有一个SFFAI-CORE团队来支持你。一个人付出力所能及,创造一个一己之力不可及的自由丰盛。你带着你的思想,带着你的个性,来组织你感兴趣的SFFAI主题论坛。
当召集人有什么好处?
谁可以当召集人?
怎样才能成为召集人?
为什么要当召集人?
了解我们,加入我们,请点击下方海报!
历史文章推荐:
若您觉得此篇推文不错,麻烦点点在看↓↓