Interspeech 2019 | 基于多模态对齐的语音情感识别

会员服务 ·

Interspeech 2019 | 基于多模态对齐的语音情感识别

2019 年 9 月 21 日 AI科技评论

本文来自公众号滴滴科技合作，AI科技评论获授权转载，如需转载请联系原公众号。

Interspeech 2019

Interspeech 2019现场

作者 | 滴滴AI Labs
编辑 | 唐里

语音领域顶级学术会议 Interspeech于2019年9月15-19日在奥地利格拉茨举行。

在 Interspeech 会议期间，来自全球学术界和产业界的研究人员齐聚一堂，讨论语音领域的新技术，包括语音合成、语音识别、说话人识别等细分领域。在会议上展示的研究成果代表着语音相关领域的最新研究水平和未来的发展趋势。

本次会议共吸引2180篇论文投递，其中75%来自学界，22%来自工业界。

论文地址：https://arxiv.org/abs/1909.05645

语音情感识别是一个非常具有挑战性的问题，因为人们总是以微妙和复杂的方式传达情感。对于语音情感识别，当前的方法主要包括：1）直接通过语音信号特征；2）通过语音识别的文本特征；3）融合音频-文本的多模态特征。当前的方法忽视了音频和识别文本在时序空间的交互。

在本篇论文中，滴滴提出基于多模态对齐的语音情感识别的模型。在语音情感识别的公开数据集IEMOCAP取得了当前最好的性能。

基于多模态的语音情感识别的方法可以用于智能客服（如客服质检，机器人客服互动式语音应答），其中机器人客服质检主要是根据语音和识别文本对客服和用户的情绪进行分析，辅助质检，机器人客服互动式语音应答主要是根据语音和识别文本对进线用户的情绪进行分析，合理应答。

模型

本文提出的多模态对齐的语音情感识别的模型，主要包括语音的编码器模块，语音识别文本的编码器模块，以及基于注意力机制的多模态融合网络模块，具体的模型结构图如上图。

语音的编码器模块

我们首先获取语音的低维度的基于帧的MFCC特征，然后用BiLSTM对音频基于帧进行高维特征表示。

语音识别文本的编码器模块

我们首先预训练（Pretraining）来获取单词的词向量（Word Embedding）表示，然后用BiLSTM对ASR识别文本基于单词进行高维特征表示。

基于注意力机制的多模态融合网络模块

我们利用Attention机制动态学出每个单词文本特征的权重和每帧语音的特征，然后加权求和得到每个单词的语音对齐的特征，接着我们将对齐的特征和文本的特征拼接并用BiLSTM来做特征的融合，最后我们用最大池化层和全连接层进行情感分类。

实验

论文在语音情感识别的公开数据集IEMOCAP评测了模型。IEMOCAP数据集是由10个演员录制，对话主要包括10个情感。论文与之前的方法保持一致使用了主要的4个情感（生气，开心，中性，伤心）。

在实验中，论文选择 1）直接通过语音信号特征 2）通过语音识别的文本特征 3）融合音频-文本的多模态特征这三类方法的对比，通过上图（Table 1），可以看出本论文的模型在加权精确度（WA）和非加权精确度（UA）评价指标都有显著提高，证明了学习音频和文本对齐信息的多模学习方法的有效性。