Emotion recognition is a key attribute for artificial intelligence systems that need to naturally interact with humans. However, the task definition is still an open problem due to the inherent ambiguity of emotions. In this paper, a novel Bayesian training loss based on per-utterance Dirichlet prior distributions is proposed for verbal emotion recognition, which models the uncertainty in one-hot labels created when human annotators assign the same utterance to different emotion classes. An additional metric is used to evaluate the performance by detection test utterances with high labelling uncertainty. This removes a major limitation that emotion classification systems only consider utterances with labels where the majority of annotators agree on the emotion class. Furthermore, a frequentist approach is studied to leverage the continuous-valued "soft" labels obtained by averaging the one-hot labels. We propose a two-branch model structure for emotion classification on a per-utterance basis, which achieves state-of-the-art classification results on the widely used IEMOCAP dataset. Based on this, uncertainty estimation experiments were performed. The best performance in terms of the area under the precision-recall curve when detecting utterances with high uncertainty was achieved by interpolating the Bayesian training loss with the Kullback-Leibler divergence training loss for the soft labels. The generality of the proposed approach was verified using the MSP-Podcast dataset which yielded the same pattern of results.
翻译:情感识别是需要自然与人类互动的人工智能系统的关键属性。 但是,任务定义由于情绪的内在模糊性,仍然是一个尚未解决的问题。 在本文中, 提出了一种新型的巴伊西亚培训损失, 其依据是一次低压 Drichlet 先前的分发, 以口头情感识别为根据, 其模型是当人类通知员将同样的话语分配给不同的情绪类时产生的一热标签中的不确定性。 使用另外一种衡量尺度, 通过检测测试测试表达方式评估高标签不确定性的性能。 这消除了一个重大限制, 即情绪分类系统只考虑在大多数通知员同意情绪类的标签上发表言论。 此外, 研究一种常见的方法, 来利用通过平均一热标签获得的连续价值“ 软” 标签。 我们提出了一种两层模型结构, 用于对不同情绪分类进行相同的情绪分类, 在广泛使用的 IEMOCAP 数据集中, 取得最新水平的分类结果。 基于这一限制, 进行了不确定性估计实验。 在精确度标签下, 选择以高清晰度的“ 方向” 下, 在测测算结果后, 通过测测测测测测损失后,, 测测测 测 测 测 测 测 测 测 的 测 测 测 测 测 测 测 测 测 测 的 测 测 测 测 测 测 测 测 测 测 测 测 测 测 的 测 测 测 测 测 测 测 测 测 测 测 测 测 测 测 测 测 的 测 测 测 测 测 测 测 测 测 测 的 的 的 测 测 测 测 测 测 测 的 测 测 测 测 测 测 的 测 测 测 测 测 测 测 测 测 的 的 测 测 测 测 的 的 测 测 的 测 测 测 测 测 测 测 测 的 的 测 测 测 测 测 的 测 测 测 测 测 测 测 的 的