Dynamic facial expression recognition (FER) databases provide important data support for affective computing and applications. However, most FER databases are annotated with several basic mutually exclusive emotional categories and contain only one modality, e.g., videos. The monotonous labels and modality cannot accurately imitate human emotions and fulfill applications in the real world. In this paper, we propose MAFW, a large-scale multi-modal compound affective database with 10,045 video-audio clips in the wild. Each clip is annotated with a compound emotional category and a couple of sentences that describe the subjects' affective behaviors in the clip. For the compound emotion annotation, each clip is categorized into one or more of the 11 widely-used emotions, i.e., anger, disgust, fear, happiness, neutral, sadness, surprise, contempt, anxiety, helplessness, and disappointment. To ensure high quality of the labels, we filter out the unreliable annotations by an Expectation Maximization (EM) algorithm, and then obtain 11 single-label emotion categories and 32 multi-label emotion categories. To the best of our knowledge, MAFW is the first in-the-wild multi-modal database annotated with compound emotion annotations and emotion-related captions. Additionally, we also propose a novel Transformer-based expression snippet feature learning method to recognize the compound emotions leveraging the expression-change relations among different emotions and modalities. Extensive experiments on MAFW database show the advantages of the proposed method over other state-of-the-art methods for both uni- and multi-modal FER. Our MAFW database is publicly available from https://mafw-database.github.io/MAFW.
翻译:动态面部识别( FER) 数据库为情感计算和应用提供重要的数据支持。 然而, 大部分 FER 数据库都是附加说明的, 包含一些基本的相互排斥的情感类别, 并且只包含一种模式, 例如视频。 单调标签和模式无法准确地模仿人类情绪, 并在现实世界中实现应用。 在本文中, 我们提议 MAFW 是一个大型多模式复合感官数据库, 野外有10 045个视频剪辑。 每个剪辑都配有一组复合情感类别和几句话, 描述剪辑中的对象的感官行为。 对于复合情感描述, 每个剪辑都分类为一种或多种模式, 例如, 愤怒、 厌恶、 恐惧、 快乐、 中立、 悲伤、 惊喜、 悲伤、 无助和失望。 为了确保标签质量, 我们通过期待最大化算法过滤不可靠的说明。 然后获得11个单标签情感类别和32个多标签情感类别。 对于我们的知识而言, MAFW 数据库是一个最高级的情感- 和多面性分析模式, 也展示一个与我们最新的变现的货币- 结构- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 的模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 模型- 与我们的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 和模型- 的模型- 的模型- 和结构- 和结构- 和结构- 的模型- 的模型- 的模型- 的模型- 和结构- 和结构- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 的模型- 和结构- 和结构- 和结构- 和结构- 的模型- 的模型- 和结构- 的模型- 的模型- 的模型- 的模型- 和结构- 的模型- 的模型- 的模型- 和结构-