情感在感知、决策、逻辑推理和社交等一系列智能活动中起到核心作用,是实现人机交互和机器智能的 重要元素。 近年来,随着多媒体数据爆发式增长及人工智能的快速发展,情感计算与理解引发了广泛关注。 情感 计算与理解旨在赋予计算机系统识别、理解、表达和适应人的情感的能力来建立和谐人机环境,并使计算机具有更 高、更全面的智能。 根据输入信号的不同,情感计算与理解包含不同的研究方向。 本文全面回顾了多模态情感识 别、孤独症情感识别、情感图像内容分析以及面部表情识别等不同情感计算与理解方向在过去几十年的研究进展 并对未来的发展趋势进行展望。 对于每个研究方向,首先介绍了研究背景、问题定义和研究意义;其次从不同角度 分别介绍了国际和国内研究现状,包括情感数据标注、特征提取、学习算法、部分代表性方法的性能比较和分析以 及代表性研究团队等;然后对国内外研究进行了系统比较,分析了国内研究的优势和不足;最后讨论了目前研究存 在的问题及未来的发展趋势与展望,例如考虑个体情感表达差异问题和用户隐私问题等。
情感(emotion) 一词源于希腊文“pathos”,最早 用来表达人们对悲剧的感伤之情。 情感在感知、决 策、逻辑推理和社交等一系列智能活动中起到核心 作用,甚至有研究显示“人类交流中 80% 的信息都 是情感性的信息”。 由于情感在人类信息沟通中的 重大意义,情感计算是实现人机交互过程必不可少 的部分,也是让机器具有智能的重要突破口。 情感 计算的概念由美国麻省理工学院媒体实验室 Picard 教授提出, 并于 1997 年正式出版书籍 《 Affective Computing(情感计算)》。 在书中,Picard 教授指出 “情感计算是与情感相关,来源于情感或能够对情 感施加影响的计算”,开辟了情感计算研究的先河。 情感计算与理解旨在赋予计算机系统识别、理解、表 达和适应人的情感的能力来建立和谐人机环境,并 使计算机具有更高、更全面的智能。 根据输入信号的不同,情感计算与理解包含不同的研究方向。 更好的并行计算效率和更好的建模远距离特征优 势。 多模态情感识别的研究可以进一步提升人们 的生活质量。 在舆情分析方面,可以分析用户对 新冠疫情等事件的情感倾向;在商业智能方面,可 以分析用户对于商品的满意度,设计引起用户积 极情感的广告;在健康方面,可以分析驾车、上课 等状态下的情感程度,针对性地给出警示,提高工 作效率。
孤独 症 谱 系 障 碍 ( autism spectrum disorder, ASD),又称自闭症,是儿童时期最常见的神经发育 障碍疾病之一,其临床表现主要为社交沟通障碍、刻 板行为和兴趣狭隘(Centers for Disease Control and Prevention,2016)。 根据美国疾病控制与预防中心 (Centers for Disease Control and Prevention, CDC) 2021 年的调查报告,孤独症儿童患病率从 2005 年 的 1 / 166 增长到了目前的 1 / 44,且呈现逐年增加的 趋势。 《中国自闭症教育康复行业发展状况报告 Ⅲ》指出,中国孤独症发病率约有 1% ,目前已约有 超 1 000 万孤独症谱系障碍人群,其中 12 岁以下的 儿童达 200 多万,而且孤独症儿童的数量每年以接 近 20 万的数字递增。 孤独症会严重影响患儿的日 常生活,并给家庭和社会带来巨大的花销,据美国报 道,孤独症儿童终身花销大约为 200 万美元到 240 万美元。 目前,孤独症尚无特效治疗方法,主要以早 期诊断、干预为主。 然而,目前孤独症早期行为干预 大多依赖于临床医师和专业人员通过行为学观察并 制定相应的干预方案,这种诊疗模式以临床医师和 临床专业人员为主导,其耗时较长,非常不利于该病 的治疗。 美国早在 1943 年就对孤独症有了第 1 次 确诊,但在中国,直到 1982 年陶国泰教授才确诊了 我国第 1 例孤独症,经过几十年的发展,我国孤独症 临床和基础研究取得了一定的进步。 但迄今为止, 我国孤独症诊疗仍面临诸多困难:专业诊疗队伍缺 乏、无基于国情行业标准和诊疗指南等。 社交沟通 障碍是自闭症的核心症状之一,主要体现在社交情 境中患儿情感功能失调。 根据《国际功能、残疾和 健康分类(儿童和青少年版) 》 ,孤独症患儿的社交 情感功能可以界定为两大方面:情感识别与理解 以及情感调节与表达。 孤独症社交情感分析可为 孤独症临床康复提供新的技术手段和科学方法, 也为揭示孤独症病理机制奠定了基础。
Minsky(1970 年图灵奖获得者) 曾指出,“问题 不在于智能机器是否会有情感,而是没有情感的机 器能否智能” (Minsky,1986)。 情感在机器和人工 智能领域起到至关重要的作用,能够影响人们的判 断与决策。 随着移动相机和社交平台的广泛普及, 人们习惯于用图像、视频和文字等多媒体数据在线 分享和表达自己的观点(Zhao 等,2020b)。 识别这 些数据中的情感内容,可以帮助理解用户的行为和 情感。 “一图胜千言”,图像可以传递丰富的语义信 息。 情感图像内容分析(affection image content analysis,AICA)的目标是理解认知层次的语义信息,识 别图像对特定观看者或大多数人会诱发的情感 (Zhao 等,2021)。 使用 AICA 自动地推断人们的情 感状态,可以帮助检测他们的心理健康、发现情感异 常,阻止他们对自己、甚至对整个社会进行的极端行 为(Zhao 等,2021)。 情感图像内容分析(AICA)在心理学和行为学 的研究基础上出现,例如基于 IAPS(International Affective Picture System)数据集研究视觉刺激与情感 之间的关联(Lang 等,1997;Mikels 等,2005)。 早期 情感图像内容分析的方法多是基于手工设计的特 征,例如低层次的全局 Wiccest 和 Gabor 特征(Yanulevskaya 等, 2008 )、 艺术元素 ( Machajdik 和 Hanbury,2010)、中层次的艺术原理( Zhao 等,2014) 和 高层次的形容词名词对(Borth 等,2013)。 2014 年, 研究者将大规模数据集上预训练的卷积网络参数迁 移到 AICA 领域(Xu 等,2014)。 为了解决情感感知 的主观性问题,研究者们提出了个性化情感预测 (Xu 等,2014;Yang 等,2013;Zhao 等,2016;Rui 等, 2017 ) 和 情 感 分 布 学 习 ( Zhao 等, 2015, 2017c, 2020a;Peng 等,2015) 策略。 近几年,领域自适应 (Zhao 等,2018b,2019b;Lin 等,2020)和零样本学习 (Zhan 等,2019) 也应用到 AICA 领域,来解决情感 标签缺失问题。
1. 4 面部表情识别
面部表情(facial expression)作为人类视觉最杰 出的能力之一,是非语言交流的一种重要形式(Ekman,1965)。 人脸表情分析( facial expression analysis, FEA) (Tian 等,2011) 则属于计算机识别和解 释人类情感状态的多学科研究领域———即情感计算 的一部分,并建立在计算机视觉技术的基础之上,通过分析不同来源数据(如静态图像和视频) 中的人 脸表情,来直观地揭示人物情绪状态。 在医疗健康、 刑侦检测、广告娱乐和在线教育等系列场景中均有 着广泛的应用。 早在 19 世纪,关于人脸表情的研究就已经展 开,早期主要集中在心理学和生物学方面。 1862 年,神经学家杜兴通过其著名的面部电流刺激实验, 论证了面部肌肉是如何产生表情的 ( Emery 等, 2015)。 紧接着,1872 年,达尔文从进化论的角度出 发,在其著作《人类和动物的情感表达》 中指出,人 和动物拥有与生俱来的情绪和共同的情感生物起源 (Darwin,2015)。 该研究对心理学家埃克曼产生了 巨大的影响。 他在 20 世纪 60 年代开展的首批跨文 化实地研究中支持了达尔文的假说,即表情具有普 适性(Ekman 和 Friesen,1971)。 基于该研究,艾克 曼定义了 6 种人类普遍表达的基本离散表情,即悲 伤、恐 惧、 愤 怒、 开 心、 惊 讶 和 厌 恶 ( Ekman 等, 1987)。 此外,还有一种基于局部外观的客观描述 形式,即面部动作编码系统( facial action coding system,FACS)(Ekman 和 Friesen,1978)。 该系统根据 人脸解剖学的特点,将面部肌肉划分成若干动作单 元(action unit,AU),来描述人脸表情的组成和变 化。 目前观察到的动作单元 AU 组合已经达到 7 000 余种。
**1. 5 面部微表情识别 **
与普通面部表情,即宏表情(macro-expression) 不同,微表情(micro-expression) 是一种转瞬即逝的 自发人类脸部表情(Haggard 和 Isaacs,1966)。 当人 们在高风险高压力的环境下希望隐藏其真实情感 时,往往容易在脸部区域产生微表情 ( Ekman 和 Friesen,1969)。 这就意味着,一方面在受到有效刺 激的时候,人类最初的反应绝大多数都是不受思维 控制的,因此能够映射其心理真实的变化和状态;另 一方面,这些反应会很快被控制和修正,因此持续时 间非常简短(通常在 1 / 25 1 / 2 s 内) 且动作幅度 很小。 心理学研究表明,没有受过专门训练的人进 行微 表 情 识 别, 仅 仅 略 好 于 随 机 猜 测 ( Ekman, 2003)。 由于微表情这种特殊性,研究这类自发反 应就显得特别重要且难以替代。 虽然在心理学上已有长达半个多世纪的研究, 但是在计算机视觉、人工智能领域却只有短短 10 余 年的发展(Zhao 和 Li,2019)。 2011 年,芬兰 Oulu 大学团队提出了一种基于帧插值和多核学习(multiple kernel learning, MKL)的微表情识别方法,并建立了 首个自发微表情识别数据集( Pfister 等,2011)。 自 此以后,越来越多的学者尝试用计算机视觉的方法 研究自动微表情分析。