编者按:视觉中的情感计算是近年来计算机视觉领域的热点问题,针对其当前阶段的突出痛点、发展趋势、应用难点、研究方向等问题,北京邮电大学邓伟洪、中科院计算所山世光、中国科学技术大学王上飞、中科院计算所曾加贝(按发言顺序整理)展开深度探讨,共话“知面而知心”的若干焦点议题。本文整理自VALSE Webinar 2019第20 期Panel。
议题1
情感计算的当前研究阶段的突出问题有哪些?是否可以通过A(算法)+B(大数据)+C(算力)就可以完全解决?
邓伟洪:表情识别和人脸识别区别还是挺大的。因为身份和表情是人脸传递的两个最基本的信息,人脸识别可能在一些落地应用上已经取得了巨大成功,数据加上算力可以非常好地解决一些以前不可能解决的难题。
但是在表情识别方面有几个问题:第一点是数据收集有隐私问题,很难去收集像人脸识别这种数百万人的数据;第二点是获得客观的表情标注是非常难的问题;第三点,表情和心情之间,或者说表情和情绪之间本来就没有特别对应的关系。人脸的身份标注是确定性的,就是不会“既是他又是别人”,他就是他,不是他就不是他。但是表情的标注是一个模糊的东西,它没有一个确定性的标准,同一个表情它可以反映不同的心情。有的人擅长表情管理,就是故意装出来的假表情掩饰自己的心情,所以这里面有很多非常模糊的问题,表情的标签跟身份的条件完全是两码事。如果这个问题没有非常好地解决,光加大数据量,它可能不一定有这种人脸识别、身份识别这么好的效果。所以还是待一些科学上的问题解决之后,才能用加大算力或者数据的方法,来提升它的实用性。
但是针对一个特定的应用,比如分析在线教育中小孩的专注度和心情,如果去收集一些特定小孩的数据,然后做这些特定场景的训练应该是有用的。但是至于像人脸识别那样成功大规模迁移使用,我觉得其实挺难的。
山世光:我认为对于很多的情绪来说,收集groundtruth的标签是一大问题。它的标注是蛮困难的,所以我觉得它真的更需要一些弱监督、半监督、无监督的方法,这是一个蛮好的问题。表情识别恐怕不可能完全像人脸识别依赖于大规模的数据,用上百万、千万人的数据去研究。
王上飞:我觉得第一个问题在于数据的收集上。我们今天讲的主要是表情识别,但是用户的表情不代表用户的情绪。比如我们在跟人交往的时候,微笑并不说明你一定喜欢这个人,它可能只是一种社会性的交互而已。
在自然状态下,收集大量的自发的表情数据是非常困难的。当前的表情数据库通常是在实验室环境下收集的,或者,如邓老师所说的,从电影片段中截取的。电影片段中截取出来的表情图像是演员做出来的表情,只不过演员的表现力比较丰富而已。在真实的人际交互环境下去收集大量的自发的表情数据是有很多困难的。
此外,目前大多数的研究把表情识别看成了一个模式识别的问题,但表情实与人的情绪有关。如果能够从人的情绪方面去建模,并把它加入到算法当中,可能会对当前的情感计算的研究提供新的思路。
再者,刚才山老师也说了,弱监督学习、半监督学习,或者自监督学习是算法层面值得研究的方向。确实对表情和面部动作单元的标注是非常消耗人力的。
曾加贝:表情识别如果想要通过A+B+C的方式完全解决的话,我认为首要解决的问题,是给一个客观的标注。如果标注不够的话,我们可以在算法上,用一些弱监督或者无监督的方式来做。一旦我们知道怎么采集客观的数据,就可以在数据上有所作为;当我们采到了一些数据,如果再有算力的话,就可以把它完全解决了。
表情和情感不能完全画一个等号,我觉得情感计算当前研究阶段的另一个突出问题是,情感计算不像其他问题可以定义出一个比较通用的任务,比如说识别出来人的身份或者估计出他的年龄。情感计算没有这样的一个特别通用的任务,虽然现在我们大家都集中在做表情识别,而实际上我认为情感计算它可能是更加偏向于一个特殊的需求,比如说判断这个人是不是抑郁了、内心是不是快濒临崩溃了、是不是紧张了,或者在某种条件下是不是崩溃了。我觉得这些问题很难被定义成一个非常客观、非常标准的通用任务模式。所以如果是针对广义的情感计算,这也是它的一个主要问题。
议题2
人脸识别技术已经进入诸多使用领域,情感计算方面(比如表情识别)近两年是否也会有类似的趋势?如果有,在哪些场景可能最先迈入实用?
山世光:我觉得表情识别不会像人脸识别那样全面铺开式地走向应用,它可能会逐渐地渗透到一些实际的应用领域里面去。
在人机交互领域,我们现在跟华为合作,有可能会通过对人面部的分析测量一些生理指标(比如心律等),把这样的一些技术用到人机交互上去。笑脸检测或者是一些特定表情的检测,在拍照等方面都有可能获得应用。
在自动驾驶或者非完全的自动驾驶领域,一些情感计算领域的技术,也是有可能可以得到应用的,比如驾驶员的疲劳状态、危险行为检测,比如检测驾驶员转弯时是否有看后视镜。
在医疗领域,情感计算可用于某些特定的精神性疾病的辅助诊断,比如自闭症儿童的一些特性的检测。在刑侦或者金融防诈骗领域,它可以做一些辅助"测谎",但是它这个测谎肯定是要打引号的,只是提供一些线索,比如眨眼次数、情绪的正向和负向,或者有没有出现一些不该出现的情绪或者表情等等。
所以简单总结一下我的观点,表情识别可能会在很多单点上逐渐地得到应用,但是全面铺开的应用还需要一些时间。
邓伟洪:表情识别如果实际应用的话,应该是一种渗透式的。相当于先在简单的表情分类体系(比如特定场景分类体系)中应用,例如笑脸检测,就是否有笑脸,这两类是很明确的。或者是积极还是消极,就分这两类,应该是一种比较客观的标准。如果是疲劳驾驶检测,只要有合适的数据,应该是可以逐步应用的。
但是如果在没有用户配合的情况下,针对人脸做一个全面的情感识别,还是需要比较长的时间。包括心理学上都需要有突破才有可能。而且最后多模态结合才有可能真正地迈向使用,光凭一张脸,对真正的情绪识别也许不是特别完整。
王上飞:情感计算(比如表情识别)会在某些领域中应用,但目前来说,它可能不会那么大规模地去普及。有些特定场景已有应用的实例,比如有这样的一个机器,它可以识别笑脸,如果你笑得很好,它可以奖赏你一个冰淇淋。
情感计算可以应用于娱乐中,此时识别率不是那么的重要,有一定的识别率就可以起到娱乐的效果。还有一些可以起到辅助作用的场合,情感计算也可以应用。这不局限于表情识别,比如,可以从用户发表的文字中,检测用户是不是有抑郁的倾向,为专业人员的诊断提供辅助。
曾加贝:在应用方面,我赞同其他几位老师的看法,在问题定义得比较简单清楚、对识别率要求不高的地方应用会比较早。
然而,如果是去深入了解人类内心深处的状态,我觉得目前的表情识别技术做不到。也许以后加一些别的多模态的信息,会慢慢地能做到。但是,表情识别中的笑脸检测、简单的几个情绪分类,仅仅作为娱乐的话会用得比较多,或者用得比较成功。
议题3
不同的种族或者不同的年龄段,对于同一情感状态的表达是否存在不同的特点?
山世光:我觉得这个问题更多的是一个心理学研究范畴的问题。首先不同种族、不同年龄段,对人类情感的表达肯定有不同方式的。“个性化”可能也是待研究的一个问题,有些人就是笑不漏齿,而有些人就是开怀大笑,那么每个人的基准状态就非常重要。举一个例子,一个人若特别喜欢笑,他的脸就变成了一个笑脸,它的neutral(中立)状态就是笑脸,所以分析他的情绪变化,就用他的中立状态作为一个基准,那么他在表达某一个情绪的时候,他的表情可能就是要和他的中立状态对比,然后找到其中的差异变化,而不是直接拿他的照片去和通用的表情识别模型作比较。
我简单总结一下,这个问题比较偏心理学的范畴。每一个人其实他都有自己独特的表情范式。我们在做研究时可以更多地关注个体表情与其基准表情的相关性。
邓伟洪:这应该是心理学领域也争论不休的问题,就是相当于种族效应达到了如何程度,不同种族之间的脸差别有点大。
Ekman认为不同种族表达六类基本表情的时候,基本上是一样的。但是后续的研究针对这个观点产生了很多争议,在心理学里总能举出反例。例如最简单的,说所有人的笑脸都一样,总有人能举出反例反驳你,所以这可能是一个程度的问题。
我看了一些文章,他们基本的观点是“越复杂的表情,人和人之间的差异性越大,越基本的表情差异性越小。”就像大家对笑脸应该有较统一的表达。但是骄傲、轻蔑这种不太常见的复杂情绪,人和人之间的表达差异就非常大。不仅在于种族差异,就像山老师刚才说的,不同人的表达方式都是不一致的,我不同学生表达“调不出程序的苦恼”都不大一样,我有候时候就会误解,必须跟每个人长期接触,做一个个性化的自适应,才有可能把他们的表情识别好。所以说情感识别最后要真正落地应用,不仅需要适应到种族或者年龄段,而是要适应到个人的这种程度。
所以它真正对机器学习(或者说迁移学习)、小样本的要求可能比人脸识别要高得多,因为人脸识别它的迁移能力非常强,训好一个大模型可以放到各种地方,基本上识别率都还可以。但是表情识别可能面对跨库实验就不太行了。
曾加贝:我补充一个明确的结论,不同种族之间表达表情的方式是不一样的:西方人更倾向用嘴附近的变化表达情感,东方人更倾向用眼睛附近的变化表达情感。
这一点我们可以用西方人和东方人设计的颜文字看出来。比如我们(东方人)在表示笑脸的时候,用的是三角形表示两个眼睛,横线表示嘴(即“^_^”),我们表达表情是在眼睛这块。然而,西方人设计的颜文字笑脸,是一个冒号,一个后括号(即“: )”),表达表情集中在嘴这块。
议题4
情感状态与心理健康有紧密的联系,与心理活动、心理分析也有密切联系。目前是否存在明确的关联或计算范式,将情感计算应用于心理健康检测?
邓伟洪:我在这方面没有特别的经验,我也是只看到一些文件里有记录应用到抑郁症检测的成功案例。
但是总的来看心情是一个隐变量,然后表情是一个表面,它跟隐变量之间的联系是一个概率分布,没有一个确定性的映射。如果要做好这方面的应用,个性化的迁移学习可能是一个必须要解决的问题。
山世光:我对这个问题还没有理解得很透彻。基于视觉来做情感计算可能会有几个不同的层次。第一个层次是和生理相关的。第二个层次是和心理相关的,比如是否无聊或者疲劳。第三个层次是和精神状态相关的,比如是否抑郁、焦虑,甚至狂躁。第四个层次是人格特质,比如这个人是非常亲和、攻击性比较强,还是非常尽职尽责等等。人类在观察人时的“察言观色”也会体现在不同的层次上,甚至一些非常有经验的人,通过观察一个人的脸,就会得知这个人是否自闭、是不是有抑郁倾向等。
我认为,面部虽然是一个简单的区域,但蕴藏了非常多的信息。我觉得情感状态与心理分析还是有一定的关系。
议题5
目前情感分析往往基于图像或较短的视频序列,是否有必要研究长期的情感状态分析?
曾加贝:视频能捕捉一些时序变化的特点,这是它相对于图像的一个优势所在。但是从模型或者从数据上来说,视频不如图像丰富,这是它的缺点。
“有没有必要研究长期的情感状态的分析”这个问题,我个人认为是有的。但是问题定义可能能跟我们常规认为的识别视频表情不太一样,长期情感状态的研究分为两类:一类是检测某种情绪是否在这一段时间出现过,有点类似于时序上的检测问题;另一类是检测某种情感,在一段时间内是否没有出现过。比如判断一个人精神是否有疾病或者障碍,评判标准并不是判断是否出现了某种异常症状,而是看这个人是否长期都没有出现某些正常表现。
从这个角度来看,长期研究情感状态分析是有必要的。但是否需要通过视频这种方式来长期分析,我觉得目前还不大确定。
山世光:视频的信息量相对图像会更大一些,比如针对刚才我说的个性化基准的问题,如果拿到一个人的表情图像,再加上一个动态的视频序列,理论上来说它的分析效果应该会更好,只是视频数据量大,标注可能会更难。
邓伟洪:虽然我们做的是图像数据库,但是表情绝对是一个基于视频的问题。我们做图像只是因为没有办法采集到这么多表情的视频序列,因为当时受到资源所限和隐私的问题,相比较而言,图片收集方便很多,所以才做图像数据库。如果以后资源、数据方面隐私不受限的话,表情绝对是一个视频的问题。表情是一个动态的过程,特别是微表情,用图片是很难识别出来的。
如果要真实准确地分析一个人长期的情感状态,必须有一个长期的观察过程,包括刚才山老师提到的中立状态,只有了解一个人的中立状态,才能了解其他情况的状态。
人类表达情感的时候是很个性化的。我们判断不熟的人的表情,经常会有误解,甚至判断朋友的表情也会经常产生误解。如果不经过长期的学习,其实人去判断情感状态都有难度,何况是机器?比较实用的大规模情感分析,肯定应该是长期的。
议题6
情感计算值得探讨的研究方向都有哪些?未来会有哪些新的研究热点?多模态信息(比如文本、表情、语音等)是不是对情感分析帮助比较大?研究的可能性有多大?
山世光:情感计算领域机会还是非常多的,因为真的还很不成熟。多模态其实在很多场景下可能获得更加一致的结果,包括语音、文本、图像和视频,我觉得这是一个值得研究的方向。
建立大规模多模态的数据集本身有难度,需要依赖一定的场景,所以具体到应用场景的时候,还需要考虑数据建设和算法设计。
就我个人来说,目前一个值得探讨的方向是广泛存在的数据问题,我们无法依赖于强监督大规模的数据,所以要去研究弱监督小规模的数据如何驱动机器学习。同时,如何把心理学、神经科学领域关于情绪的一些知识体现在算法设计上,也是一个非常好的方向。
还有,可以关注热点的话题,比如这两年越来越多的研究者或者老师在做焦虑、自闭症等等精神科方面的诊断,特别在和非常多医院的精神科合作。
还有一个从学术研究的角度非常值得关注的方向,叫personality ,通过看面相来分析人格特质。这个就属于更加宽泛的情感计算,我想这些都是从不同的应用出发,探讨其是否有可能不依赖于大规模的数据。
邓伟洪:我们可以对比表情识别和人脸识别之间的区别,导出不一样的科研方向。
第一点,从类别看,人脸识别的类别完全取决于表观外貌,除了极个别整容或者双胞胎,通常身份标签极其确定。但是心情往往藏在表观里面,而且不同的人会有不同的误解。如何根据数据和标签,估计出准确的标签,这可能是一个比较好的科研发展。当然,人脸识别其实没这个问题,人脸识别最多做一些噪声标签的训练即可。但是对表情识别却是一个极其重要的问题。
第二点,从它的类内的变化差异来看,人脸变化差异包括姿态、光照等等。主要集中在两个图像质量。这些变化在表情识别里面都有,人脸识别和表情识别都有姿态、光照问题。但表情识别还有一个独特的问题:个人之间和种族之间的差异性巨大,这也是导致识别率低的一个很重要的原因。其实它的类内变化比人脸识别还要夸张,不同的阶层不一样,同一个种族或者同一家人里不同人的表情表现都不一样。从科学角度来看,如果以后要像人脸识别一样大规模应用的话,迁移学习、弱监督学习、无监督学习变得极其重要。
第三点,从使用过程来看,表情识别不会有用户主动配合的情况,因为用户主动配合去做情感是没有任何意义的,假装的表情识别出来也没有意义。所以表情识别的应用应该是自发性的,摄像头肯定不是确切正对着用户的,而是会在某些姿态、或者有遮挡的情况下拍摄,从技术上看,跨姿态、遮挡情况下的表情识别,是大规模应用比较大的瓶颈问题,最近一些论文通过注意力机制来解决这个瓶颈问题,是一个挺好的方向,大家可以关注一下。
曾加贝:我觉得情感计算最后不会局限在表观上的表情识别或分析,而更有可能是多学科的研究,去探索情感表达与衡量上的一些更本质的内容,比如说它是如何去衡量一个人的内心究竟是什么样子的,是通过生理指标呢,还是通过一些其他的手段?然后又如何把这些衡量内心的指标,和表面上表观的现象给联系起来?这个才是我们最想做的事。
其实我们大家在说的表情识别,从某种程度上来说也可以认为是在找内心和表观现象的联系的模型,只是在表情识别这个问题里,内心这个层次的内容被我们简单地定义成了几种基本情绪,表观的内容则是我们看到的脸上的表情。我觉得以后至少在找内心衡量标准、找内心状态和表观现象的联系这个方向上,做得更加深入,更加符合实际,情感计算的研究,至少在我看来,才会更加像一个科学的研究。
关于未来新的热点,短期来说,可能是更加针对于应用的。就像山老师说,可能会和一些精神科的医生,或者和一些心理学家,或者和专门研究情绪、研究表情的人合作,针对一些特定的场景做的一些应用研究,可能短期内会成为一些热点。
观众提问
情感计算值得探讨的研究方向都有哪些?未来会有哪些新的研究热点?多模态信息(比如文本、表情、语音等)是不是对情感分析帮助比较大?研究的可能性有多大?
邓伟洪:我们标注量不是很大,只是曾经尝试过做三万多图像的标注,跟公司相比太小了。
情绪识别的标注非常困难,数据标注肯定是一个独特点。另外一个独特点是怎么去泛化到一个与标注环境不是很相近的情绪识别场景,这应该是一个非常重要的研究方向。
表情分类或者表情回归的泛化能力远远不如人脸识别,如果不进行弱监督学习或迁移学习,在目标应用上会特别困难。除非是在分类体系简单、分类结构明确的情况下可以做出来,在稍微复杂点的演示上估计最后都很难成功。
情绪识别核心的独特点,我认为一个是标注问题,另一个是识别算法的泛化能力。
编辑:杨茹茵
--end--
该文章属于“深度学习大讲堂”原创,如需要转载,请联系 ruyin712。
往期精彩回顾
欢迎关注我们!
深度学习大讲堂是由中科视拓运营的高质量原创内容平台,邀请学术界、工业界一线专家撰稿,致力于推送人工智能与深度学习最新技术、产品和活动信息!
中科视拓(SeetaTech)将秉持“开源开放共发展”的合作思路,为企业客户提供人脸识别、计算机视觉与机器学习领域“企业研究院式”的技术、人才和知识服务,帮助企业在人工智能时代获得可自主迭代和自我学习的人工智能研发和创新能力。
中科视拓目前正在招聘:人脸识别算法研究员,深度学习算法工程师,GPU研发工程师, C++研发工程师,Python研发工程师,嵌入式视觉研发工程师,运营经理。有兴趣可以发邮件至:hr@seetatech.com,想了解更多可以访问,www.seetatech.com
中科视拓订阅号
深度学习大讲堂
点击阅读原文打开中科视拓官方网站