情感对话技术着眼于对话机器人的“情商”,旨在让对话机器人具有像人类一样观察、理解和表达情感的能力.这项技术可以看作是情感计算和对话技术的交叉,兼顾对话机器人的“智商”和“情商”,从而实现对用户的精神陪伴、情感慰藉和心理疏导.结合对话中情感的特点,对情感对话技术进行全面解析:1)规划对话场景下的情感识别、情感管理、情感表达等3个重要的技术点,并拓展多模态场景下的情感对话技术.2)介绍情感对话4项关键技术的最新研究进展,并总结这些技术面临的主要挑战和可能解决方案.3)介绍情感对话技术的数据资源.4)分析情感对话技术的难点,展望其未来发展方向与前景. 在情感对话技术出现之前, 最初的对话机器人的设计出发点是“模拟人的智商”, 最常见的表现形式为智能私 人助手. 这种类型的对话机器人应答迅速、博闻强记, 为客户提供专业优质的体验, 极大提升了客户的满意度. 常 见的智能私人助手类的对话机器人包括国外的苹果 Siri、谷歌 Google Assistant, 以及国内华为的智慧语音助手小 艺、科大讯飞的灵犀等. 然而, 拥有了“智商”的对话机器人有时仍然不能满足图灵测试中的类人性, 尤其对聊天机器人而言. 人类的特性是不仅可以回复合乎逻辑的答复, 还可以将情感处理得十分得当. 然而, 目前对话机器人对 于情感的处理还较为欠缺, 回复虽然在内容可以做到十分相关, 但是情感不恰当的情况却十分普遍. 人类期待对话 机器人可以脱掉冷冰的外壳, 具有处理情感的能力, 即具有“情商”, 向类人化更进一步. 在这种背景下, 情感对话技 术应运而生. 情感对话技术是指赋予对话机器人类人式的情感, 使其具有识别、理解和表达情感的能力, 为用户提供更人 性化、多样化的回复. 让计算机具有“情商”是人工智能的更高阶的目标. 人工智能之父马文·明斯基 (Marvin Minsky) 在其著作《情感机器》[1]中指出: “人工智能只有智力, 没有情感, 不是真正的智能.” 软银 CEO 孙正义认 为“未来更有价值的机器人是能够理解人心, 能够与人进行情感沟通的机器人” [2] . 这些都表明对话机器人不仅需要 “智商”, 还需要“情商”. 因此, 研制具有情感的对话机器人成为学术界和产业界共同关心的课题. 近些年来, 产业界 不少对话机器人产品均增加了情感功能, 以提升产品的趣味性和人性化程度, 如微软小冰、小黄鸡聊天机器人等. 情感对话技术是提升这些应用产品如闲聊机器人[3]、智能客服[4]、语音助手[5]等性能的核心技术. 对话机器人的情感功能重点依赖于对话语言内容的分析, 所用技术则集中于自然语言处理领域中的文本情感 计算技术. 这项技术发展至今已有 20 多年的历史, 传统的文本情感计算技术的研究对象多为产品评论信息或网民 舆情信息, 与这些传统的情感计算场景相比, 对话场景下的情感有其特殊性.
(1)** 情绪是主流**与评论中的情感倾向性不同, 情感对话机器人中的情感交互以情绪为主, 表现为喜悦、愤怒、悲伤、恐惧、 惊奇等. 例如, “今天是我的生日, 好开心呐”, 表现出“喜悦”的情绪. 情绪由于类别较多, 且存在个别情绪区分度受 限 (如“悲伤”和“愤怒”), 给对话情绪识别带来了一定的困难. 为了方便术语统一, 下文的“情感”均是指“情绪”. (2) 有丰富的对话场景信息有丰富的对话场景信息, 以及对对话场景进行建模是情感对话技术区别于其他文本情感计算技术最大的不 同, 也是情感对话技术的研究重点. 此外, 对话场景不仅包括常见的在线人机聊天场景, 还包括多模态对话场景. 在 文本情感计算、语音识别与合成、人脸表情识别等方面, 人工智能领域的研究者们均取得了引人注目的进展, 为 多模态场景下的情感对话机器人提供了技术支撑. (3) 用户信息在情感中的参与性由于对话机器人的聊天对象是用户, 更强调用户的个性化与参与性. 例如: 同样表达“心情不错”这个情感, 外 向开朗的用户会用“好极了”来表述, 而谨慎内向的用户会用“还可以”来表述, 这为情感识别带来了挑战. (4) 话题信息在情感中的参与性用户所讨论的话题与要生成回复的情感之间有非常直接的联系. 例如上文是“我生病了, 好难受啊”, 表达的情 感是“悲伤”, 自动生成回复的情感之所以是“同情”, 是由上文的“生病”话题决定的. 同理, 如果上文是“天呐, 我考试 又没及格”, 表达的情感同样是“悲伤”, 而由于话题是“考试”下文生成的情感就很有可能是“愤怒”. 由此可见, 待生 成回复的情感跟话题是息息相关的. (5) 隐式情感占一定比例情绪化、口语化和随意性是对话内容的特点, 这导致了对话机器人系统中隐式情感句所占比例较大. 例如, “我今天考试不及格”和“我今天中奖了”均不含有任何情感词, 却分别表达出“悲伤”和“喜悦”的情感. 由于隐式情感 句内部情感信息较为隐晦, 局部考察句内特征无法提供足够的分类证据, 因此需要依赖外部的背景知识. (6) 情感回复的不确定性对于传统的情感识别任务而言, 识别出的情感是确定的. 然而对于对话场景下的情感识别任务而言, 针对一个 用户给出的带有情感的上文, 生成的下文的情感回复具有一定的不确定性. 例如: 上文是“我今天考试不及格”, 情 感回复的情感有可能是“愤怒”, 也有可能是“悲伤”, 还有可能是“同情”, 需要根据具体的话题和用户特性而定. 针对以上对话场景下的情感表达的特点, 近年来国内外的研究人员进行了很多探索. 由于问题的复杂性, 情感 对话技术在国内外还处于起步阶段, 现有的工作大部分集中于对话场景下的话语情感识别[6−10]以及给定情感信号 的情感回复生成[11−14]工作, 非常类似于对话场景下的情感分类和回复生成技术. 该领域还有大量深入的研究问题值得探索, 例如: 对话场景下的情感还有哪些特点值得挖掘; 对话情感识别与情感回复生成两项技术之间是否需要 其它的衔接技术; 如何在情感回复过程中更好的体现终极目标——共情[15−19]等. 基于以上的思考和大量的调研, 本文在后续部分首先规划了情感对话技术的任务体系和理论基础; 接着介绍 情感对话技术的最新进展, 总结该技术面临的主要挑战和可能解决方案; 然后介绍情感对话技术的语料资源; 最 后, 分析情感对话技术的难点, 展望其未来发展方向与前景.