下一代对话系统中的关键技术（上篇）

会员服务 ·

下一代对话系统中的关键技术（上篇）

2022 年 3 月 23 日 PaperWeekly

6年前，人工智能AlphaGo战胜李世石，成为第一个击败人类职业围棋选手、第一个战胜围棋世界冠军的人工智能机器人。

如今，作为新一轮科技革命和产业变革的重要驱动力，人工智能正在对经济发展、社会进步等多个方面都产生着重大而深远的影响。

在人工智能浪潮的推动下，聊天机器人的各方面技术也获得飞跃式提升，在诸多行业中得到广泛应用，为用户提供了全新的交流方式。

我们将用两期内容，来阐述了聊天机器人中对话交互的主要技术，从理解、拟人、及与人互动三个方面说明当前对话系统面临的挑战。并尝试勾勒出下一代类人对话系统应具备的主要技能。

用户与具有情绪支持和心理共情技能的

智能虚拟人emohaa的对话

近年来，随着人工智能技术的不断发展，各种形态的聊天机器人以新型有效的沟通方式，为普通大众提供智能、高效的服务，在私人助理、客服等各类场景有着广泛的应用。在当前技术下，对人类语言的理解和表达是聊天机器人实现真正的拟人化交互过程中面临的巨大挑战。

作为实现智能交互的关键模块，对话交互技术的研究在学术界和工业界一直备受关注。让机器人拥有了与人类交流的能力，能够通过语音和语义识别等智能技术识别使用者的意图，并且将会按照使用者目前的意愿来达到具体的互动目的。对话交互技术的研究，在进一步推动聊天机器人产业发展、实现智能化的过程中具有巨大的意义和价值。

在人工智能领域，对话系统的发展历史非常悠久，在英国电脑科学家Alan Turing于1950年提出图灵测试，即测试机器能否表现出与人类似或无法区分的智能，而对话系统就是图灵测试最自然的表现形式。美国麻省理工学院人工智能实验室的德裔电脑科学家Joseph Weizenbaum则是在1964年至1966年期间打造史上第一个聊天机器人“Eliza”，并定位为模仿人本主义疗法（Rogerian psychotherapy）的心理治疗师。

“Eliza”是以MAD-SLIP程序语言编写，并且在36位元架构的IBM 7094大型电脑上运作，所有程序代码约在200行左右。执行过程中，“Eliza”会透过分析所输入文字内容，并且将特定字句重组，变成全新字句组合。

Eliza 的名字源于爱尔兰剧作家萧伯纳的戏剧作品《卖花女》中的角色，剧中出身贫寒的卖花女 Eliza 通过学习与上流社会沟通的方式，变成大使馆舞会上人人艳羡的“匈牙利王家公主”。作为世界上第一个聊天机器人，Eliza 被其作者赋予了“心理治疗师”的角色，在人工智能的整个发展史上具有重要的地位。

据说，Weizenbaum教授将Eliza系统给同事们使用，

他们都以为Eliza是一个真人，还交谈了很多隐私的事情。

2011年，苹果推出的语音助手 Siri也使得智能助理在工业界引起了广泛关注。微软于2014年发布了首个社会机器人——微软"小冰"，它能够提供一个开放式的领域聊天功能。2020年，在大数据、大算力的支持下，大量大型预训模型陆续推出，它们不仅可以回答用户的问题，还能以有趣的方式进行各种话题讨论。这些预训练模型将对话系统的研究推向了一个新的高度，在开放领域的会话能力方面有了新的突破。

对话系统的发展里程碑

对话系统发展至今，已经可以与用户产生非常自然地对话。在2017至2019年间，连续举办的三届Alexa大奖赛中，最好的对话系统能够与人类用户开展超过10分钟的聊天，聊天内容不受领域和话题限制。以Emohaa为例，他不仅能理解“讲个笑话”这一含义，并且已经可以在与用户的对话中，展现出自然的幽默感。

另一个例子是FAIR在2020年发布了的Blender，其最大的参数规模达到94亿，并且使用了8880亿个词汇。Blender可以将不同的技巧融合在一起，包含个性嵌入、知识赋值和表达共情，使得人机对话更加具有人性化。

在人工智能领域，相关技术的发展和进步为对话系统的研究带来了机遇，这对于促进人工智能以及聊天机器人的发展有着十分重大的意义。

当前对话系统可以总结为以下两种类型，第一种是任务导向型的对话系统（Task-Oriented Dialog System），它通常以帮助用户完成具体的任务为目的，如手机助理、客服机器人，订票机器人等；第二种是开放域的对话系统（Open-Domain Dialog System），它经常会在一个开放的区域里和用户聊天，并且利用各种谈话技巧来增加他们的互动，例如提供娱乐、给出建议、讨论有趣的话题、提供情感安慰等。

任务导向型对话系统（左）

和开放域对话系统（右）的典型结构

开放域对话系统中，通常要求系统对对话环境和用户的情感需求有更深刻的理解，以便在正确的时间使用正确的对话技能，从而产生更富有个性和同情心的回应。

那么现有的对话系统，又存在哪些挑战和不足呢？

首先是关于语义的认识。语意理解是人类进行会话活动的基础和核心，是对话活动的先决条件。它要求系统能够理解对话、理解用户，甚至关联对话之外的背景信息。在早期的测试阶段，当用户问Emohaa“你为什么叫Emohaa”，Emohaa却仍然回复“我叫Emohaa”，意义就差得非常远。

其次是人格认同的连贯性问题。同样举一个在早期测试阶段的案例：当用户问Emohaa家庭成员相关问题时，Emohaa在不同时刻回答“我有一个妹妹”和“我没有妹妹”这种信息不一致，会让用户产生困惑。如今这些问题正在迭代中改进和完善。

最后是交互性的问题。在开放域对话系统中，其设计的目的通常是满足用户的社交需求，比如情感和社会归属感等，以最大限度地提高用户的长期参与度。系统语义理解和个性身份一致性问题，将直接影响用户的体验，导致低质量的交互。此外，如何在各种场景下应对用户的负面情绪，如失落、悲伤等，也是提高对话系统交互性中面临的巨大挑战。

总的来说，当前的对话系统面临三个问题，第一个是语义理解的问题，第二个是个性身份一致性的问题，第三个是互动性的问题。在语义理解方面，我们希望对话系统能够理解内容（content）、文本（context）和场景（scene）；对于个性身份一致性问题，我们希望对话系统能够产生与个性和身份一致的对话，具有类人的个性和身份；对于互动性问题，我们希望对话系统与用户进行情感、情绪上的交流，然后综合运用各种行为策略，实现强互动性的对话。

更多阅读