Meta宣布CAIRaoke 项目：通过在对话式人工智能方面的突破打造未来语音助手

2022 年 6 月 9 日 AI前线

作者 | Alborz Geramifard

译者 | Sambodhi

策划 | 钰莹

如果我们能够用自然的对话方式和人工智能助手进行交流，就如同我们和人类的交流，那么我们的生活将会变得更加方便。然而，不管我们是用语音还是文字进行交流，今天的语音助手都不能让人印象深刻。

为了实现这一目标，我们非常荣幸地向大家宣布 CAIRaoke 项目。我们已经开发出一种端到端的神经模型，它能支持更加个性化和上下文的对话。我们已经将 CAIRaoke 项目所生成的模型应用到我们的产品 Portal，目的是将其与 VR 和 AR 结合起来，这样将来就可以和语音助手进行沉浸式、多模态的交互。

对于更好的对话式人工智能来说，最大的障碍也许是为当今最先进的助手赋能的架构。尽管这些系统仅提供一种服务，但是它们实际上是由四大组件组成：自然语言理解（natural language understanding，NLU）、对话状态跟踪（dialog state tracking，DST）、对话策略（dialog policy，DP）管理和自然语言生成（natural language generation，NLG）。然后，这些不同的人工智能系统需要相互连接，因此很难进行优化，不能很好地适应新的或者陌生的任务，并且高度依赖劳动密集型的注释数据集。

正因为如此，如今支持大部分设备的数字助理才会将用户限制在有限的选择范围内，而忘记了对话的上下文，并且大部分时间都是按照规定的对话流程来进行。举例来说，你可能会问助手关于本地天气预报的问题，但是如果你追问了一个简单却意想不到的问题，比如说，“今天是不是比上个礼拜还热啊？”助手就会感到困惑。

利用 CAIRaoke 项目所创建的模型，用户可以与他们的对话助手进行自然的交谈，这样它们就可以在谈话中引用以前的内容，彻底改变谈话的主题，或提及需要理解复杂而微妙的上下文内容。它们也可以用新的方法来和他们交流，比如用手势。

我们已经开始在 Portal（Meta 的视频通话设备）上应用这个模型，使得创建和管理提醒变得更加方便。比如，你可以快速澄清像下面这样的请求，而无需重复：

👩: 设置 6:30 的提醒。

✅：是在早上还是晚上？

👩: 在晚上，就叫买鸡蛋吧。

✅：好的，你的买鸡蛋提醒设置为明天下午 6：30。

即使在这个早期的测试中，我们也相信这个模型优于标准方法。在 Portal 上，我们观察到，与我们现有的方法相比，在提醒领域的评估方面有了显著的改进，这是通过完成一组提醒目标的成功率来衡量的，同时保持了正常的回合次数。

但是，这仅仅是使用这项新技术的一个开始。我们坚信，CAIRaoke 项目所取得的进展，将会让我们在人类和人工智能之间进行更加广泛的沟通，而这将成为我们为元宇宙构建的一个重要工具。内置在 AR 眼镜中的 CAIRaoke 项目助手，有朝一日可能会以许多新的、有用的方式继续下去。例如，当你问助手：“这条裤子搭配什么衣服好看？”它会回答：“这里有一件你最喜欢的颜色，红色的衬衫。”并显示它为你找到的物品图像。如果你说，“我喜欢这件，但条纹太宽了”，它就会向你显示一个细条纹的版本。

在未来，我们希望能够利用这个项目所生成的模型，为世界各地数以百万计的人提供类似的日常应用。

构建真正的交互对话

对话式人工智能的推进，一个必不可少的步骤就是要全面理解问题。很多人都看到了近年来 BERT 和 GPT-3 等在自然语言理解上的巨大进步，他们相信，理解和生成和人类一样的文本的问题已经被克服了。要搞明白为何我们至今仍未解决这个问题，我们就得将用于理解的人工智能和用户交互的人工智能区分开来。前者在整个行业得到了很好的研究和发展。它可以从各种输入模式中提取意义，比如自动语音识别、图像分类和自然语言理解。而后者则是我们怎样运用自己对这个世界的认识，运用技术来和他人进行交流。它可以是发送文本、语音指令、触觉反馈、显示图像、视频、头像表情，或者所有这些的组合。

整个行业的研究人员和工程师一致认为，良好的对话系统必须有一套牢固的、基于人工智能模型的理解层。但是很多人把交互看作是一个工程学的问题，而非人工智能的问题。这样，一个了解世界状况的工程师就能创造出一套精心设计的逻辑来应对所需要的交互。这样的工程方法可以让人们更好地了解该系统的工作原理，并且在需要时能够迅速地进行逻调试。但是，这个普遍的信念会使对话式人工智能不那么强大，这就是为什么你无法通过这种助手来轻松规划假日。

一种新的、统一的方法

这些示例对话展示了我们希望助手具备的关键技能：不仅仅是提供准确的、最新的现实世界的知识，还包括多模态的工作（在这种情况下，跨越视觉和语音），跨领域的工作（发送信息，同时估计你的到达时间），以及让你推动对话，而不是需要遵循僵化的对话模板。

人工智能助手的规范方法需要四套输入和输出：管道的每一层（自然语言理解、对话状态跟踪、对话策略和自然语言生成）各有一套。同时，也要求为每一层的输入和输出定义标准。比如，对于自然语言理解，传统的对话式人工智能系统需要定义本体（例如各种意图和实体）。

但是，我们的模型采用了神经网络，根本不需要规定对话流程。有了这个模型，我们只需要一组训练数据。

CAIRaoke 项目减少了增加一个新领域所需的工作。在规范方法中，扩展到一个新的领域需要依次构建和修复每个模块，然后才能可靠地训练下一个模块。换句话说，如果自然语言理解和对话状态跟踪每天都在变化，那么训练对话策略就无法有效进行。其中一个组件的变化可能会导致其他组件的损坏，从而引发对随后的所有模块的重新训练。这种相互依赖性会使后续模块进度变慢。但是，我们采用了端到端的技术，消除了对上游模块的这种依赖性，从而加快开发和训练的速度，让我们可以在较小的工作量和较少的数据的情况下，对其他模型进行微调。

有了我们的新方法，对话会变得更加稳健，因为它们能够通过在一个地方查看全方位的信息，从而作出决策。在此之前，甚至在某个组件上的一些微小的错误，都可能以意想不到的、难以解决的方式传播到其他组件上。比如，现在，基于规则的助手被明确编程为寻找特定的单词或短语：在一个数字后面跟着的“p.m.”表示下午，而 CAIRaoke 项目利用先进的预训练语言模型，可以更好地理解上下文，并且能够辨别出说同一事物的不同方式。

最后，CAIRaoke 项目融合了支持 Meta AI 最新对话机器人的技术——BlenderBot 2.0，融入面向任务的对话。这意味着使用我们的模型构建的助手能够表达有同理心的语言，实时转述通过搜索互联网找到的知识，并且显示出一致的个性。

在系统生成自然语言的过程中，存在着一些潜在的安全性和隐私权的问题。如今，大部分的自然语言生成组件都带有脚本，因此，内容管理人员可以保证助手不会给用户提供令人反感的回应。但由于助手直接与用户相连，就有可能出现错误或令人反感的互动。

当系统生成自然语言时，必须解决潜在的安全和隐私挑战。今天，大多数自然语言生成组件都是有脚本的，这样内容管理者就能确保助手不会向用户提供令人反感的回应。但是，通过将助手直接与用户相连，就有可能出现错误或令人反感的互动，这一点已经广泛地被公众所看到，饱受诟病。

重要的是，我们已经合并内置于 BlenderBot 中的安全措施，这将有助于减少攻击性反应的发生。在开发助手技术的时候，我们还把隐私问题考虑了进去。比如，在 Ray-Ban Stories 和Portal 语音命令的使用是可选的选项，你可以查看和删除你的语音命令的记录，而且你还可以随时关闭语音存储。

为了减少对用户产生不良反应的风险，CAIRaoke 项目的第一个里程碑是同时生成对话动作和自然语言。在短期内，我们生成对话动作，并依靠一个经过测试和严格约束的自然语言生成系统来提供用户回应。从长远来看，在确保我们模型的端到端完整性之后，我们将公开所生成的语句。

另一个问题，也是其他种类的自然语言处理系统所共有的，那就是幻觉，即当一个模型自信地说出不正确的信息。这对端到端技术是一个巨大的挑战，因为在会话中，模型可以很轻易地将实体引入或者修改。例如，你让助手“设置一个给 Ankita 打电话的提醒”，它可能会设置一个给 Ankit 打电话的提醒，因为 Ankita 是一个不太常见的名字。我们使用了各种数据增强技术和注意力网络来增加 CAIRaoke 项目的健壮性，并利用我们与 BlenderBot 2.0 的工作来减少幻觉。

使用语音完成无数的日常任务

虽然我们对 CAIRaoke 项目模型的短期实施是在 Portal 上的提醒，但我们期望不久就会应用到更广泛的地方，这将帮助人们的购物体验个性化，让助手可以在大量的交谈中保持上下文，让人们可以继续进行交流。

我们也相信，这项进步尤其有助于构建以人工智能为基础的对话能力。在不远的将来，人们会像现在智能音箱、智能手表等其他设备那样，经常在 AR 眼镜上使用语音助手。鉴于此，我们正致力于缩小像这样的端到端的模型大小，使其适合在设备上使用，因为设备上的模型还能提供额外的安全、隐私和性能上的优势。我们也正在尝试让模型更易于调试，这是一项非常复杂的挑战，因为在新的框架中，信息以嵌入空间的形式表示，而在规范模型中则是显式的。为了让 CAIRaoke 项目能够完全实现，我们还必须把它推广到很多种语言中，并且寻找一种可以在亿级规模上高效应用这种模型的方法。

我们可以设想，在未来的数年内，CAIRaoke 项目的技术将会成为人们与设备间下一代交互的基石。在 VR 头盔和 AR 眼镜方面，我们期望这类交流能够像触摸屏取代智能手机的键盘一样，实现无处不在的、无缝的导航和交互。我们现在的模型是向前迈出的重要一步，但是要完全达到这个目标愿景，我们仍需要付出更多的努力。我们对目前所取得的进步以及今后面临的各种挑战都感到兴奋。

作者介绍：

Alborz Geramifard，Meta AI 高级研究主管，研究对话式人工智能。曾领导过亚马逊 Alexa 的对话式人工智能团队。2008 年获阿尔伯塔大学硕士学位，2011 年活麻省理工学院博士学位，曾在麻省理工学院信息与决策系统实验室的博士后研究员。是 2010~2012 年 NSERC 研究生奖学金项目的获得者。曾担任过 EMNLP 和 ACL 的区域主席。

原文链接：

https://ai.facebook.com/blog/project-cairaoke#circle=on