《多领域任务导向对话的数据驱动策略优化》145页

机器学习的最新发展以及公众对数字个人助理态度的普遍转变，为对话系统开辟了新的领域。然而，建立数据驱动的多领域会话智能体，使其在对话环境中发挥最佳作用，仍是一个有待解决的难题。实现这一目标的第一步是开发一种在新领域学习对话策略的有效方法。其次，必须有能力收集和利用人与人之间的对话数据来引导智能体的知识。本论文中介绍的工作展示了神经对话管理器如何通过强化学习进行微调，从而为在多个领域高效学习对话策略提供可行的方法。

论文首先介绍了一个对话管理模块，该模块通过互动学习，根据对话的当前上下文采取最佳行动。目前向神经、参数丰富系统的转变并不能完全解决来自语音识别或自然语言理解组件的错误噪声问题。因此，我们提出了一种贝叶斯方法，以便在没有任何先验数据的情况下，在直接互动中学习更稳健、更有效的策略管理。通过对模型权重进行分布，学习智能体不易过度适应特定的对话实现，因此可以采用更有效的探索策略。研究结果表明，即使在数据量较少的情况下，深度强化学习的性能也能与非参数模型相媲美，同时与之前的技术水平相比，计算复杂度大大降低。

从行业角度来看，在不对人类对话进行任何预培训的情况下部署对话管理器并不可行。然而，可用数据的规模阻碍了统计系统（尤其是对话管理器）建设的进展。为了解决这一根本性障碍，我们引入了一种完全基于众包的新型数据收集管道，无需聘请专业注释员。该方法的验证结果是收集到了多领域 Wizard-of-Oz 数据集（MultiWOZ），这是一个跨越多个领域和主题的完全标记的人与人书面对话集。拟议的数据集创建了一套新的基准（信念跟踪、策略优化和响应生成），大大提高了分析对话的复杂性。

所收集的数据集为基于强化学习（RL）的新方法训练多领域对话管理器奠定了基础。我们提出了一种多行动和插槽对话智能体（MASDA）来解决一些局限性： 1) 处理复杂的多领域对话，在一个回合中同时出现多个行动；以及 2) 缺乏可解释性，因此，如果有中间信号（如对话回合注释），就会妨碍这些信号的使用。MASDA 利用中间信号对系统行为和插槽进行了明确建模，从而改进了基于任务的端到端框架。该模型还可以选择单个回合中的并发行为，从而丰富生成的响应的表示形式。在处理并发行动时，所提出的框架允许对对话任务完成指标进行 RL 训练。结果表明了 1）处理并发行动和 2）利用中间信号这两个方面的优势： MASDA 优于之前的端到端框架，同时还提高了可扩展性。

图 2.1 口语对话系统的结构由六个主要部分组成。在典型的模块化方法中，各组成部分分别进行训练。端到端方法则将内部模块结合在一起（灰色部分）。

成为VIP会员查看完整内容

相关内容

博士论文

关注 118

博士论文是由攻读博士学位的研究生所撰写的学术论文。它要求作者在博士生导师的指导下，选择自己能够把握和驾驭的潜在的研究方向，开辟新的研究领域。由此可见，这就对作者提出了较高要求，它要求作者必须在本学科的专业领域具备大量的理论知识，并对所学专业的理论知识有相当深入的理解和思考，同时还要具有相当水平的独立科学研究能力，能够为在学科领域提出独创性的见解和有价值的科研成果。因而，较之学士论文、硕士论文，博士论文具有更高的学术价值，对学科的发展具有重要的推动作用。

《基于特质的多机器人协调建模》191页

专知会员服务

40+阅读 · 2024年6月10日

《基于信念的决策建模计算框架》141页

专知会员服务

66+阅读 · 2024年4月27日

《生成式人工智能模型：机遇与风险》

专知会员服务

76+阅读 · 2024年4月22日

《大模型驱动的汽车行业群体智能技术白皮书》，176页pdf

专知会员服务

86+阅读 · 2024年4月13日