【博士论文】认知型口语交互系统中的对话管理技术

2021 年 11 月 23 日 专知

来自上海交通大学陈露的博士论文，入选2021年度“CCF优秀博士学位论文奖”初评名单！

https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml

对话管理器是任务型对话系统的核心模块，它有两个重要的任务：对话状态跟踪和对话策略优化。对话状态跟踪的作用是用来估计用户的目标，对话策略决定着系统应该给用户回复什么动作。部分可观测马尔科夫决策过程为基于数据驱动的对话管理方法提供了良好的理论支撑，各种基于数据驱动的对话管理方法被提出，但是在实际应用中这些方法还面临着两个重要的挑战：训练数据极度稀疏和对话领域扩展及迁移。训练数据的稀疏原因主要来自四个方面：任务型对话数据收集困难、数据标注复杂、对话数据变化多样和强化学习的反馈信号稀疏；对话领域扩展和迁移是对话系统认知边界扩展的重要体现。

本论文的第一部分围绕对话状态跟踪任务中训练数据稀疏和对话领域扩展两个核心挑战，基于知识与数据双驱动的思想提出了两种新型的对话状态跟踪方法。

针对训练数据稀疏的问题，本论文提出了一种基于规则和数据相结合的混合对话状态跟踪方法：有约束的马尔科夫贝叶斯多项式模型。在该方法中，对话状态跟踪模型被定义为一组满足一定约束条件的多项式函数，人类的先验知识和领域知识被编码在这些约束中。在合理的假设下，对话状态跟踪模型的优化问题可以转化为整数线性规划问题。求解该整数线性规划问题，就可以得到一组符合人类先验知识和领域知识的对话状态跟踪模型，然后可以利用有标注的数据挑选性能最好的模型。在对话状态跟踪标准测试集上的实验表明，在训练数据稀疏和比较充足的两种情况下，该方法相对于已有的规则模型和统计模型，都取得了显著的性能提升。

针对对话领域扩展的问题，本论文提出了一种通用的端到端对话状态跟踪模型。解决对话领域扩展问题的关键在于使模型能够自适应语义槽的动态扩展，并且可以实现语义槽之间知识的迁移。本论文提出了基于结构化深度学习的通用对话状态跟踪模型，利用图神经网络基于领域本体知识来自动构建语义关系图，有效地支持对话领域的扩展，目前在多个标准测试数据集上均取得最优的性能。

本论文的第二部分围绕对话策略优化任务中训练数据稀疏和对话领域迁移两个挑战，同样基于知识与数据双驱动的思路分别提出了两种新型的对话策略优化方法。

针对训练数据稀疏特别是反馈信号稀疏的问题，本论文提出了基于伴随学习的对话策略在线优化方法。传统的基于规则的策略通常在预定义的范围内比较可靠，但是不具有自适应能力，而基于强化学习的方法虽然可以根据用户的反馈自动优化，但是其初始性能往往很差，并且学习效率低下。本文提出的伴随学习框架将两种策略结合起来，其中基于规则的策略充当“老师”，并通过提供示例动作和额外收益两种方式来指导数据驱动的强化学习策略。实验结果表明，该方法显著地提高了在线策略优化的初始性能以及学习效率。

针对对话领域迁移的问题，本论文提出了基于结构化深度强化学习的通用策略优化模型。整个模型由一些子网络组成，每个子网络对应一个有向图中的节点，此图的结构是根据领域本体中的语义槽及它们的关系来定义。每个节点都可以被视为一个子智能体，在对话策略做决策时，每个子智能体都可以与其在图中的邻居通信，从而交换有用信息。当对话领域发生变化时，只是模型的图结构发生了变化，而智能体的参数不会发生变化，所以仍然能够正常进行决策。在剑桥大学对话策略测试基准上的评估结果表明，该模型在多数任务上取得目前最优的性能，并实现了比较高效的对话策略领域迁移。

总而言之，针对训练数据稀疏的问题，本论文基于知识和数据双驱动的思路提出了系列融入规则的统计学习方法，显著降低了模型对大规模训练数据的依赖；针对对话领域扩展和迁移的问题，本论文同样基于知识和数据双驱动的思路提出了系列知识引导的结构化深度学习模型，能够有效支持语义槽的扩展和知识的迁移。