来自上海交通大学陈露的博士论文,入选2021年度“CCF优秀博士学位论文奖”初评名单!
https://www.ccf.org.cn/Focus/2021-11-22/750448.shtml
对话管理器是任务型对话系统的核心模块,它有两个重要的任务:对话状态跟踪和对话策略优化。对话状态跟踪的作用是用来估计用户 的目标,对话策略决定着系统应该给用户回复什么动作。部分可观测 马尔科夫决策过程为基于数据驱动的对话管理方法提供了良好的理论 支撑,各种基于数据驱动的对话管理方法被提出,但是在实际应用中 这些方法还面临着两个重要的挑战:训练数据极度稀疏和对话领域扩 展及迁移。训练数据的稀疏原因主要来自四个方面:任务型对话数据 收集困难、数据标注复杂、对话数据变化多样和强化学习的反馈信号 稀疏;对话领域扩展和迁移是对话系统认知边界扩展的重要体现。
本论文的第一部分围绕对话状态跟踪任务中训练数据稀疏和对话 领域扩展两个核心挑战,基于 知识与数据双驱动的思想提出了两种新 型的对话状态跟踪方法。
针对训练数据稀疏的问题,本论文提出了一种基于规则和数据相 结合的混合对话状态跟踪方法:有约束的马尔科夫贝叶斯多项式模型。在该方法中,对话状态跟踪模型被定义为一组满足一定约束条件的多 项式函数,人类的先验知识和领域知识被编码在这些约束中。在合理 的假设下,对话状态跟踪模型的优化问题可以转化为整数线性规划问 题。求解该整数线性规划问题,就可以得到一组符合人类先验知识和 领域知识的对话状态跟踪模型,然后可以利用有标注的数据挑选性能 最好的模型。在对话状态跟踪标准测试集上的实验表明,在训练数据 稀疏和比较充足的两种情况下,该方法相对于已有的规则模型和统计 模型,都取得了显著的性能提升。
针对对话领域扩展的问题,本论文提出了一种通用的端到端对话 状态跟踪模型。解决对话领域扩展问题的关键在于使模型能够自适应语义槽的动态扩展,并且可以实现语义槽之间知识的迁移。本论文提 出了基于结构化深度学习的通用对话状态跟踪模型,利用图神经网络 基于领域本体知识来自动构建语义关系图,有效地支持对话领域的扩 展,目前在多个标准测试数据集上均取得最优的性能。
本论文的第二部分围绕对话策略优化任务中训练数据稀疏和对话 领域迁移两个挑战,同样基于 知识与数据双驱动的思路分别提出了两 种新型的对话策略优化方法。
针对训练数据稀疏特别是反馈信号稀疏的问题,本论文提出了基 于伴随学习的对话策略在线优化方法。传统的基于规则的策略通常在 预定义的范围内比较可靠,但是不具有自适应能力,而基于强化学习 的方法虽然可以根据用户的反馈自动优化,但是其初始性能往往很差, 并且学习效率低下。本文提出的伴随学习框架将两种策略结合起来, 其中基于规则的策略充当“老师”,并通过提供示例动作和额外收益两 种方式来指导数据驱动的强化学习策略。实验结果表明,该方法显著 地提高了在线策略优化的初始性能以及学习效率。
针对对话领域迁移的问题,本论文提出了基于结构化深度强化学 习的通用策略优化模型。整个模型由一些子网络组成,每个子网络对 应一个有向图中的节点,此图的结构是根据领域本体中的语义槽及它 们的关系来定义。每个节点都可以被视为一个子智能体,在对话策略 做决策时,每个子智能体都可以与其在图中的邻居通信,从而交换有 用信息。当对话领域发生变化时,只是模型的图结构发生了变化,而 智能体的参数不会发生变化,所以仍然能够正常进行决策。在剑桥大 学对话策略测试基准上的评估结果表明,该模型在多数任务上取得目 前最优的性能,并实现了比较高效的对话策略领域迁移。
总而言之,针对训练数据稀疏的问题,本论文基于知识和数据双 驱动的思路提出了系列融入规则的统计学习方法,显著降低了模型对 大规模训练数据的依赖;针对对话领域扩展和迁移的问题,本论文同 样基于知识和数据双驱动的思路提出了系列知识引导的结构化深度学 习模型,能够有效支持语义槽的扩展和知识的迁移。
专知便捷查看
便捷下载,请关注专知公众号(点击上方蓝色专知关注)
专知,专业可信的人工智能知识分发
,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询!
点击“
阅读原文
”,了解使用
专知
,查看获取5000+AI主题知识资源