【DST系列】DST概述

会员服务 ·

【DST系列】DST概述

2020 年 10 月 14 日 AINLP

本文主要介绍DST的一些基本概念，包括DST的定义，状态表示、DSTC任务、挑战等，后续会介绍有哪些方法能够解决DST中问题，以及DST在小贝助手中的应用。

1. 什么是DST

通常对话系统都是基于pipeline的方式实现的，具体的流程图如下：

整个pipeline由四个模块组成：自然语言理解、对话管理、动作管理器、自然语言生成。

自然语言理解（NLU）：主要作用是对用户输入的句子或者语音识别的结果进行处理，提取用户的对话意图以及用户所传递的信息。
对话管理（DM）：对话管理分为两个子模块，对话状态追踪（DST）和对话策略学习（DPL），其主要作用是根据NLU的结果来更新系统的状态，并生成相应的系统动作。
自然语言生成（NLG）：将DM输出的系统动作文本化，用文本的形式将系统的动作表达出来。

本文的主题是对话状态追踪（Dialogue State Tracking, DST）。DST将历史所有的对话和NLU结果作为输入，输出其对当前对话状态的估计。比如在一个自动订餐系统中，我们的状态可以是用户想要的价格、美食类型、地点之类的，以及在对话过程中确定的一些状态和不确定的状态。对话状态追踪很困难，因为ASR和NLU错误很常见，一个错误可能导致系统误解用户，而且这个误解可能还无法纠正。同时，状态追踪至关重要，因为对话策略依赖于状态估计来选择动作。

2.问题定义

符号说明：

符号	说明
domain	领域
intention	意图
slot-value pairs	槽值对
St	t时刻的状态
NLUt	t时刻的意图和槽值对
Ut	t时刻的消息或者话术
At	t时刻系统的动作
Gt	用户目标，一般在任务型对话里面指的是用户已经表达了哪些需求，还有哪些需求没有表达，需要询问的

对话状态：是过去到现在对话内容的一个详细描述，能够为系统动作管理（DM）提供足够信息的一种结构化的数据。。

对话状态追踪：作用是根据domain/intention 、slot-value pairs、Sk-1等来追踪Sk。简而言之，就是根据历史状态和当前nlu结果来追踪当前的状态。可以供DPL阶段学习策略（比如订餐时，是询问槽位（价格、食物类型）还是确定下单？）并完成NLG阶段的回复。

3.状态常见表示方法

状态表示主要有三种方式：

维护所有状态的一个分布，这种方式状态数呈指数增加。
使用状态分组和状态分割减少追踪复杂度，不断的减少不确定性。比如下图价格已经确定。
假设不同槽值的转移概率是相互独立的，或者具有非常简单的依赖关系。这样就将状态数从意图和槽值数的指数减少到了线性。

比如有两个槽位，价格和位置。价格有5个可取的值，位置有20个可以可能值，按照第一种方式，每次都需要维护5*20=100个状态，是槽位值的指数级。按照第二种方式，如果价格确定后，只需要维护20个状态，反之亦然。按照第三种方式，假设槽位之前的独立的，只要给每个槽位单独维护状态就行，因此是5+20=25个。

下图是一个状态表示示意图，使用的是第一种方式的状态表示，只针对出现过的槽位记录状态。

4.DSTC介绍

对话状态追踪挑战（DSTC）是一系列持续不断的研究社区挑战任务。每个任务都会发布标有对话状态信息的对话数据，例如，给定当前对话所有对话历史记录，对用户所需的餐馆进行搜索查询。在每个挑战中，都留有部分数据用于评测DST。

DSTC 2013 是国际上第一届对话状态追踪任务的公开评测，由微软研究院，本田研究院和卡内基 · 梅陇大学联合组织。评测数据来自匹斯堡公车路线电话自动查询系统 3 年间的真实用户日志。评测提供 5 组训练集和 4 组测试集，分别用于测试以下四种情况：

有与测试集来自完全相同的 ASR、SLU 和对话策略的训练数据；
有与测试集来自完全相同的 ASR 和 SLU 的训练数据，但对话策略不同；
只有少量与测试集来自完全相同的 ASR、SLU 和对话策略的训练数据；
产生测试数据的 ASR、SLU 和对话策略均与产生训练样本的系统不同。

DSTC对DST的作用就相当于目标函数对机器学习任务的作用，真正起到了评估DST技术以及促进DST技术发展的作用。大部分的DST方法都是基于DSTC进行尝试的。

DSTC1: 在公交时刻领域中使用了人机对话。结果在SIGDIAL 2013的特别会议上介绍。
DSTC2&DSTC3: 在餐厅信息领域中使用了人机对话，评测假定用户的目标在对话过程中是可以改变的。结果在SIGDIAL 2014和IEEE SLT 2014的特别会议上介绍。
DSTC4: 在旅游信息领域使用了人与人之间的对话。结果在IWSDS 2015上发表。
DSTC5: 在旅游信息领域中使用了人与人对话，其中训练数据以一种语言提供，而测试数据则以另一种语言提供。结果在IEEE SLT 2016的特别会议上介绍。
DSTC6: 由3个并列的任务组成：面向目标的端到端的对话学习，端到端对话建模和对话中断检测。结果将在NIPS 2017之后的研讨会上介绍。

challenge	type	Domain	Data Provider	Main Theme
DSTC1	Human-Machine	Bus Route	CMU	Evaluation Metrics
DSTC2	Human-Machine	Restaurant	U. Cambridge	User Goal Changes
DSTC3	Human-Machine	Tourist Information	U. Cambridge	Domain Adaptation
DSTC4	Human-Machine	Tourist Information	I2R	Human Conversion
DSTC5	Human-Machine	Tourist Information	I2R	Language Adaptation
DSTC6	E2E Goal	Open data for Task-orientend dailog	MERL Adobe NAIST Naver Labs	End-to-End technologies to Dialog Systems

主办方提出了 11 种评测指标和 3 种评测时机（schedule）作为参考，详细说明如下：

Hypothesis accuracy: DST识别出的对话状态中最高置信度状态的准确率。此标准用以衡量首位假设的质量。
Mean reciprocal rank: 1/R 的平均值，其中 R 是第一条正确假设在置信状态中的排序。此标准用以衡量置信状态中排序的质量。
L2-norm: 置信状态的概率向量和真实状态的 0/1 向量之间的 L2 距离。此标准用以衡量置信状态中概率值的质量。
Average probability: 真实状态在置信状态中的概率得分的平均值。此标准用以衡量置信状态对真实状态的概率估计的质量。
ROC performance: 如下一系列指标来刻画置信状态中首位假设的可区分性

6-8：Equal error rate: 错误接受率（false accepts，FAs）和错误拒绝率（false rejects，FRs）的相交点（FA=FR）。

9-11: Correct accept 5/10/20: 当至多有 5%/10%/20% 的 FAs 时的正确接受率（correct accepts，CAs）。

DSTC 2013 还提出了三种评测的时机，分别为：

Schedule 1: 每轮对话都做评估；
Schedule 2: 对于一个概念（slot-value pair），只有在这个概念被提及时才评估；
Schedule 3: 在每个对话结束时评估。

看出Schedule 2是比较符合实际情况的，某个槽位被提及才去评估它，如果没有提及一般是不会去修改状态的，区别于Schedule 1。而Schedule 3忽略了中间的过程对状态的影响。

现有的对话状态追踪的评测标准有一定的局限性。主要问题在于，上述评估机制完全基于结构化的语义和对话状态表示。而在真实的商业应用对话系统中，为了更大程度的满足用户的需求，往往会采用结构化表示和非结构表示相结合的方法。

5.DST难点

对话状态追踪（Dialogue State Tracking, DST）是人机对话领域的一个重要问题，其目的是识别当前时刻用户的对话状态（意图和槽位填充信息），其结果作为对话系统的动作生成依据。当前 DST 的核心难点:

状态数非常多或者无限；
状态类型和值的多种表达方式；
新增领域和槽位；
跨领域的状态继承;
Zero-shot 领域。

本文主要介绍了DST的一些基本概念，包括DST的定义，状态表示、DSTC任务、挑战等，后续会介绍有哪些方法能够解决DST中问题，以及DST在小贝助手中的应用。

作者介绍

王文彬，2018年毕业于中国科学院大学。毕业后加入贝壳找房语言智能部，主要从事NLP、强化学习和搜索推荐相关工作。

戳下面👇

语言智能部等你加入，工程&算法超多岗位！

由于微信平台算法改版，公号内容将不再以时间排序展示，如果大家想第一时间看到我们的推送，强烈建议星标我们和给我们多点点【在看】。星标具体步骤为：

（1）点击页面最上方"AINLP"，进入公众号主页。

（2）点击右上角的小点点，在弹出页面点击“设为星标”，就可以啦。

感谢支持，比心。

欢迎加入对话系统技术交流群

进群请添加AINLP小助手微信 AINLPer（id: ainlper)，备注对话系统

推荐阅读

这个NLP工具，玩得根本停不下来

征稿启示| 200元稿费+5000DBC（价值20个小时GPU算力）

完结撒花！李宏毅老师深度学习与人类语言处理课程视频及课件（附下载）

从数据到模型，你可能需要1篇详实的pytorch踩坑指南

如何让Bert在finetune小数据集时更“稳”一点

模型压缩实践系列之——bert-of-theseus，一个非常亲民的bert压缩方法

文本自动摘要任务的“不完全”心得总结番外篇——submodular函数优化

Node2Vec 论文+代码笔记

模型压缩实践收尾篇——模型蒸馏以及其他一些技巧实践小结

中文命名实体识别工具（NER）哪家强？

学自然语言处理，其实更应该学好英语

斯坦福大学NLP组Python深度学习自然语言处理工具Stanza试用

关于AINLP

AINLP 是一个有趣有AI的自然语言处理社区，专注于 AI、NLP、机器学习、深度学习、推荐算法等相关技术的分享，主题包括文本摘要、智能问答、聊天机器人、机器翻译、自动生成、知识图谱、预训练模型、推荐系统、计算广告、招聘信息、求职经验分享等，欢迎关注！加技术交流群请添加AINLPer(id：ainlper)，备注工作/研究方向+加群目的。

阅读至此了，分享、点赞、在看三选一吧🙏

登录查看更多

相关内容

DST (Digital Sky Technologies)

关注 1

DST ( Digital Sky Technologies) 为一家俄罗斯科技、投资公司，创始人为 Yuri Milner。2010 年，DST 将旗下邮件服务和投资职能拆分为 http://Mail.ru Group 和 DST Global 两家公司。 DST 曾投资过 Facebook、Twitter、Groupon、Airbnb、Spotify、Zynga、Flipkart、阿里巴巴、京东等知名科技互联网企业。

【EMNLP2020】自然语言生成，Neural Language Generation

专知会员服务

39+阅读 · 2020年11月20日

【神经语言生成：形式化，方法与评价，70页pdf】

专知会员服务

37+阅读 · 2020年8月8日

最新《机器学习理论初探》概述

专知会员服务

48+阅读 · 2020年5月19日