【EMNLP2020】基于动态图交互网络的多意图口语语言理解框架

2020 年 12 月 10 日 专知

论文名称：AGIF: An AdaptiveGraph-Interactive Framework for Joint Multiple Intent Detection and SlotFillin g

论文作者：覃立波，徐啸，车万翔，刘挺

原创作者：覃立波

论文链接：https://www.aclweb.org/anthology/2020.findings-emnlp.16 3.pdf

代码链接：https://github.com/LooperXX/A GIF

转载须标注出处：哈工大 SCIR

1. 任务简介

口语理解任务（Spoken Language Understanding，SLU）主要包括两个子任务，意图识别（intent detection）和槽位填充（slot filling）任务，如图1所示。对于句子“watch action movie”，SLU任务识别该句子意图为“WatchMovie”，填充句子中每一个单词的槽位。

图1 每句话属于一个意图，每个单词属于一个槽位

2. 背景和动机

现有的模型采取联合建模方式[1]-[5]去考虑槽位填充和意图识别，已经取得了非常高的性能。但是，尽管取得较高的结果，现有的模型主要集中于关注单个意图的口语语言理解任务，这无法解决一句话中存在多个意图的情况。实际上，Gangadharaiah[6]指出，在亚马逊内部的数据集中有52%的句子包含多个意图。因此，构建一个多意图SLU系统在实际应用中是十分重要的。

不同于单意图SLU联合建模模型，如何有效利用多个意图信息去指导槽位填充是一个具有挑战的问题。 Gangadharaiah 提出使用slot-gated机制去利用一个整体的向量来代表多个意图师兄进行指导槽位填充。

尽管这是一种非常简单直接的利用多个意图信息方法，但它没有为槽位填充任务提供细粒度的意图信息指导，因为每个单词都由相同的意图信息指导，如图2（a）所示。此外，为所有单词提供相同的意图信息可能会引入歧义，每个单词很难捕获相关的意图信息。如图2（b）所示，这些单词“生日快乐”应该集中于意图“PlayMusic”，而令牌“deepwater bonaire”则取决于意图“GetWeather”。因此，每个单词都应该关注于相应的意图，对于单词级别的槽位填充，进行细粒度的意图信息集成至关重要。

图2 (a)前人方法将多个意图信息看做一个整体的意图向量进行指导和我们提出的细粒度多意图信息指导方法 (b)

为了解决这个问题，在本文中，我们提出了一个自适应的图交互框架（AGIF）来解决上述问题。核心模块是提出的自适应意图-槽位交互层。在这个图中，每个槽位节点直接连接所有预测的意图节点，用来显式地建模槽位和意图之间的联系。这个交互图能被动态的应用于每个槽位，使得每个槽位能够捕获不同的相关意图信息，从而实现细粒度的多意图信息集成。与以往的工作简单地静态地合并多个意图信息，并使用相同的意图信息来指导所有单词不同，我们的意向-槽位交互图是动态构建的，每个单词上都有交互网络，这可以鼓励模型自动过滤无关意图信息并捕获重要相关的意图。

3. 框架

模型框架如图3所示：主要包括一个共享的自我注意力编码层，一个意图识别解码器，一个槽位填充解码器，以及一个自适应的意图-槽位交互层。

图3 主模型框架

3.1 自我注意力机制的编码器

对于输入序列首先通过BiLSTM [7] 得到隐层表示。为了捕获单词之间的上下文信息，我们对于输入序列采用自我注意力机制获得相关表示C，公式如下：

最后我们将H和C进行连接，得到我们最后的编码表示E。

3.2 意图分类

在本文中，我们将意图分类建模为一种多标签分类问题，对于句子编码表示，首先利用自我注意机制该句话的句子表示c，公式如下：

其中是可学习参数。最终对c进行多标签分类得到结果 (n代表预测的意图个数)。例如，预测的多标签结果为 (0.9, 0.3, 0.6, 0.7, 0.2)，阈值为0.5，则最终的意图预测结果为I = (1,3,4)。

3.3 动态交互网络指导的槽位填充

对于槽位填充任务，我们使用一个单向LSTM网络来进行建模，每个位置的状态表示为：

而不是简单的使用进行槽位预测，我们建立了一个意图-槽位图交互网络去建模当前槽位与多个意图之间的交互，来捕获相关的意图信息，具体而言，我们使用图注意力网络(图中包含当期时刻的槽位状态向量和预测出的多个意图向量结点)去进行建模，最终进行L层交互后的表示代表已经融入了相关意图的信息，用来进行槽位填充：

对于意图识别和槽位填充任务，我们采用了联合建模方法来进行建模。

4. 实验

4.1 数据集

我们在DSCT4 [8]和利用启发式规则构造的MixATIS和MixSNIPS进行了实验。

4.2 主实验结果

我们对比了SLU上的SOTA模型，我们的模型（AGIF）基本上在所有指标超过了其他模型，达到新的SOTA结果，验证了我们模型的有效性。

表1 主实验结果

4.3 消融实验

表2 消融实验结果

1. Vanilla Attention Interaction代表利用vanilla attention机制进行意图和槽位交互。

2. GCN-based Interaction代表使用GCN而不是GAT进行图交互。

3. Sentence-Level Augmented 代表首先整合多个意图信息到一个向量，然后对每个单词进行相同意图向量的指导。

从表中结果可以分析得出，AGIF模型的每一个模块都对实验结果产生了有用的效果。

4.4 可视化分析

图4 可视化分析

从可视化结果可以看出，模型在不同单词成功捕获到了该单词相关的意图信息。比如播放列表单词clasica在意图AddToPlaylist的颜色比GetWeather深，说明模型在单词clasica正确学到更多的关注AddToPlaylist意图。

5. 结论

在本文中，我们提出了一个单词级自适应图交互网络来建模每个单词与多个意图交互，从而为槽位预测提供细粒度的意图信息。在三个数据集上的实验表明了所提出模型的有效性，并达到了SOTA的性能。

参考文献

[1] Xiaodong Zhang and Houfeng Wang. 2016. A joint model of intent determination and slot ﬁlling for spoken language understanding. IJCAI2016.

[2] Chih-Wen Goo, Guang Gao, Yun-Kai Hsu, Chih-Li Huo, Tsung-Chieh Chen, Keng-Wei Hsu, and Yun-Nung Chen. 2018. Slot-gated modeling for joint slot ﬁlling and intent prediction. NAACL 2018.

[3] Bing Liu and Ian Lane. 2016. Attention-based recur-rent neural network models for joint intent detection and slot ﬁlling. arXiv preprint arXiv:1609.01454.

[4] Changliang Li, Liang Li, and Ji Qi. 2018. A self-attentive model with gate mechanism for spoken lan-guage understanding. EMNLP2018.

[5] Libo Qin, Wanxiang Che, Yangming li, Haoyang Wen and Ting Liu. A Stack-Propagation Framework with Token-Level Intent Detection for Spoken Language Understanding EMNLP2019.

[6] Rashmi Gangadharaiah and Balakrishnan Narayanaswamy. Joint Multiple Intent Detection and Slot Labeling for Goal-Oriented Dialog NAACL2019.

[7] Sepp Hochreiter and J¨urgen Schmidhuber. 1997. Long short-term memory. Neural computation, 9(8).

[8] Byeongchang Kim, Seonghan Ryu, and Gary Geunbae Lee. 2017a. Two-stage multi-intent detection for spoken language understanding. Multimedia Tools and Applications, 76(9):11377–11390.

本期责任编辑：张伟男

本期编辑：钟蔚弘

『哈工大SCIR』公众号

主编：车万翔

副主编：张伟男，丁效

执行编辑：高建男

责任编辑：张伟男，丁效，崔一鸣，李忠阳

编辑：王若珂，钟蔚弘，彭湃，朱文轩，冯晨，杜佳琪，牟虹霖，张馨

专知便捷查看