现有的模型采取联合建模方式[1]-[5]去考虑槽位填充和意图识别,已经取得了非常高的性能。但是,尽管取得较高的结果,现有的模型主要集中于关注单个意图的口语语言理解任务,这无法解决一句话中存在多个意图的情况。实际上,Gangadharaiah[6]指出,在亚马逊内部的数据集中有52%的句子包含多个意图。因此,构建一个多意图SLU系统在实际应用中是十分重要的。
不同于单意图SLU联合建模模型,如何有效利用多个意图信息去指导槽位填充是一个具有挑战的问题。Gangadharaiah 提出使用slot-gated机制去利用一个整体的向量来代表多个意图师兄进行指导槽位填充。
尽管这是一种非常简单直接的利用多个意图信息方法,但它没有为槽位填充任务提供细粒度的意图信息指导,因为每个单词都由相同的意图信息指导,如图2(a)所示。此外,为所有单词提供相同的意图信息可能会引入歧义,每个单词很难捕获相关的意图信息。如图2(b)所示,这些单词“生日快乐”应该集中于意图“PlayMusic”,而令牌“deepwater bonaire”则取决于意图“GetWeather”。因此,每个单词都应该关注于相应的意图,对于单词级别的槽位填充,进行细粒度的意图信息集成至关重要。
为了解决这个问题,在本文中,我们提出了一个自适应的图交互框架(AGIF)来解决上述问题。核心模块是提出的自适应意图-槽位交互层。在这个图中,每个槽位节点直接连接所有预测的意图节点,用来显式地建模槽位和意图之间的联系。这个交互图能被动态的应用于每个槽位,使得每个槽位能够捕获不同的相关意图信息,从而实现细粒度的多意图信息集成。与以往的工作简单地静态地合并多个意图信息,并使用相同的意图信息来指导所有单词不同,我们的意向-槽位交互图是动态构建的,每个单词上都有交互网络,这可以鼓励模型自动过滤无关意图信息并捕获重要相关的意图。