AAAI 2021 | 纠结于联合学习中的建模方法?快来看看图网络显式建模!

2021 年 1 月 24 日 专知

论文名称:Co-GAT: A Co-Interactive Graph Attention Network for Dialog Act Recognition and Sentiment Classification
论文作者:覃立波、黎州扬、车万翔、倪旻恒、刘挺
原创作者:黎州扬
论文链接:https://arxiv.org/pdf/2010.00190.pdf
代码链接:https://github.com/RaleLee/Co-GAT
转载须标注出处:哈工大SCIR

1. 简介

1.1 研究背景与任务定义

在对话系统中,对话行为识别和情感分类是两个相关任务,能够帮助进行识别说话者的意图。其中,对话行为能够展示说话者显式的意图,而情感能展现说话者隐式的意图 [1]
更具体的来说,对话行为识别和对话情感分类都可以看作是分类任务,目标是将对话中的每条语句标注上对应的DA标签和SC标签。

图1 任务示例

1.2 研究动机

直观上,有两个关键因素有助于对话行为识别和情感预测。一个是跨任务的相互交互信息mutual interaction information,另一个是对话中的上下文信息context information。

图2 信息交互示例
如图2所示,在预测 User B 的情感标签 Negative 的过程中,相互交互信息 User B 的对话行为标签 Agreement ,对话历史信息 User A 的情感标签 Negative ,对成功预测起到很大帮助。在预测过程中, User BAgreement 标签表明其认同 User A 的上一句话,因此 User B 的情感标签更倾向于与 UserA 的上一句话的情感标签 Negative 相同。
所以, 将两种信息同时考虑是很有必要的

图3 前人工作示意

如图3所示,前人的联合建模工作中,Cerisara等人[1]专注于相互交互信息(图3左),Kim等人[2]专注于对话历史信息(图3右)。最近,Qin等人[3]提出DCR-Net模型,虽然取得了较好效果,但是该模型却是以一种pipeline的方式来获取两种信息:在Encoder端获取对话历史信息,在relation layer端获取交互信息。但是我们认为,该类流水线式的模型存在一个问题: 两种信息是单独建模的。
所以接下来的问题是: 我们是否可以在一个统一的框架中同时对相互交互信息和上下文信息建模,来将它们完全整合呢?
为了解决此问题,我们提出了 Co-Interactive Graph Attention Network(Co-GAT)模型来联合建模两个任务。核心模块是一个协同交互图层,在协同交互图中,我们使用了一个双重连接的交互模式,包含有跨语句连接和跨任务连接,并且能够相互迭代更新。更具体的来说,跨语句连接中,一个句子会和这段对话中其余的语句相连来获取对话中的上下文信息;跨任务连接中,一个句子会和另外一个任务中的这段对话中的所有句子连接来获取任务间的相互交互信息;同时这两种连接在一个统一的图网络中同时更新。
从而给出了之前提出问题的回答: 每个话语节点可以与上下文信息和相互交互信息同时更新。

图4 Co-GAT示意

2. 模型

2.1 整体框架

图5 Co-GAT整体框架
如图所示,这是模型的整体框架。由三部分组成,第一部分为分层对话者感知编码器;第二部分为核心模块——协同图交互层;第三部分为解码器部分。将在以下部分中作详细介绍。

2.2 Vanilla Graph Attention Network

对于单层图注意力网络[4],它接受一个图中所有节点的表示作为输入,输出更新后的这些节点的表示。

首先,由公式1计算出hi邻接节点hj的重要性,然后通过公式2获取attention分数,最后使用求和的方式得到节点更新后的表示。这里我们还引入了多头注意力机制。

2.3 Hierarchical Speaker-Aware Encoder

我们使用Bi-LSTM来对句子进行编码。

之后,为了更好的揭示对话者自我的逻辑,我们引入了Speaker-Aware graph。在该图中,节点是对话中的每句话;如果节点i和节点j同属于一个对话者,那么就将其连接。

2.4 Co-Interactive Graph Layer

在协同交互图中,假设一段对话中有N个句子。
  • 顶点:一共有2N个顶点,每个顶点对应一个句子表示。
    • N个顶点为情感分类任务的句子表示
    • N个顶点为对话行为识别任务的句子表示
  • 边:一共有两种连接
    • 跨语句连接。节点i连接上其同属一个任务的节点来获取上下文信息
    • 跨任务连接。节点i连接上另一个任务的所有节点来获取相互交互信息

2.5 Decoder and Joint Training

我们使用两个单独的Decoder来获取分类的结果:

我们将loss联合起来更新:

3. 实验

3.1 数据集

我们在两个公开数据集Dailydialog和Mastodon上进行了实验,我们保持了两个数据集原分割不变。
  • Dailydialog中, 训练集11,118个对话, 验证集1,000个对话,测试集1,000个对话
  • Mastodon中,训练集239个对话,测试集266个对话

3.2 主实验结果

表1 主实验结果

如表所示,baseline结果分为三块,分别为单独的Dialogue Act Recognition模型、单独的Sentiment Classification模型和联合模型。从结果可以看出:
  • 我们的实验结果在所有指标上超过了现有DAR和SC的单独建模的模型,这表明了我们联合建模中提取mutual interaction information的有效性。
  • 我们的实验结果在所有指标上超过了现有的联合建模模型,这表明了将context information和mutual interaction information同时建模的有效性。

3.3 消融实验结果

表2 消融实验结果

上表是消融实验的结果,从中可以看出:
  • without cross-tasks connection设置中,我们将cross-tasks connection去掉,来验证mutual interaction information的有效性。
  • without cross-utterances connection设置中,我们将cross-utterances connection去掉,来验证context information的有效性
  • separate modeling设置中,我们将co-interactive interaction layer去掉,使用两个单独的GAT建模两个任务,然后将两个模型的结果求和来表示交互,这表明了我们的co-interactive interaction layer能更好的同时获取两种信息。
  • co-attention mechanism设置中,我们用DCR-Net中的co-attention mechanism来替换我们的co-interactive interaction layer,表明了pipeline方法的劣势。
  • without speaker information设置中,我们去掉了hierarchical speaker-aware encoder中的speaker-aware graph,验证了合理的建模speaker的信息流可以帮助提高模型的效果。值得注意的是,在去掉该信息后,我们模型的结果依旧高于SOTA模型DCR-Net。

3.4 预训练模型探索实验

我们在Mastodon数据集上探索了预训练模型的效果。我们直接将预训练模型替换hierarchical speaker-aware encoder作为Encoder,来观察我们提出的co-interactive graph layer的效果。

图6 BERT模型探索结果

图6是对于BERT模型的探索结果,我们的模型超过了baseline DCR-Net+BERT的效果

表3 RoBERTa和XLNet探索结果

表3是对于RoBERTa和XLNet预训练模型的探索结果。其中
  • RoBERTa/XLNet+Linear是将RoBERTa/XLNet作为共享encoder,然后使用两个单独的线性层作为decoder获得预测结果。
  • Co-GAT+RoBERTa/XLNet是将RoBERTa/XLNet替换hierarchical speaker-aware encoder作为Encoder,保持我们的model剩余部分不变。
实验结果表明,Co-GAT和RoBERTa/XLNet的结合可以进一步提升模型效果,证明了我们的贡献与预训练模型是互补的。

4.结论

在这篇文章中,我们的贡献如下:
  • 我们首次尝试同时结合上下文信息和相互交互信息来进行联合对话行为识别和情感分类。
  • 我们提出了一个协同交互的图注意力网络,该网络构造了交叉任务连接和交叉话语连接,并相互进行迭代更新,从而实现了同时结合上下文信息和交互信息的建模。
  • 在两个公开数据集上进行的实验表明,我们的模型取得了实质性的改进,并实现了最佳的性能。此外,我们框架的贡献与预训练模型(BERT,Roberta,XLNet)是互补的。

参考文献

[1] Cerisara, C.; Jafaritazehjani, S.; Oluokun, A.; and Le, H. T. Multi-task dialog act and sentiment recognition on mastodon. In Proc. of COLING 2018.

[2] Kim, M.; and Kim, H. Integrated neural network model for identifying speech acts, predicators, and sentiments of dialogue utterances. Pattern Recognition Letters 2018.

[3] Libo Qin, Wanxiang Che, Yangming Li, Mingheng Ni, Ting Liu. DCR-Net: A Deep Co-Interactive Relation Network for Joint Dialog Act Recognition and Sentiment Classification. AAAI 2020.

[4] Veličković P, Cucurull G, Casanova A, et al. Graph attention networks. ICLR 2018.


本期责任编辑:丁 效
本期编辑:彭 湃



『哈工大SCIR』公众号
主编:车万翔
副主编:张伟男,丁效
执行编辑:高建男
责任编辑:张伟男,丁效,崔一鸣,李忠阳
编辑:王若珂,钟蔚弘,彭湃,朱文轩,冯晨,杜佳琪,牟虹霖,张馨


专知,专业可信的人工智能知识分发,让认知协作更快更好!欢迎注册登录专知www.zhuanzhi.ai,获取5000+AI主题干货知识资料!
欢迎微信扫一扫加入专知人工智能知识星球群,获取最新AI专业干货知识教程资料和与专家交流咨询
点击“ 阅读原文 ”,了解使用 专知 ,查看获取5000+AI主题知识资源
登录查看更多
2

相关内容

图注意力网络(Graph Attention Network,GAT),它通过注意力机制(Attention Mechanism)来对邻居节点做聚合操作,实现了对不同邻居权重的自适应分配,从而大大提高了图神经网络模型的表达能力。
专知会员服务
68+阅读 · 2021年4月27日
专知会员服务
41+阅读 · 2021年3月21日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
24+阅读 · 2020年12月27日
专知会员服务
108+阅读 · 2020年12月22日
近期必读的8篇 AAAI 2020【图神经网络(GNN)】相关论文
专知会员服务
76+阅读 · 2020年1月15日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习
哈工大SCIR
28+阅读 · 2019年9月12日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
论文浅尝 | 使用循环神经网络的联合事件抽取
开放知识图谱
25+阅读 · 2019年4月28日
哈工大SCIR六篇长文被COLING 2018录用
哈工大SCIR
7+阅读 · 2018年5月17日
【紫冬声音】尬聊求解:多任务联合学习框架
中国自动化学会
5+阅读 · 2018年4月19日
Signed Graph Attention Networks
Arxiv
7+阅读 · 2019年9月5日
Arxiv
24+阅读 · 2018年10月24日
Arxiv
3+阅读 · 2015年5月16日
VIP会员
相关VIP内容
专知会员服务
68+阅读 · 2021年4月27日
专知会员服务
41+阅读 · 2021年3月21日
AAAI2021 | 学习预训练图神经网络
专知会员服务
115+阅读 · 2021年1月28日
【WSDM2021】多交互注意力网络细粒度特征学习的CTR预测
专知会员服务
24+阅读 · 2020年12月27日
专知会员服务
108+阅读 · 2020年12月22日
近期必读的8篇 AAAI 2020【图神经网络(GNN)】相关论文
专知会员服务
76+阅读 · 2020年1月15日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
相关资讯
赛尔原创 | EMNLP 2019 常识信息增强的事件表示学习
哈工大SCIR
28+阅读 · 2019年9月12日
【CVPR2019】弱监督图像分类建模
深度学习大讲堂
38+阅读 · 2019年7月25日
基于关系网络的视觉建模:有望替代卷积神经网络
微软研究院AI头条
10+阅读 · 2019年7月12日
论文浅尝 | 使用循环神经网络的联合事件抽取
开放知识图谱
25+阅读 · 2019年4月28日
哈工大SCIR六篇长文被COLING 2018录用
哈工大SCIR
7+阅读 · 2018年5月17日
【紫冬声音】尬聊求解:多任务联合学习框架
中国自动化学会
5+阅读 · 2018年4月19日
Top
微信扫码咨询专知VIP会员