EMNLP 2019开源论文:针对短文本分类的异质图注意力网络

2019 年 10 月 22 日 PaperWeekly


作者丨纪厚业

单位丨北京邮电大学博士生

研究方向丨异质图神经网络及其应用


本文由北邮和南洋理工联合发表在自然语言处理顶会 EMNLP 2019 上并开源了代码和数据(http://shichuan.org/ )。




论文动机


短文本分类在新闻及微博等领域得到了广泛的应用。但是,目前的文本分类算法主要集中于长文本分类并且无法直接应用于短文本分类。这是由于短文本分类的两个独有挑战:

1. 数据的稀疏和歧义:短文本通常不超过 10 个词,提供的信息非常有限。经典的 Bi-LSTM+Attention 往往无法有效的捕获短文本中的语义信息。


2. 标签数量较少:传统的监督学习无法有效工作,尤其是传统深度学习算法需要大量的监督数据。

针对上述两个挑战,本文创新地将短文本建模为异质图(见 Figure 1),通过图数据的复杂交互来解决数据稀疏和歧义带来的挑战。同时,本文提出了一种异质图注意力 HGAT 来学习短文本的表示并进行分类。HGAT 是一种半监督学习算法可以更好的适用于标签数量较少的场景,如短文本的分类。



HGAT


本文提出 Heterogeneous Graph Attention Network 来学习短文本异质图的表示。考虑到短文本所建模的异质图的特点,HGAT设计了 dual-level attention mechanism,包括 node level 和 type level,来更好的学习短文本的表示。模型架构图如 Figure 2 所示。



GCN & Heterogeneous GCN


本文首先对图神经网络和异质图神经网络进行了简单回顾。GCN 作为一种经典的图卷积神经网络,通过聚合邻接信息来更新节点表示。GCN 的核心更新公式如下:



其中,代表第 l 层的节点表示,代表对称归一化邻接矩阵,代表第 l 层的投影矩阵。这里基于来聚合邻居,每个邻居的重要性都是一样的。那么能不能学习邻居的重要性并加权融合来更好的学习节点表示呢?


Heterogeneous GCN 与 GCN 最大的区别是需要考虑多种异质关系的融合。Heterogeneous GCN 的核心更新公式如下:



可以看出,和 GCN 更新公式的最大区别是这里考虑了 T 种异质关系并进行了多关系的融合。这里对于多关系的融合是比较简单的,那么能不能加权融合呢? 


Node Level Attention 


显而易见,每个节点的邻居应该具有不同的重要性。Node level attention 可以学习邻居的重要性并通过加权聚合来学习节点的表示。Node level attention 首先将节点及其邻居的表示拼接起来,然后通过单层 MLP 和注意力向量将其转化为注意力分数



这里将注意力分数通过 softmax 归一化得到了注意力权重



最后,基于所学习到的注意力权重来聚合邻居。



可以看出,node level attention 将 Heterogeneous GCN 中的替换成了这样,噪音邻居的权重会较低而相对比较重要的邻居的权重会较高。


Type Level Attention


Type level attention 目标是学习多种关系的重要性并进行融合节点在多个关系下的表示。这里首先定义了节点 v 在关系 下的表示。节点 v 针对关系 的注意力分数如下式所示:



然后,通过 softmax 来对注意力分数进行归一化:



Model Training 


最后,我们将最后一层的节点(短文本)表示取出来并通过交叉熵来进行训练。



需要注意的是,HGAT 是半监督算法,这里的 loss 也是在少量标签数据上计算的。


实验


本文在 6 个数据集上进行了大量实验。数据集描述见 Table 1。



Baseline 的选择也较为全面,包括同样将文本数据建模为图的 TextGCN 和异质图神经网络 HAN。


对比结果见 Table 2,可以看出本文所提出的 HAN 有明显的优势。经典的 LSTM 和 CNN 在短文本分类上表现并不好。



另外,本文也测试了 HGAT 的多个变种,如 Table 3 所示。



最后,作者也测试标签数量对模型效果的影响,见 Figure 3. 可以看出,随着标签数量的增加,所有模型的表现都有不同程度的提升。



作者也尝试了不同的构图方式对模型的影响,见 Figure 4.



最后,作者通过一个 case study 来说明 attention 的作用,见 Figure 5. 受益于注意力机制,HGAT 有较好的可解释性。



总结


本文创新地将短文本分类转化为异质图建模来解决数据稀疏和歧义的问题。同时,HGAT 通过层次注意力机制更好的实现了信息聚合,所学习到的短文本的表示更加准确。最后,大量的实验验证了本文所提出算法的有效性。


图神经网络已经成为深度学习领域最热门的方向之一,也在很多领域得到了广泛的应用。除了短文本分类,图像和推荐领域也可以尝试引入图神经网络甚至是异质图神经网络。



 


PaperWeekly携手图灵教育

送出5本HanLP作者最新力作



本书作者是自然语言处理类库 HanLP 作者何晗。截至 2019 年 10 月初,该项目的 GitHub Star 数已达 15 K,超过了宾夕法尼亚大学的 NLTK、斯坦福大学的 CoreNLP、哈尔滨工业大学的 LTP。


作者汇集多年经验,从基本概念出发,逐步介绍中文分词、词性标注、命名实体识别、信息抽取、文本聚类、文本分类、句法分析这几个热门问题的算法原理与工程实现。书中通过对多种算法的讲解,比较了它们的优缺点和适用场景,同时详细演示生产级成熟代码,助你真正将自然语言处理应用在生产环境中。


 如何参与 


长按识别下方小程序码

即可参与本次抽奖


开奖时间:10月25日 13:00




#活 动 推 荐#

 10.31-11.1 北京智源大会 



世界AI看中国,中国AI看北京! 

百位顶级专家,60+前沿报告,10+圆桌论坛与尖峰对话,为你带来内行的AI盛会。荟萃全球顶级学者:John Hopcroft(图灵奖),Michael Jordan(机器学习权威学者),Chris Manning(NLP权威学者),朱松纯(计算机视觉权威学者),张钹、高文、戴琼海和张平文院士等100多位专家。
 
扫码查看大会详细日程,注册参会时输入优惠码「PAPERWEEKLY」专享7折优惠学生票仅69元(数量有限,先到先得)。




🔍


现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧



关于PaperWeekly


PaperWeekly 是一个推荐、解读、讨论、报道人工智能前沿论文成果的学术平台。如果你研究或从事 AI 领域,欢迎在公众号后台点击「交流群」,小助手将把你带入 PaperWeekly 的交流群里。


▽ 点击 | 阅读原文 | 下载论文 & 源码

登录查看更多
31

相关内容

基于多头注意力胶囊网络的文本分类模型
专知会员服务
76+阅读 · 2020年5月24日
【ICLR2020-哥伦比亚大学】多关系图神经网络CompGCN
专知会员服务
49+阅读 · 2020年4月2日
注意力图神经网络的多标签文本分类
专知会员服务
111+阅读 · 2020年3月28日
【ICLR2020-】基于记忆的图网络,MEMORY-BASED GRAPH NETWORKS
专知会员服务
108+阅读 · 2020年2月22日
【NeurIPS2019】图变换网络:Graph Transformer Network
专知会员服务
109+阅读 · 2019年11月25日
六篇 EMNLP 2019【图神经网络(GNN)+NLP】相关论文
专知会员服务
71+阅读 · 2019年11月3日
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
HAN:基于双层注意力机制的异质图深度神经网络
PaperWeekly
36+阅读 · 2019年4月23日
图神经网络综述:方法及应用 | Deep Reading
AI100
34+阅读 · 2019年3月17日
论文浅尝 | 图神经网络综述:方法及应用
开放知识图谱
113+阅读 · 2019年2月14日
图注意力网络
科技创新与创业
34+阅读 · 2017年11月22日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Factor Graph Attention
Arxiv
6+阅读 · 2019年4月11日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
17+阅读 · 2019年4月5日
Arxiv
3+阅读 · 2018年2月22日
Arxiv
11+阅读 · 2018年1月28日
VIP会员
相关资讯
ACL 2019开源论文 | 基于Attention的知识图谱关系预测
论文浅尝 | 基于知识图谱中图卷积神经网络的推荐系统
开放知识图谱
67+阅读 · 2019年8月27日
HAN:基于双层注意力机制的异质图深度神经网络
PaperWeekly
36+阅读 · 2019年4月23日
图神经网络综述:方法及应用 | Deep Reading
AI100
34+阅读 · 2019年3月17日
论文浅尝 | 图神经网络综述:方法及应用
开放知识图谱
113+阅读 · 2019年2月14日
图注意力网络
科技创新与创业
34+阅读 · 2017年11月22日
基于注意力机制的图卷积网络
科技创新与创业
73+阅读 · 2017年11月8日
相关论文
Heterogeneous Graph Transformer
Arxiv
27+阅读 · 2020年3月3日
Local Relation Networks for Image Recognition
Arxiv
4+阅读 · 2019年4月25日
Factor Graph Attention
Arxiv
6+阅读 · 2019年4月11日
Arxiv
6+阅读 · 2019年4月8日
Arxiv
17+阅读 · 2019年4月5日
Arxiv
3+阅读 · 2018年2月22日
Arxiv
11+阅读 · 2018年1月28日
Top
微信扫码咨询专知VIP会员