COLING 2020 | 一种从科学文献中提取关键词的基于自蒸馏的联合学习方法

2020 年 11 月 21 日 深度学习自然语言处理

来自:艾达AI

Keyphrase extraction是提取一小组最能描述文档的短语任务。现有的大多数基准数据集都带有有限的带注释文档,使得训练复杂化的网络具有挑战性。本文提出一种基于自蒸馏思想的联合学习方法来利用大量未标记的科学文档,在InspecSemEval-2017两个公共基准上获得最新的结果。


论文链接:
https://arxiv.org/pdf/2010.11980.pdf

一、引言

Keyphrase extraction是从文档中自动提取一组代表性短语的任务,这些词能够简洁地描述文本主题内容,包含一定的信息量,对文本内容的理解有作用,主要包括单词、术语和短语。文本的关键词提取在基于文本的搜索、推荐以及数据挖掘领域有着很广泛的应用。

过去几年中,研究人员提出了许多用于关键词提取任务的方法,这些方法可以分为两大类:有监督的和无监督的技术。在存在足够的特定领域标记数据的情况下,有监督的关键短语提取方法通常优于无监督的方法。

大多数现有的用于关键短语提取的基准数据集通常都带有有限数量的带注释文档,这使得为该任务训练有效的深度学习模型具有挑战性。相比之下,数字图书馆在线存储了数以百万计的科学文章,涵盖了广泛的主题。尽管这些文章中有很大一部分具有作者提供的关键词,但其他大多数文章都缺少此类注释。

在本文中,为了有效利用线上可用的大量未标记文章,提出了一种基于自蒸馏思想的新型联合学习方法,并且使用了InspecSemEval-2017数据集评估模型的有效性。

二、数据集

本文采用两个目标数据集:Inspec和SemEval-2017。Inspec数据集有1000/500/500条用于Train / dev / test拆分的科学文章摘要。SemEval-2017数据集有350/50/100条关于Train / dev / test拆分的科学文章。在实验中,我们使用KP20k数据集作为源数据集,因为它包含从各种在线数字图书馆收集的500,000多篇文章。


三、模型

Problem Formulation

将关键短语提取为序列标记任务。采用序列标注方式不需要生成候选短语列表,然后对短语列表进行排名,抽取靠前的短语作为关键词,而是直接一次性预测目标输出。

令D =(  …  )是由n个tokens组成的文档,其中 表示文档的第i个token。任务是预测标签y =(  …  )的序列,其中, ∈{{I, B, O}}是对应于每个token 的 标签。标签B表示关键字短语的开始,标签I表示关键字短语的继续,标签O对应于不属于任何关键字短语。

Baseline Models

本文将BiLSTM-CRF架构用作基准架构,图1显示了基线模型层次概述。给定一系列输入tokens,模型首先使用基于Transformer的编码器为每个token形成上下文表示,并且在基于Transformer的表示之上进一步使用了双向LSTM,之后,使用全连接层将双向LSTM的输出映射到标签空间。最后,将线性链CRF应用于解码标签。
1  基线模型的高层次概述
 

Joint Learning based on Self-Distillation (JLSD)

图2显示了提出的自蒸馏方法的流程。将标记数据集称为目标数据集,将未标记数据集称为源数据集。
2 自蒸馏的模型概述
 
首先使用带标签的样例训练teacher模型。之后,开始训练参数化与teacher模型相同的student模型。在每次训练迭代中,都会对一批原始标签样例和通过teacher模型对没有标签样例生成的伪标签进行抽样。

在训练过程中的任何时候,如果student模型的性能有所提高(即在目标数据集的验证集上获得更好的结果),将使用student模型的当前参数重新初始化teacher模型,然后继续训练student模型,并且使用之前相同的步骤。
3 JSLD算法
 
3描述了提出的JSLD算法。其中,T表示训练迭代次数,r是超参数,它确定每次迭代中要采样多少未标记的文档,D代表文档,y是对应的标签。

四、实验

本文实现了两个具有不同预训练上下文嵌入的基线模型:BERTbase-cased)和SciBERTscivocab-cased)。并且分别与有监督的方法(表1InspecSemEval-2017数据集)、无监督的方法(表2Inspec数据集)以及与其他迁移学习技术的比较(表1simple pretraining simple joint training),实验结果显示,通过应用本文提出的联合学习方法(JLSD),可以不断提高基线模型的性能。
 表1 目标数据集的总体结果

 表2 无监督模型的结果

五、结论

在本文工作中,提出了一种基于自蒸馏的新型联合学习方法。实验结果表明,本文方法不断提高基线模型的性能。其中最佳模型在两个公开基准(InspecSemEval-2017)上都获得了最新的结果。在接下来的工作中,计划探索如何将本文的方法扩展到其他任务和其他语言中。
  
  
    

下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!
后台回复【五件套


下载二:南大模式识别PPT
后台回复南大模式识别



说个正事哈



由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:

(1)点击页面最上方深度学习自然语言处理”,进入公众号主页。

(2)点击右上角的小点点,在弹出页面点击“设为星标”,就可以啦。

感谢支持,比心



投稿或交流学习,备注:昵称-学校(公司)-方向,进入DL&NLP交流群。

方向有很多:机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等

记得备注呦


推荐两个专辑给大家:
专辑 | 李宏毅人类语言处理2020笔记
专辑 | NLP论文解读
专辑 | 情感分析

整理不易,还望给个在看!

登录查看更多
2

相关内容

【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
【COLING2020】无监督依存解析的综述论文,12页pdf
专知会员服务
15+阅读 · 2020年10月27日
专知会员服务
20+阅读 · 2020年9月11日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
基于句子嵌入的无监督文本摘要(附代码实现)
【综述】关键词生成,附10页pdf论文下载
专知
9+阅读 · 2019年10月16日
【论文笔记】基于强化学习的句子摘要排序
【ACL】文本摘要研究工作总结
中国人工智能学会
30+阅读 · 2019年8月10日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
论文浅尝 | 使用循环神经网络的联合事件抽取
开放知识图谱
25+阅读 · 2019年4月28日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
Informative and Controllable Opinion Summarization
Arxiv
0+阅读 · 2021年1月22日
Arxiv
3+阅读 · 2019年8月19日
Arxiv
3+阅读 · 2019年3月1日
Arxiv
10+阅读 · 2017年7月4日
VIP会员
相关VIP内容
【CCL2020】基于深度学习的实体关系抽取研究综述
专知会员服务
52+阅读 · 2020年11月4日
【COLING2020】无监督依存解析的综述论文,12页pdf
专知会员服务
15+阅读 · 2020年10月27日
专知会员服务
20+阅读 · 2020年9月11日
基于改进卷积神经网络的短文本分类模型
专知会员服务
25+阅读 · 2020年7月22日
【ACL2020】基于图神经网络的文本分类新方法
专知会员服务
68+阅读 · 2020年7月12日
【综述】关键词生成,附10页pdf论文下载
专知会员服务
52+阅读 · 2019年11月20日
相关资讯
基于句子嵌入的无监督文本摘要(附代码实现)
【综述】关键词生成,附10页pdf论文下载
专知
9+阅读 · 2019年10月16日
【论文笔记】基于强化学习的句子摘要排序
【ACL】文本摘要研究工作总结
中国人工智能学会
30+阅读 · 2019年8月10日
论文浅尝 | GraphIE:基于图的信息抽取框架
开放知识图谱
17+阅读 · 2019年6月2日
论文浅尝 | 使用循环神经网络的联合事件抽取
开放知识图谱
25+阅读 · 2019年4月28日
赛尔原创 | 文本摘要简述
哈工大SCIR
22+阅读 · 2019年3月25日
论文浅尝 | 基于知识库的自然语言理解 01#
开放知识图谱
15+阅读 · 2019年2月22日
一种关键字提取新方法
1号机器人网
21+阅读 · 2018年11月15日
Top
微信扫码咨询专知VIP会员