来自:艾达AI
Keyphrase extraction 是提取一小组最能描述文档的短语任务。现有的大多数基准数据集都带有有限的带注释文档,使得训练复杂化的网络具有挑战性。本文提出一种基于自蒸馏思想的联合学习方法来利用大量未标记的科学文档,在 Inspec 和 SemEval-2017 两个公共基准上获得最新的结果。
https://arxiv.org/pdf/2010.11980.pdf
一、引言
Keyphrase extraction 是从文档中自动提取一组代表性短语的任务,这些词能够简洁地描述文本主题内容,包含一定的信息量,对文本内容的理解有作用,主要包括单词、术语和短语。文本的关键词提取在基于文本的搜索、推荐以及数据挖掘领域有着很广泛的应用。
过去几年中,研究人员提出了许多用于关键词提取任务的方法,这些方法可以分为两大类:有监督的 和无监督的技术。 在存在足够的特定领域标记数据的情况下,有监督的关键短语提取方法通常优于无监督的方法。
大多数现有的用于关键短语提取的基准数据集通常都带有有限数量的带注释文档,这使得为该任务训练有效的深度学习模型具有挑战性。 相比之下,数字图书馆在线存储了数以百万计的科学文章,涵盖了广泛的主题。尽管这些文章中有很大一部分具有作者提供的关键词,但其他大多数文章都缺少此类注释。
在本文中,为了有效利用线上可用的大量未标记文章,提出了一种基于自蒸馏思想的新型联合学习方法,并且 使用了 Inspec和 SemEval-2017数据集 来 评估 模型 的有效性。
二、数据集
本文采用两个目标数据集:Inspec和SemEval-2017。Inspec数据集有1000/500/500条用于Train / dev / test拆分的科学文章摘要。SemEval-2017数据集有350/50/100条关于Train / dev / test拆分的科学文章。在实验中,我们使用KP20k数据集作为源数据集,因为它包含从各种在线数字图书馆收集的500,000多篇文章。
三、模型
Problem Formulation
将关键短语提取 作 为序列标记任务。 采用序列标注方式不需要生成候选短语列表,然后对短语列表进行排名,抽取靠前的短语作为关键词,而是直接一次性预测目标输出。
令D =(
,
…
)是由n个tokens组成的文档,其中
表示文档的第i个token。任务是预测标签y =(
,
…
)的序列,其中,
∈{{I, B, O}}是对应于每个token 的
标签。标签B表示关键字短语的开始,标签I表示关键字短语的继续,标签O对应于不属于任何关键字短语。
Baseline Models
本文将 BiLSTM-CRF 架构用作基准架构 ,图 1显示了基线模型 层次 概述。给定一系列输入 tokens ,模型首先使用基于 Transformer 的编码器为每个 token 形成上下文表示 ,并且在基于 Transformer 的表示之上进一步使用了双向 LSTM ,之后,使用全连接层将双向 LSTM 的输出映射到标签空间。 最后,将线性链 CRF 应用于解码标签。
图
1
基线模型的高层次概述
Joint Learning based on Self-Distillation (JLSD)
图2显示了提出的自蒸馏方法的流程。将标记数据集称为目标数据集,将未标记数据集称为源数据集。
首先使用带标签的样例训练 teacher模型。之后,开始训练参数化与 teacher模型相同的 student模型。在每次训练迭代中,都会对一批原始标签样例和通过 teacher模型对没有标签样例生成的伪标签进行抽样。
在训练过程中的任何时候,如果 student模型的性能有所提高(即在目标数据集的验证集上获得更好的结果),将使用 student模型的当前参数重新初始化 teacher模型,然后继续训练 student模型,并且使用之前相同的步骤。
图 3描述了提出的 JSLD算法。其中, T表示训练迭代次数, r是超参数,它确定每次迭代中要采样多少未标记的文档, D代表文档, y是对应的标签。
四、实验
本文实现了两个具有不同预训练上下文嵌入的基线模型: BERT( base-cased)和 SciBERT( scivocab-cased)。并且分别与有监督的方法(表 1, Inspec和 SemEval-2017数据集)、无监督的方法(表 2, Inspec数据集)以及与其他迁移学习技术的比较(表 1, simple pretraining 、 simple joint training),实验结果显示,通过应用本文提出的联合学习方法( JLSD),可以不断提高基线模型的性能。
表2 无监督模型的结果
五、结论
在本文工作中,提出了一种基于自蒸馏的新型联合学习方法。实验结果表明,本文方法不断提高基线模型的性能。其中最佳模型在两个公开基准( Inspec和 SemEval-2017)上都获得了最新的结果。在接下来的工作中,计划探索如何将本文的方法扩展到其他任务和其他语言中。
下载一:中文版!学习TensorFlow、PyTorch、机器学习、深度学习和数据结构五件套!
由于微信平台算法改版,公号内容将不再以时间排序展示,如果大家想第一时间看到我们的推送,强烈建议星标我们和给我们多点点【在看】。星标具体步骤为:
(1)点击页面 最上方 “ 深度学习自然语言处理 ”,进入公众号主页。
(2)点击 右上角的小点点 ,在弹出页面点击“ 设为星标 ”,就可以啦。
感谢支持,比心 。
投稿或交流学习,备注: 昵称-学校(公司)-方向 ,进入DL&NLP交流群。
方向有很多: 机器学习、深度学习,python,情感分析、意见挖掘、句法分析、机器翻译、人机对话、知识图谱、语音识别等 。
整理不易,还望给个在看!