从上下文中识别和理解高质量短语是文本挖掘的一项基本任务。可以说,这项任务中最具挑战性的部分在于不常见的、新兴的和特定领域的短语。这些短语的不频繁性严重影响了依赖于输入语料库中大量短语出现的短语挖掘方法的性能。上下文感知的标签模型,虽然不受频率的限制,但严重依赖领域专家的大量句子级真实标签或手工地名词典。在这项工作中,我们提出了UCPhrase,一个新的无监督上下文感知质量短语标记器。具体来说,我们从每个文档中一致同时出现的单词序列中归纳出高质量的短语跨度作为silver标签。与典型的基于现有知识库(KBs)的上下文无关的远监督相比,我们的silver标签深深扎根于输入域和上下文,因此在保持上下文完整性和捕获新兴的、非知识库短语方面具有独特的优势。训练一个基于silver标签的传统神经标记器通常会面临过拟合短语表面名称的风险。另外,我们观察到,上下文注意力图从基于Transformer的神经语言模型中生成,有效地揭示了词汇之间的联系,而不涉及表面。因此,我们将这种注意力图与silver标签配对,以训练一个轻量级跨度预测模型,该模型可以应用于新的输入,以识别(看不见的)质量短语,而不考虑它们的表面名称或频率。对各种任务和数据集进行的全面实验,包括语料库级短语排序、文档级关键短语提取和句子级短语标注,证明了我们的设计优于最先进的预处理、无监督和远程监督方法。

成为VIP会员查看完整内容
29

相关内容

专知会员服务
43+阅读 · 2021年7月6日
专知会员服务
44+阅读 · 2021年1月31日
【AAAI2021】对话推理:上下文阅读理解提升回复生成
专知会员服务
43+阅读 · 2021年1月23日
【WSDM2021】通过学习中间监督信号改进多跳知识库问答
专知会员服务
10+阅读 · 2021年1月14日
【KDD2020】 半监督迁移协同过滤推荐
专知会员服务
19+阅读 · 2020年10月21日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
Longformer:超越RoBERTa,为长文档而生的预训练模型
AI科技评论
4+阅读 · 2020年7月25日
知识图谱构建-关系抽取和属性抽取
深度学习自然语言处理
26+阅读 · 2020年3月1日
基于句子嵌入的无监督文本摘要(附代码实现)
论文浅尝 | 利用问题生成提升知识图谱问答
开放知识图谱
20+阅读 · 2019年11月5日
基于知识图谱的文本挖掘 - 超越文本挖掘
专知
38+阅读 · 2019年8月18日
Universal Transformers
Arxiv
5+阅读 · 2019年3月5日
VIP会员
相关VIP内容
专知会员服务
43+阅读 · 2021年7月6日
专知会员服务
44+阅读 · 2021年1月31日
【AAAI2021】对话推理:上下文阅读理解提升回复生成
专知会员服务
43+阅读 · 2021年1月23日
【WSDM2021】通过学习中间监督信号改进多跳知识库问答
专知会员服务
10+阅读 · 2021年1月14日
【KDD2020】 半监督迁移协同过滤推荐
专知会员服务
19+阅读 · 2020年10月21日
【NeurIPS 2020】融入BERT到并行序列模型
专知会员服务
25+阅读 · 2020年10月15日
微信扫码咨询专知VIP会员