Identifying and understanding quality phrases from context is a fundamental task in text mining. The most challenging part of this task arguably lies in uncommon, emerging, and domain-specific phrases. The infrequent nature of these phrases significantly hurts the performance of phrase mining methods that rely on sufficient phrase occurrences in the input corpus. Context-aware tagging models, though not restricted by frequency, heavily rely on domain experts for either massive sentence-level gold labels or handcrafted gazetteers. In this work, we propose UCPhrase, a novel unsupervised context-aware quality phrase tagger. Specifically, we induce high-quality phrase spans as silver labels from consistently co-occurring word sequences within each document. Compared with typical context-agnostic distant supervision based on existing knowledge bases (KBs), our silver labels root deeply in the input domain and context, thus having unique advantages in preserving contextual completeness and capturing emerging, out-of-KB phrases. Training a conventional neural tagger based on silver labels usually faces the risk of overfitting phrase surface names. Alternatively, we observe that the contextualized attention maps generated from a transformer-based neural language model effectively reveal the connections between words in a surface-agnostic way. Therefore, we pair such attention maps with the silver labels to train a lightweight span prediction model, which can be applied to new input to recognize (unseen) quality phrases regardless of their surface names or frequency. Thorough experiments on various tasks and datasets, including corpus-level phrase ranking, document-level keyphrase extraction, and sentence-level phrase tagging, demonstrate the superiority of our design over state-of-the-art pre-trained, unsupervised, and distantly supervised methods.


翻译:从上下文中识别和理解质量短语是文字开采的一项根本任务。 任务中最具挑战性的部分可以说在于罕见的、新兴的和特定域的短语。 这些短语的不常见性极大地伤害了依赖投入文库中足够多的语句的采矿语句的性能。 虽然不受频率限制,但背景认知标记模型在输入域和背景中深深植根,因此在保存背景完整性和捕捉新出现、超越 KB 语句方面有着独特的优势。 在这项工作中,我们建议使用一种新型的、不受监督的远端语系质量标签。 具体地说,我们从每个文档中生成高品质的语句作为银色标签。 与基于现有知识库( KBs) 的典型环境认知性远程监管相比,我们的银色标签在输入域和背景中具有独特的优势。 基于银色标签的常规调调通常会面临超标语系名称的风险。 另外,我们观察到,背景化的注意度分布图中, 包括变换的纸质的纸质排序, 以及我们之间, 的纸质排序的排序语言, 能够有效地展示着一个方向的纸质排序。

0
下载
关闭预览

相关内容

专知会员服务
29+阅读 · 2021年6月4日
专知会员服务
46+阅读 · 2020年12月4日
100+篇《自监督学习(Self-Supervised Learning)》论文最新合集
专知会员服务
160+阅读 · 2020年3月18日
【Google】无监督机器翻译,Unsupervised Machine Translation
专知会员服务
35+阅读 · 2020年3月3日
最新BERT相关论文清单,BERT-related Papers
专知会员服务
52+阅读 · 2019年9月29日
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Arxiv
6+阅读 · 2018年2月26日
Arxiv
4+阅读 · 2018年1月29日
VIP会员
相关资讯
IJCAI2020信息抽取相关论文合集
AINLP
6+阅读 · 2020年6月16日
人工智能 | CCF推荐期刊专刊约稿信息6条
Call4Papers
5+阅读 · 2019年2月18日
自然语言处理常见数据集、论文最全整理分享
深度学习与NLP
11+阅读 · 2019年1月26日
强化学习的Unsupervised Meta-Learning
CreateAMind
17+阅读 · 2019年1月7日
Unsupervised Learning via Meta-Learning
CreateAMind
41+阅读 · 2019年1月3日
CCF B类期刊IPM专刊截稿信息1条
Call4Papers
3+阅读 · 2018年10月11日
disentangled-representation-papers
CreateAMind
26+阅读 · 2018年9月12日
Top
微信扫码咨询专知VIP会员