【KDD2021】UCPhrase:无监督上下文感知质量短语标注 - 专知VIP

会员服务 ·

1

KDD 2021 · 短语挖掘 · 语言模型 · 无监督方法 ·

2021 年 6 月 4 日

【KDD2021】UCPhrase:无监督上下文感知质量短语标注

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

从上下文中识别和理解高质量短语是文本挖掘的一项基本任务。可以说，这项任务中最具挑战性的部分在于不常见的、新兴的和特定领域的短语。这些短语的不频繁性严重影响了依赖于输入语料库中大量短语出现的短语挖掘方法的性能。上下文感知的标签模型，虽然不受频率的限制，但严重依赖领域专家的大量句子级真实标签或手工地名词典。在这项工作中，我们提出了UCPhrase，一个新的无监督上下文感知质量短语标记器。具体来说，我们从每个文档中一致同时出现的单词序列中归纳出高质量的短语跨度作为silver标签。与典型的基于现有知识库(KBs)的上下文无关的远监督相比，我们的silver标签深深扎根于输入域和上下文，因此在保持上下文完整性和捕获新兴的、非知识库短语方面具有独特的优势。训练一个基于silver标签的传统神经标记器通常会面临过拟合短语表面名称的风险。另外，我们观察到，上下文注意力图从基于Transformer的神经语言模型中生成，有效地揭示了词汇之间的联系，而不涉及表面。因此，我们将这种注意力图与silver标签配对，以训练一个轻量级跨度预测模型，该模型可以应用于新的输入，以识别(看不见的)质量短语，而不考虑它们的表面名称或频率。对各种任务和数据集进行的全面实验，包括语料库级短语排序、文档级关键短语提取和句子级短语标注，证明了我们的设计优于最先进的预处理、无监督和远程监督方法。

成为VIP会员查看完整内容

31

相关内容

KDD 2021

【KDD2021】基于知识图谱的神经回答逻辑查询

专知会员服务

44+阅读 · 2021年7月6日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】对话推理：上下文阅读理解提升回复生成

【AAAI2021】对话推理：上下文阅读理解提升回复生成

专知会员服务

44+阅读 · 2021年1月23日

【WSDM2021】通过学习中间监督信号改进多跳知识库问答

【WSDM2021】通过学习中间监督信号改进多跳知识库问答

专知会员服务

11+阅读 · 2021年1月14日

【WSDM2021】通过知识图谱上的伪标记缓解推荐中的冷启动问题

专知会员服务

23+阅读 · 2020年11月13日

【KDD2020】半监督迁移协同过滤推荐

【KDD2020】半监督迁移协同过滤推荐

专知会员服务

20+阅读 · 2020年10月21日

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

专知会员服务

16+阅读 · 2020年10月17日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

专知会员服务

48+阅读 · 2020年4月1日

Longformer：超越RoBERTa，为长文档而生的预训练模型

Longformer：超越RoBERTa，为长文档而生的预训练模型

AI科技评论

4+阅读 · 2020年7月25日

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

知识图谱构建-关系抽取和属性抽取

知识图谱构建-关系抽取和属性抽取

深度学习自然语言处理

26+阅读 · 2020年3月1日

基于句子嵌入的无监督文本摘要（附代码实现）

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 利用问题生成提升知识图谱问答

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

39+阅读 · 2019年8月18日

CMU基于话题模型，用整篇文档解决词义消歧问题

CMU基于话题模型，用整篇文档解决词义消歧问题

论智

5+阅读 · 2018年1月14日

AAAI 2018 | 南京大学提出SSWL：从半监督弱标注数据中学习多标签学习问题

AAAI 2018 | 南京大学提出SSWL：从半监督弱标注数据中学习多标签学习问题

机器之心

21+阅读 · 2018年1月7日

Segmentation in Style: Unsupervised Semantic Image Segmentation with Stylegan and CLIP

Arxiv

1+阅读 · 2021年7月26日

Wasserstein-Splitting Gaussian Process Regression for Heterogeneous Online Bayesian Inference

Arxiv

0+阅读 · 2021年7月26日

Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference

Arxiv

0+阅读 · 2021年7月26日

Conditional Inference for Multivariate Generalised Linear Mixed Models

Arxiv

0+阅读 · 2021年7月25日

FNetAR: Mixing Tokens with Autoregressive Fourier Transforms

Arxiv

0+阅读 · 2021年7月22日

RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

Arxiv

11+阅读 · 2019年11月25日

Anonymized BERT: An Augmentation Approach to the Gendered Pronoun Resolution Challenge

Anonymized BERT: An Augmentation Approach to the Gendered Pronoun Resolution Challenge

Arxiv

4+阅读 · 2019年5月6日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Variational Inference In Pachinko Allocation Machines

Arxiv

8+阅读 · 2018年4月21日

Integrating semi-supervised label propagation and random forests for multi-atlas based hippocampus segmentation

Arxiv

3+阅读 · 2017年12月31日

VIP会员

相关主题

无监督方法

相关VIP内容

【KDD2021】基于知识图谱的神经回答逻辑查询

专知会员服务

44+阅读 · 2021年7月6日

【CVPR2021】基于相似性分布距离的无监督人脸图像质量评价

专知会员服务

32+阅读 · 2021年3月19日

【AAAI2021】基于双任务一致性的半监督医学图像分割

专知会员服务

45+阅读 · 2021年1月31日

【AAAI2021】对话推理：上下文阅读理解提升回复生成

【AAAI2021】对话推理：上下文阅读理解提升回复生成

专知会员服务

44+阅读 · 2021年1月23日

【WSDM2021】通过学习中间监督信号改进多跳知识库问答

【WSDM2021】通过学习中间监督信号改进多跳知识库问答

专知会员服务

11+阅读 · 2021年1月14日

【WSDM2021】通过知识图谱上的伪标记缓解推荐中的冷启动问题

专知会员服务

23+阅读 · 2020年11月13日

【KDD2020】半监督迁移协同过滤推荐

【KDD2020】半监督迁移协同过滤推荐

专知会员服务

20+阅读 · 2020年10月21日

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

【NeurIPS 2020】用人眼注视引导的神经注意力提升自然语言处理任务

专知会员服务

16+阅读 · 2020年10月17日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

【WWW2020-人大】通过对抗性学习从用户-项目交互数据中挖掘隐含的实体偏好以完成知识图谱补全

专知会员服务

48+阅读 · 2020年4月1日

热门VIP内容

开通专知VIP会员享更多权益服务

【博士论文】低维与高维空间中潜在表征的分析、建模与变换

《生态建模密码破译：建模与编程实践》美陆军最新报告

大模型解决方案白皮书：社交陪伴场景全流程落地指南

面向具身操作的视觉-语言-动作模型综述

相关资讯

Longformer：超越RoBERTa，为长文档而生的预训练模型

Longformer：超越RoBERTa，为长文档而生的预训练模型

AI科技评论

4+阅读 · 2020年7月25日

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

从知识图谱到文本：结合局部和全局图信息生成更高质量的文本

PaperWeekly

21+阅读 · 2020年3月22日

知识图谱构建-关系抽取和属性抽取

知识图谱构建-关系抽取和属性抽取

深度学习自然语言处理

26+阅读 · 2020年3月1日

基于句子嵌入的无监督文本摘要（附代码实现）

基于句子嵌入的无监督文本摘要（附代码实现）

PaperWeekly

23+阅读 · 2020年2月4日

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

【华为诺亚新论文】基于图上下文知识融入的预训练语言模型

专知

23+阅读 · 2019年12月8日

论文浅尝 | 利用问题生成提升知识图谱问答

论文浅尝 | 利用问题生成提升知识图谱问答

开放知识图谱

20+阅读 · 2019年11月5日

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

【论文笔记】韩家炜团队AutoPhrase：从大量文本库中自动挖掘短语

专知

41+阅读 · 2019年11月2日

基于知识图谱的文本挖掘 - 超越文本挖掘

基于知识图谱的文本挖掘 - 超越文本挖掘

专知

39+阅读 · 2019年8月18日

CMU基于话题模型，用整篇文档解决词义消歧问题

CMU基于话题模型，用整篇文档解决词义消歧问题

论智

5+阅读 · 2018年1月14日

AAAI 2018 | 南京大学提出SSWL：从半监督弱标注数据中学习多标签学习问题

AAAI 2018 | 南京大学提出SSWL：从半监督弱标注数据中学习多标签学习问题

机器之心

21+阅读 · 2018年1月7日

相关论文

Segmentation in Style: Unsupervised Semantic Image Segmentation with Stylegan and CLIP

Arxiv

1+阅读 · 2021年7月26日

Wasserstein-Splitting Gaussian Process Regression for Heterogeneous Online Bayesian Inference

Arxiv

0+阅读 · 2021年7月26日

Adaptive Hierarchical Graph Reasoning with Semantic Coherence for Video-and-Language Inference

Arxiv

0+阅读 · 2021年7月26日

Conditional Inference for Multivariate Generalised Linear Mixed Models

Arxiv

0+阅读 · 2021年7月25日

FNetAR: Mixing Tokens with Autoregressive Fourier Transforms

Arxiv

0+阅读 · 2021年7月22日

RandLA-Net: Efficient Semantic Segmentation of Large-Scale Point Clouds

Arxiv

11+阅读 · 2019年11月25日

Anonymized BERT: An Augmentation Approach to the Gendered Pronoun Resolution Challenge

Anonymized BERT: An Augmentation Approach to the Gendered Pronoun Resolution Challenge

Arxiv

4+阅读 · 2019年5月6日

Universal Transformers

Universal Transformers

Arxiv

5+阅读 · 2019年3月5日

Variational Inference In Pachinko Allocation Machines

Arxiv

8+阅读 · 2018年4月21日

Integrating semi-supervised label propagation and random forests for multi-atlas based hippocampus segmentation

Arxiv

3+阅读 · 2017年12月31日

微信扫码咨询专知VIP会员