【ACL2020-Allen AI】预训练语言模型中的无监督域聚类 - 专知VIP

会员服务 ·

0

ACL 2020 · 预训练模型 · 无监督域聚类 ·

2020 年 4 月 7 日

【ACL2020-Allen AI】预训练语言模型中的无监督域聚类

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

在NLP中，“域内数据”的概念常常过于简单和模糊，因为文本数据在许多细微的语言方面存在差异，比如主题、风格或正式程度。此外，域标签很多时候是不可用的，这使得构建特定于域的系统变得很困难。我们证明了大量的预先训练的语言模型隐式地学习句子表示，这些句子表示在没有监督的情况下由域进行聚类——这表明文本数据中域的简单数据驱动定义。我们利用这一特性，提出了基于这些模型的域数据选择方法，这些方法只需要少量的域内单语数据。我们评估了我们的神经机器翻译的数据选择方法在五个不同的领域，在这些领域中，它们的表现优于现有的方法，包括BLEU和句子选择的精确度以及对oracle的召回率。

成为VIP会员查看完整内容

24

相关内容

ACL 2020

【ACL2020】多模态信息抽取，365页ppt

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

150+阅读 · 2020年7月6日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【ACL2020】利用模拟退火实现无监督复述

【ACL2020】利用模拟退火实现无监督复述

专知会员服务

14+阅读 · 2020年5月26日

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

专知会员服务

35+阅读 · 2020年5月1日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

专知

32+阅读 · 2019年8月17日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

15+阅读 · 2019年7月16日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

论文浅尝 | 基于知识库的自然语言理解 01#

论文浅尝 | 基于知识库的自然语言理解 01#

开放知识图谱

15+阅读 · 2019年2月22日

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

中国人工智能学会

7+阅读 · 2019年2月15日

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

机器之心

10+阅读 · 2019年1月1日

自然语言推理数据集“人工痕迹”严重，模型性能被高估

自然语言推理数据集“人工痕迹”严重，模型性能被高估

论智

4+阅读 · 2018年3月13日

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

Neural Module Networks for Reasoning over Text

Neural Module Networks for Reasoning over Text

Arxiv

9+阅读 · 2019年12月10日

Zero-Resource Cross-Lingual Named Entity Recognition

Arxiv

5+阅读 · 2019年11月22日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Anonymized BERT: An Augmentation Approach to the Gendered Pronoun Resolution Challenge

Anonymized BERT: An Augmentation Approach to the Gendered Pronoun Resolution Challenge

Arxiv

4+阅读 · 2019年5月6日

Language GANs Falling Short

Arxiv

7+阅读 · 2018年11月6日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

SpectralLeader: Online Spectral Learning for Single Topic Models

Arxiv

4+阅读 · 2018年4月26日

VIP会员

相关主题

预训练模型

无监督域聚类

相关VIP内容

【ACL2020】多模态信息抽取，365页ppt

【ACL2020】多模态信息抽取，365页ppt

专知会员服务

150+阅读 · 2020年7月6日

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

【KDD2020】图神经网络生成式预训练，GPT-GNN: Generative Pre-Training of Graph Neural Networks

专知会员服务

99+阅读 · 2020年7月3日

【ACL2020】利用模拟退火实现无监督复述

【ACL2020】利用模拟退火实现无监督复述

专知会员服务

14+阅读 · 2020年5月26日

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

【ACL2020-复旦大学NLP】异构图神经网络的文档摘要提取

专知会员服务

35+阅读 · 2020年5月1日

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

【ACL2020】不要停止预训练:根据领域和任务自适应调整语言模型，Don't Stop Pretraining: Adapt Language Models to Domains and Tasks

专知会员服务

46+阅读 · 2020年4月25日

【ACL2020-Google】逆向工程配置的神经文本生成模型

【ACL2020-Google】逆向工程配置的神经文本生成模型

专知会员服务

17+阅读 · 2020年4月20日

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

【微软亚研】预训练文本表示作为元学习，Pre-training Text Representations

专知会员服务

40+阅读 · 2020年4月17日

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

【ACL2020-Facebook AI】跨语言表示学习，Unsupervised Cross-lingual Representation Learning at Scale

专知会员服务

27+阅读 · 2020年4月5日

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

【ACL2020-Facebook AI】大规模无监督跨语言表示学习

专知会员服务

34+阅读 · 2020年4月5日

【Amazon】使用预先训练的Transformer模型进行数据增强

【Amazon】使用预先训练的Transformer模型进行数据增强

专知会员服务

58+阅读 · 2020年3月6日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

基于知识蒸馏的BERT模型压缩

基于知识蒸馏的BERT模型压缩

大数据文摘

18+阅读 · 2019年10月14日

论文浅尝 | XQA：一个跨语言开放域问答数据集

论文浅尝 | XQA：一个跨语言开放域问答数据集

开放知识图谱

26+阅读 · 2019年9月11日

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

【EMNLP2019】最新5篇论文推荐，BERT，对话系统，知识图谱，注意力机制等

专知

32+阅读 · 2019年8月17日

Bert 之后：预训练语言模型与自然语言生成

Bert 之后：预训练语言模型与自然语言生成

AINLP

15+阅读 · 2019年7月16日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

BERT-预训练的强大

BERT-预训练的强大

微信AI

60+阅读 · 2019年3月7日

论文浅尝 | 基于知识库的自然语言理解 01#

论文浅尝 | 基于知识库的自然语言理解 01#

开放知识图谱

15+阅读 · 2019年2月22日

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

迄今最大模型？OpenAI发布参数量高达15亿的通用语言模型GPT-2

中国人工智能学会

7+阅读 · 2019年2月15日

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

ELMo的朋友圈：预训练语言模型真的一枝独秀吗？

机器之心

10+阅读 · 2019年1月1日

自然语言推理数据集“人工痕迹”严重，模型性能被高估

自然语言推理数据集“人工痕迹”严重，模型性能被高估

论智

4+阅读 · 2018年3月13日

相关论文

Unsupervised Domain Clusters in Pretrained Language Models

Arxiv

11+阅读 · 2020年4月5日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

Differentiable Reasoning on Large Knowledge Bases and Natural Language

Arxiv

12+阅读 · 2019年12月17日

Neural Module Networks for Reasoning over Text

Neural Module Networks for Reasoning over Text

Arxiv

9+阅读 · 2019年12月10日

Zero-Resource Cross-Lingual Named Entity Recognition

Arxiv

5+阅读 · 2019年11月22日

Question Generation by Transformers

Question Generation by Transformers

Arxiv

5+阅读 · 2019年9月14日

Anonymized BERT: An Augmentation Approach to the Gendered Pronoun Resolution Challenge

Anonymized BERT: An Augmentation Approach to the Gendered Pronoun Resolution Challenge

Arxiv

4+阅读 · 2019年5月6日

Language GANs Falling Short

Arxiv

7+阅读 · 2018年11月6日

A Tidy Data Model for Natural Language Processing using cleanNLP

Arxiv

4+阅读 · 2018年5月3日

SpectralLeader: Online Spectral Learning for Single Topic Models

Arxiv

4+阅读 · 2018年4月26日

微信扫码咨询专知VIP会员