少即是多？非参数语言模型，68页ppt - 专知VIP

会员服务 ·

3

语言模型 · 非参数模型 ·

2020 年 11 月 22 日

少即是多？非参数语言模型，68页ppt

专知会员服务

专知，提供专业可信的知识分发服务，让认知协作更快更好！

原型驱动的文本生成使用非参数模型，该模型首先从句子库中选择“原型”，然后修改原型生成输出文本。这些方法虽然有效，但测试时效率低下，因为需要对整个训练语料库进行存储和索引。此外，现有的方法通常需要启发式来确定在训练时引用哪个原型。在本文中，我们提出了一种新的生成模型，它可以自动学习稀疏原型支持集，同时也可以获得较强的语言建模性能。通过(1)在原型选择分布上施加稀疏诱导先验，(2)利用平摊变分推理学习原型检索函数来实现。在实验中，我们的模型优于以前的原型驱动的语言模型，同时实现了高达1000倍的内存减少，以及测试时1000倍的加速。更有趣的是，当我们改变原型选择的稀疏性时，我们展示了学习的原型能够在不同的粒度捕获语义和语法，并且可以通过指定生成的原型来控制某些句子属性。

https://arxiv.org/abs/2006.16336

成为VIP会员查看完整内容

24

相关内容

语言模型

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【NeurIPS 2020】近似推断进展，272页ppt

【NeurIPS 2020】近似推断进展，272页ppt

专知会员服务

33+阅读 · 2020年12月11日

【EMNLP2020】序列知识蒸馏进展，44页ppt

【EMNLP2020】序列知识蒸馏进展，44页ppt

专知会员服务

39+阅读 · 2020年11月21日

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

专知会员服务

27+阅读 · 2020年11月10日

【纽约大学Sean】神经文本退化:一致性和学习，93页ppt

【纽约大学Sean】神经文本退化:一致性和学习，93页ppt

专知会员服务

16+阅读 · 2020年10月18日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【ICML2020】机器学习无参数在线优化，294页ppt

【ICML2020】机器学习无参数在线优化，294页ppt

专知会员服务

55+阅读 · 2020年8月1日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

机器学习算法与Python学习

8+阅读 · 2019年10月27日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

专知

49+阅读 · 2019年3月7日

自然语言处理中的词表征（第二部分）

自然语言处理中的词表征（第二部分）

AI研习社

3+阅读 · 2018年12月31日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

一文读懂神经网络(附PPT、视频)

一文读懂神经网络(附PPT、视频)

数据派THU

17+阅读 · 2018年3月25日

CINDy: Conditional gradient-based Identification of Non-linear Dynamics -- Noise-robust recovery

Arxiv

0+阅读 · 2021年1月7日

Distributed Quantum Faithful Simulation and Function Computation Using Algebraic Structured Measurements

Arxiv

0+阅读 · 2021年1月7日

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Arxiv

6+阅读 · 2018年7月5日

Large-Scale Stochastic Sampling from the Probability Simplex

Arxiv

3+阅读 · 2018年6月19日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Directional Statistics-based Deep Metric Learning for Image Classification and Retrieval

Arxiv

6+阅读 · 2018年3月28日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

Composition of PPT Maps

Arxiv

6+阅读 · 2017年12月7日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

VIP会员

相关主题

非参数模型

相关VIP内容

最新《弱监督预训练语言模型微调》报告，52页ppt

最新《弱监督预训练语言模型微调》报告，52页ppt

专知会员服务

38+阅读 · 2020年12月26日

【NeurIPS 2020】近似推断进展，272页ppt

【NeurIPS 2020】近似推断进展，272页ppt

专知会员服务

33+阅读 · 2020年12月11日

【EMNLP2020】序列知识蒸馏进展，44页ppt

【EMNLP2020】序列知识蒸馏进展，44页ppt

专知会员服务

39+阅读 · 2020年11月21日

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

【InterSpeech2020】最新《高效与灵活的机器学习实现》教程，177页ppt

专知会员服务

27+阅读 · 2020年11月10日

【纽约大学Sean】神经文本退化:一致性和学习，93页ppt

【纽约大学Sean】神经文本退化:一致性和学习，93页ppt

专知会员服务

16+阅读 · 2020年10月18日

【NeurIPS 2020】融入BERT到并行序列模型

【NeurIPS 2020】融入BERT到并行序列模型

专知会员服务

26+阅读 · 2020年10月15日

【ICML2020】机器学习无参数在线优化，294页ppt

【ICML2020】机器学习无参数在线优化，294页ppt

专知会员服务

55+阅读 · 2020年8月1日

【视频】几何数据嵌入表示学习，74页ppt

【视频】几何数据嵌入表示学习，74页ppt

专知会员服务

35+阅读 · 2020年7月24日

【ICML2020】统一预训练伪掩码语言模型

【ICML2020】统一预训练伪掩码语言模型

专知会员服务

27+阅读 · 2020年7月23日

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

【ICML2020-伯克利】反直觉！大模型重压缩提升Transformer的训练和推理效率，47页ppt

专知会员服务

70+阅读 · 2020年7月1日

热门VIP内容

开通专知VIP会员享更多权益服务

【牛津博士论文】零样本强化学习综述

《美军条令：陆军指挥官与规划人员地理空间指南》60页

战术边缘指挥控制：防务面临的核心挑战

迈向开放世界检测：综述

相关资讯

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

最新《深度生成式模型进展》视频报告，43页ppt，斯坦福Aditya Grover

专知

13+阅读 · 2020年8月9日

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

谷歌 | 最新110亿参数的T5模型17项NLP任务霸榜SuperGLUE！

机器学习算法与Python学习

8+阅读 · 2019年10月27日

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

[Google]BERT压缩到7MB！最新基于最优子词和共享投影的极限语言压缩模型

专知

31+阅读 · 2019年10月6日

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

参数少一半，效果还更好，天津大学和微软提出Transformer压缩模型

机器之心

15+阅读 · 2019年7月13日

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

【干货】NLP中的迁移学习教程来啦！（238页PPT下载）

新智元

35+阅读 · 2019年6月3日

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

逆天语言模型GPT-2最新开源：345M预训练模型和1.5B参数都来了

量子位

18+阅读 · 2019年5月4日

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

BERT一作Jacob Devlin斯坦福演讲PPT：BERT介绍与答疑

专知

49+阅读 · 2019年3月7日

自然语言处理中的词表征（第二部分）

自然语言处理中的词表征（第二部分）

AI研习社

3+阅读 · 2018年12月31日

自然语言处理中的语言模型预训练方法

自然语言处理中的语言模型预训练方法

PaperWeekly

14+阅读 · 2018年10月21日

一文读懂神经网络(附PPT、视频)

一文读懂神经网络(附PPT、视频)

数据派THU

17+阅读 · 2018年3月25日

相关论文

CINDy: Conditional gradient-based Identification of Non-linear Dynamics -- Noise-robust recovery

Arxiv

0+阅读 · 2021年1月7日

Distributed Quantum Faithful Simulation and Function Computation Using Algebraic Structured Measurements

Arxiv

0+阅读 · 2021年1月7日

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Generating Realistic Geology Conditioned on Physical Measurements with Generative Adversarial Networks

Arxiv

6+阅读 · 2018年7月5日

Large-Scale Stochastic Sampling from the Probability Simplex

Arxiv

3+阅读 · 2018年6月19日

Image Captioning

Arxiv

11+阅读 · 2018年5月13日

Directional Statistics-based Deep Metric Learning for Image Classification and Retrieval

Arxiv

6+阅读 · 2018年3月28日

Latent nested nonparametric priors

Arxiv

4+阅读 · 2018年1月15日

Multilingual Topic Models

Arxiv

3+阅读 · 2017年12月18日

Composition of PPT Maps

Arxiv

6+阅读 · 2017年12月7日

A Structured Self-attentive Sentence Embedding

Arxiv

24+阅读 · 2017年3月9日

微信扫码咨询专知VIP会员