TaylarGAN: 邻里-强化政策更新,供采样有效自然语言一代使用 (TaylorGAN: Neighbor-Augmented Policy Update for Sample-Efficient Natural Language Generation) - 专知论文

会员服务 ·

0

可约的 · 极大似然 · 样本 · 估计/估计量 · 离散化 ·

2020 年 11 月 27 日

TaylorGAN: Neighbor-Augmented Policy Update for Sample-Efficient Natural Language Generation

翻译：TaylarGAN: 邻里-强化政策更新,供采样有效自然语言一代使用

Chun-Hsing Lin,Siang-Ruei Wu,Hung-Yi Lee,Yun-Nung Chen

from arxiv, 34th Conference on Neural Information Processing Systems (NeurIPS 2020), Vancouver, Canada

Score function-based natural language generation (NLG) approaches such as REINFORCE, in general, suffer from low sample efficiency and training instability problems. This is mainly due to the non-differentiable nature of the discrete space sampling and thus these methods have to treat the discriminator as a black box and ignore the gradient information. To improve the sample efficiency and reduce the variance of REINFORCE, we propose a novel approach, TaylorGAN, which augments the gradient estimation by off-policy update and the first-order Taylor expansion. This approach enables us to train NLG models from scratch with smaller batch size -- without maximum likelihood pre-training, and outperforms existing GAN-based methods on multiple metrics of quality and diversity. The source code and data are available at https://github.com/MiuLab/TaylorGAN

翻译：以计分函数为基础的自然语言生成(NLG)方法,如REINFORCE(REINFORCE),一般而言,受到低抽样效率和培训不稳定问题的影响,这主要是由于离散空间取样的无差别性质,因此这些方法必须把歧视者当作黑盒,忽略梯度信息。为了提高抽样效率,减少REINFORCE的差异,我们提议一种新颖的方法,即TaylerGAN,它通过非政策更新和第一阶的泰勒扩展来增加梯度估计。这个方法使我们能够从小批量的零到零来培训NLG模型 -- -- 没有最大的可能的培训前,并且超越现有基于GAN的关于质量和多样性的多种衡量标准的方法。源代码和数据见https://github.com/MiuLab/TaylorGAN。

0

相关内容

可约的

最新《生成式对抗网络》简介，25页ppt

最新《生成式对抗网络》简介，25页ppt

专知会员服务

175+阅读 · 2020年6月28日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

生成式对抗网络GAN异常检测

生成式对抗网络GAN异常检测

专知会员服务

118+阅读 · 2019年10月13日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

Call for Participation: Shared Tasks in NLPCC 2019

Call for Participation: Shared Tasks in NLPCC 2019

中国计算机学会

5+阅读 · 2019年3月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

spinningup.openai 强化学习资源完整

spinningup.openai 强化学习资源完整

CreateAMind

6+阅读 · 2018年12月17日

【NIPS2018】接收论文列表

【NIPS2018】接收论文列表

专知

5+阅读 · 2018年9月10日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

产业智能官

6+阅读 · 2017年9月1日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

Cooperative and Competitive Biases for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年1月18日

Joint Energy-based Model Training for Better Calibrated Natural Language Understanding Models

Arxiv

0+阅读 · 2021年1月18日

Contrastive Triple Extraction with Generative Transformer

Arxiv

4+阅读 · 2020年12月15日

Improving Candidate Generation for Low-resource Cross-lingual Entity Linking

Arxiv

8+阅读 · 2020年3月3日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

A Meta-Learning Framework for Generalized Zero-Shot Learning

A Meta-Learning Framework for Generalized Zero-Shot Learning

Arxiv

3+阅读 · 2019年9月10日

Knowledge Aware Conversation Generation with Reasoning on Augmented Graph

Arxiv

4+阅读 · 2019年3月25日

Feature-Based Aggregation and Deep Reinforcement Learning: A Survey and Some New Implementations

Arxiv

9+阅读 · 2018年4月22日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

VIP会员

文章信息

相关主题

估计/估计量

相关VIP内容

最新《生成式对抗网络》简介，25页ppt

最新《生成式对抗网络》简介，25页ppt

专知会员服务

175+阅读 · 2020年6月28日

【ACL2020】对抗性文本生成，Improving Adversarial Text Generation

专知会员服务

52+阅读 · 2020年5月5日

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

图像分类技巧集，17页ppt《Bag of Tricks for Image Classification》

专知会员服务

95+阅读 · 2020年3月12日

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

【微软雷德蒙研究院】小样本自然语言生成，Few-shot Natural Language Generation for Task-Oriented Dialog

专知会员服务

33+阅读 · 2020年2月29日

深度强化学习策略梯度教程，53页ppt

深度强化学习策略梯度教程，53页ppt

专知会员服务

184+阅读 · 2020年2月1日

UC.Berkeley CS189讲义教材:《机器学习全面指南》，185页pdf

专知会员服务

162+阅读 · 2020年1月16日

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

Connections between Support Vector Machines, Wasserstein distance and gradient-penalty GANs

专知会员服务

36+阅读 · 2019年10月17日

生成式对抗网络GAN异常检测

生成式对抗网络GAN异常检测

专知会员服务

118+阅读 · 2019年10月13日

强化学习最新教程，17页pdf

强化学习最新教程，17页pdf

专知会员服务

182+阅读 · 2019年10月11日

最新BERT相关论文清单，BERT-related Papers

最新BERT相关论文清单，BERT-related Papers

专知会员服务

53+阅读 · 2019年9月29日

热门VIP内容

开通专知VIP会员享更多权益服务

从社会学实验到行为仿真：理解基于Agent的观点动力学建模思维

中英文版《GPT-5 System Card速览》报告

ACL 2025 | 大模型结构化知识提示的泛化能力研究

【普林斯顿博士论文】大型模型的高效推理

相关资讯

Call for Participation: Shared Tasks in NLPCC 2019

Call for Participation: Shared Tasks in NLPCC 2019

中国计算机学会

5+阅读 · 2019年3月22日

逆强化学习-学习人先验的动机

逆强化学习-学习人先验的动机

CreateAMind

16+阅读 · 2019年1月18日

无监督元学习表示学习

无监督元学习表示学习

CreateAMind

27+阅读 · 2019年1月4日

spinningup.openai 强化学习资源完整

spinningup.openai 强化学习资源完整

CreateAMind

6+阅读 · 2018年12月17日

【NIPS2018】接收论文列表

【NIPS2018】接收论文列表

专知

5+阅读 · 2018年9月10日

【论文】变分推断（Variational inference)的总结

【论文】变分推断（Variational inference)的总结

机器学习研究会

39+阅读 · 2017年11月16日

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

【强化学习】NIPS的最佳论文强化学习Value iteration Network 及代码；目前深度学习和增强学习交叉应用最火

产业智能官

6+阅读 · 2017年9月1日

Auto-Encoding GAN

Auto-Encoding GAN

CreateAMind

7+阅读 · 2017年8月4日

强化学习族谱

强化学习族谱

CreateAMind

26+阅读 · 2017年8月2日

强化学习 cartpole_a3c

强化学习 cartpole_a3c

CreateAMind

9+阅读 · 2017年7月21日

相关论文

Cooperative and Competitive Biases for Multi-Agent Reinforcement Learning

Arxiv

0+阅读 · 2021年1月18日

Joint Energy-based Model Training for Better Calibrated Natural Language Understanding Models

Arxiv

0+阅读 · 2021年1月18日

Contrastive Triple Extraction with Generative Transformer

Arxiv

4+阅读 · 2020年12月15日

Improving Candidate Generation for Low-resource Cross-lingual Entity Linking

Arxiv

8+阅读 · 2020年3月3日

Few-shot Natural Language Generation for Task-Oriented Dialog

Few-shot Natural Language Generation for Task-Oriented Dialog

Arxiv

30+阅读 · 2020年2月27日

A Meta-Learning Framework for Generalized Zero-Shot Learning

A Meta-Learning Framework for Generalized Zero-Shot Learning

Arxiv

3+阅读 · 2019年9月10日

Knowledge Aware Conversation Generation with Reasoning on Augmented Graph

Arxiv

4+阅读 · 2019年3月25日

Feature-Based Aggregation and Deep Reinforcement Learning: A Survey and Some New Implementations

Arxiv

9+阅读 · 2018年4月22日

Generative Adversarial Autoencoder Networks

Arxiv

11+阅读 · 2018年3月23日

SeqGAN: Sequence Generative Adversarial Nets with Policy Gradient

Arxiv

5+阅读 · 2017年8月25日

微信扫码咨询专知VIP会员