自回归(Autoregressive, AR)语言模型以逐 token 的方式生成文本,这限制了其推理速度。扩散式语言模型(Diffusion-based LMs)提供了一种有前景的替代方案,因为它们可以并行解码多个 token。然而,我们发现现有扩散语言模型存在一个关键瓶颈:长解码窗口问题,即生成位置远离输入上下文的 token 往往变得无关或重复。以往的解决方案(如半自回归方法)通过将窗口划分为块来缓解该问题,但这会牺牲速度与双向性,从而削弱扩散模型的主要优势。 为解决这一问题,我们提出了卷积解码(Convolutional decoding, Conv),这是一种基于归一化的方法,可在无需硬性分段的情况下缩小解码窗口,从而提升流畅性与灵活性。此外,我们引入了拒斥规则微调(Rejecting Rule-based Fine-Tuning, R2FT),这是一种后处理训练机制,能够更好地对齐远离上下文位置的 token。 在开放式生成基准(如 AlpacaEval)上的实验结果表明,我们的方法在扩散语言模型的基线中取得了最新最优性能,并显著减少了步长,相较于以往工作同时实现了速度与质量的提升。代码已在 GitHub 上公开。

成为VIP会员查看完整内容
1

相关内容

【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
专知会员服务
22+阅读 · 2021年10月8日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
专知会员服务
36+阅读 · 2020年11月29日
【CVPR2021】跨模态检索的概率嵌入
专知
17+阅读 · 2021年3月2日
【NeurIPS 2020】核基渐进蒸馏加法器神经网络
专知
13+阅读 · 2020年10月19日
如何使用自然语言工具包(NLTK)在Python3中执行情感分析
Python程序员
21+阅读 · 2019年10月28日
基于Tacotron模型的语音合成实践
深度学习每日摘要
15+阅读 · 2018年12月25日
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
Arxiv
171+阅读 · 2023年4月20日
A Survey of Large Language Models
Arxiv
482+阅读 · 2023年3月31日
Arxiv
18+阅读 · 2021年3月16日
Augmentation for small object detection
Arxiv
12+阅读 · 2019年2月19日
VIP会员
相关VIP内容
【CVPR2024】掩码自解码器是有效的多任务视觉通用模型
专知会员服务
20+阅读 · 2024年3月16日
【AAAI2024】面向序列推荐的插件扩散模型
专知会员服务
27+阅读 · 2024年1月9日
【KDD2023】协同过滤的高效联合超参数和架构搜索
专知会员服务
23+阅读 · 2023年7月23日
专知会员服务
22+阅读 · 2021年10月8日
【SIGIR2021】基于嵌入的增量式时序知识图谱补全框架
专知会员服务
63+阅读 · 2021年4月21日
专知会员服务
36+阅读 · 2020年11月29日
相关基金
国家自然科学基金
15+阅读 · 2017年12月31日
国家自然科学基金
2+阅读 · 2016年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
2+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2015年12月31日
国家自然科学基金
1+阅读 · 2015年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
国家自然科学基金
4+阅读 · 2014年12月31日
微信扫码咨询专知VIP会员