The main advantages of diffusion language models over autoregressive (AR) models lie in their ability to support parallel generation and bidirectional attention, enabling a more controllable generation process. In recent years, open-source mask diffusion language models have emerged, most of which are based on a variant known as absorbing diffusion. However, this paper demonstrates why mask diffusion faces inherent difficulties in achieving parallel generation and bidirectional attention. We also propose the most effective training and inference strategies for mask diffusion.


翻译:扩散语言模型相较于自回归模型的主要优势在于其支持并行生成和双向注意力机制,从而能够实现更可控的生成过程。近年来,开源掩码扩散语言模型逐渐兴起,其中多数基于一种称为吸收扩散的变体。然而,本文论证了掩码扩散在实现并行生成和双向注意力方面存在固有困难。我们同时提出了针对掩码扩散最有效的训练与推理策略。

0
下载
关闭预览

相关内容

【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【CVPR2022】循环动态嵌入的视频目标分割
专知会员服务
19+阅读 · 2022年5月16日
【NeurIPS 2021】实例依赖的偏标记学习
专知会员服务
11+阅读 · 2021年11月28日
自回归模型:PixelCNN
专知会员服务
28+阅读 · 2020年3月21日
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Arxiv
0+阅读 · 12月24日
VIP会员
相关VIP内容
【ICML2023】SEGA:结构熵引导的图对比学习锚视图
专知会员服务
23+阅读 · 2023年5月10日
【NeurIPS2022】分布式自适应元强化学习
专知会员服务
24+阅读 · 2022年10月8日
【CVPR2022】循环动态嵌入的视频目标分割
专知会员服务
19+阅读 · 2022年5月16日
【NeurIPS 2021】实例依赖的偏标记学习
专知会员服务
11+阅读 · 2021年11月28日
自回归模型:PixelCNN
专知会员服务
28+阅读 · 2020年3月21日
相关资讯
【MIT】硬负样本的对比学习
专知
13+阅读 · 2020年10月15日
使用 Keras Tuner 调节超参数
TensorFlow
15+阅读 · 2020年2月6日
基于 Keras 用深度学习预测时间序列
R语言中文社区
23+阅读 · 2018年7月27日
使用CNN生成图像先验实现场景的盲图像去模糊
统计学习与视觉计算组
10+阅读 · 2018年6月14日
相关基金
国家自然科学基金
46+阅读 · 2015年12月31日
国家自然科学基金
3+阅读 · 2014年12月31日
国家自然科学基金
6+阅读 · 2014年12月31日
国家自然科学基金
5+阅读 · 2014年12月31日
国家自然科学基金
0+阅读 · 2014年12月31日
Top
微信扫码咨询专知VIP会员